image.png

Sonnet 4.5 & the AI Plateau Myth — Sholto Douglas (Anthropic)

https://www.youtube.com/watch?v=FQy4YMYFLsI

트랜스크립트: https://www.assemblyai.com/dashboard/playground/transcript/0c850557-e233-4030-8a12-5af11055059c

번역 (비공개): https://chatgpt.com/c/68dfbcc0-999c-8320-8477-15d1a0317b68


🍀 오프닝

😗: 드디어 올해가 본격적으로 컴퓨트 슈퍼사이클이 시작되는 시점이라고 봅니다. 지난 3년 동안 사람들은 매달 “이번엔 정체기에 들어섰다”고 말해 왔어요. 그런데 제 관점에서 보면, 지금의 모델 제작 파이프라인은 말 그대로 임시방편과 밤샘 노력으로 겨우 굴러가는 원시적 시스템이고, 손볼 곳이 정말 많습니다. 거의 모든 부분에서 더 좋아질 수 있죠. 그리고 우리가 측정할 수 있는 모든 지표가 아주 빠르게 향상되고 있어요. 지수 성장에 베팅하세요.

🙂: 안녕하세요, 퍼스트마크의 Matt Turk입니다. 이번 주 Claude Sonnet 4.5 출시를 기념해 MAD 팟캐스트 스페셜 에피소드로 Anthropic의 놀라운 연구자 Sholto Douglas를 모셨습니다. 이 대화에서는 Sonnet 4.5가 어떻게 세계 최고의 코딩 모델이 되었는지, 그리고 AI 에이전트가 30시간 연속으로 작업할 때 무슨 일이 일어나는지를 무대 뒤에서 다룹니다. 또 프런티어 AI, 대형 AI 연구소의 운영 방식, 우리가 AGI로 가는 길에 얼마나 와 있는지에 대해서도 이야기했어요. 제 요청으로, Sholto가 강화학습, 컴퓨터 사용, AI 벤치마크 같은 핵심 개념을 전문 용어 없이 쉬운 영어로 풀어 주었습니다. 그럼 즐겁게 들어 주세요. Sholto, 환영합니다.

😗: 잘 지내시죠? 초대해 주셔서 감사합니다.

🙂: 이번 주의 핫이슈인 Sonnet 4.5 출시 축하드려요. 준비하면서 Anthropic의 출시 페이스를 되짚어 봤는데, 특히 그때 엄청난 반향을 일으킨 Sonnet 3.7 말이죠. 제 머릿속에선 “작년 일이겠지”라고 느꼈는데, 사실 올해 2월이었더라고요. 이 빠른 출시 페이스를 가속화되는 진보의 대리 지표로 봐도 될까요?

😗: 네, 두 가지를 시사한다고 봅니다. 첫째, 과거에는 사전학습(pre-training) 스케일링과 강화학습(RL) 스케일링이 따로였는데, 이제는 두 패러다임이 혼합된 체제가 되었어요. 덕분에 여러 전선에서 동시에 진전을 낼 수 있고, 업데이트도 더 자주 내보낼 수 있죠. 둘째, 지금이 ChatGPT 이후 약 2년 반 지점이라, 투자 사이클이 본격적으로 컴퓨트 가용성 증가로 이어지는 시기예요. 칩을 발주해서 받기까지 리드타임이 있고, TSMC가 꽉 차 있던 작년에는 아무리 원해도 칩을 못 구했죠. 그러니 올해부터 컴퓨트 슈퍼사이클이 제대로 시작된다고 보는 게 맞습니다.


🍀 Anthropic 모델 라인업 한눈에

🙂: 청취자들을 위해 간단히 정리하자면, Sonnet, Opus, Haiku… 각각 무엇이고 어떻게 다른가요?

😗: 우리는 세 개 티어로 모델을 냅니다. Opus는 가장 영리한 최상위 모델, Sonnet은 중간 티어, Haiku는 가장 빠르고 저렴한 모델이죠. 흥미로운 점은 이번 릴리스에서 Sonnet이 Opus보다 더 똑똑하다는 겁니다. 사실 작년에도 이런 일이 있었어요. 이유는 단순합니다. 중간 티어 모델의 학습비용이 더 낮아서 실험과 개선을 더 자주 할 수 있고, 그러다 보면 이전에 크게 스케일업했던 상위 모델보다 새로운 중간 모델이 더 잘 나올 때가 있어요. 게다가 요즘은 강화학습으로 중간 모델을 한 단계 더 밀어 올려서, 6개월 전 대형 모델 수준까지 끌어올리는 게 가능하기도 하고요.


🍀 Sholto의 여정: 호주에서 연구 최전선까지

🙂: 본격적인 내용에 앞서, Anthropic에 오기까지의 이야기와 지금 하는 일부터 들려주세요.