대단했으나 밋밋했던 초호화쇼, 살펴볼 포인트

2025년 10월 11일

Sonnet 4.5와 ‘AI 정체기(Plateau) 신화’

image.png

더 중요한 건 고객과 파트너의 체감이에요. 예를 들어 Cognition의 Devin 팀은 모델이 너무 유용해서 아키텍처를 아예 다시 짰다고 했죠. 멋진 블로그 글도 있었고요.

🙂: 네, 그 포스트 정말 좋았어요.

😗: 맞아요. 그리고 실전에서 사람들이 전에는 못 하던 걸 해내게 해 주느냐가 진짜 지표라고 생각합니다. 작년 Sonnet 3.5가 처음으로 ‘앞에서 시켜도 스스로 코드베이스와 컴퓨터를 만지는’ 에이전틱 코딩을 가능하게 하면서 Cursor가 PMF를 얻었고, Windsurf는 그보다 한발 더 나아가 더 긴 에이전시를 과감히 베팅했죠.

🙂: 스타트업에 주는 교훈 하나—“6개월 뒤 모델이 할 수 있을 것에 베팅하라”겠네요.

😗: 그렇죠. 지수 성장에 베팅이요. 예전엔 모델을 30초마다 감독해야 했다면, 곧 10~20분마다 한 번이면 될 겁니다(과제 난이도에 따라). 우리는 실제로 모델에게 슬랙 비슷한 채팅 앱을 만들게 했더니 30시간 내내 돌아가서 제법 쓸 만한 결과물을 냈어요. 이런 건 아직 대부분의 제품에 완전히 녹아들진 않았지만, Cognition처럼 장기 에이전시에 베팅한 곳은 지금이 PMF 순간일 수 있죠.

image.png

Cognition | Rebuilding Devin for Claude Sonnet 4.5: Lessons and Challenges

[컨텍스 인식과 불안](https://erucipe.notion.site/288d5c9e7e59806f9960f10f593fa0c5)

“6개월 뒤 모델이 할 수 있을 것에 베팅하라”

METR 시간 지평에서 GPT-5 보다 아래의 Sonnet 4.5

METR on Twitter / X

image.png

이런 저런 실험들

https://claude.ai/settings/features

image.png

https://claude.ai/chat/04082508-2f8e-4ffd-8125-424517a02c67