2025년 10월 5일
Rebuilding Devin for Claude Sonnet 4.5: Lessons and Challenges
Cognition | Rebuilding Devin for Claude Sonnet 4.5: Lessons and Challenges
Claude Sonnet 4.5를 위한 Devin 재구축: 교훈과 과제
우리는 Claude Sonnet 4.5를 위해 Devin을 재구축했습니다. 새 버전은 2배 빠르고, Junior Developer Evals에서 12% 더 나은 성능을 보이며, 현재 Agent Preview에서 사용할 수 있습니다. 기존 Devin을 선호하는 사용자를 위해서는 기존 버전도 계속 제공됩니다.
Devin은 단순히 코드를 자동완성하거나 코파일럿 역할을 하는 것이 아니라, 계획하고 실행하며 반복하는 에이전트이기 때문에, 우리는 모델 능력에 대한 특별한 관점을 얻습니다. 각각의 개선사항이 피드백 루프 전반에 걸쳐 복합적으로 작용하여, 무엇이 진정으로 변화했는지에 대한 관점을 제공합니다. Sonnet 4.5에서 우리는 Sonnet 3.6(Devin의 정식 출시에 사용된 모델) 이후 가장 큰 도약을 보고 있습니다: 계획 성능은 18% 향상되었고, 종단간 평가 점수는 12% 향상되었으며, 여러 시간 동안 진행되는 세션이 훨씬 빠르고 안정적입니다.
이러한 개선을 얻기 위해, 우리는 모델의 새로운 기능뿐만 아니라, 이전 세대 모델에서는 전혀 발견하지 못했던 몇 가지 새로운 행동 패턴에 맞춰 Devin을 재작업해야 했습니다. 다음은 우리의 관찰 내용입니다:
Sonnet 4.5는 우리가 본 모델 중 자신의 컨텍스트 윈도우를 인식하는 첫 번째 모델이며, 이것이 모델의 행동 방식을 형성합니다. 컨텍스트 한계에 가까워질수록, 우리는 모델이 자발적으로 진행 상황을 요약하고 작업을 마무리하기 위한 수정 사항을 구현하는 데 더 결단력 있게 행동하는 것을 관찰했습니다.
이러한 “컨텍스트 불안”은 실제로 성능을 해칠 수 있습니다: 우리는 모델이 윈도우의 끝에 가까이 있다고 믿을 때, 실제로는 충분한 공간이 남아있음에도 불구하고 지름길을 택하거나 작업을 불완전하게 남겨두는 것을 발견했습니다.
우리는 이 행동을 억제하기 위해 상당히 공격적으로 프롬프팅했습니다. 그럼에도 불구하고, 대화 시작 시점의 프롬프트만으로는 충분하지 않다는 것을 발견했습니다. 모델이 조기에 작업을 마무리하는 것을 막기 위해 프롬프트의 시작과 끝 모두에 알림을 추가해야 했습니다.
이 문제를 해결하는 방법을 연구하던 중, 우리는 잘 작동하는 예상치 못한 트릭을 발견했습니다: 1M 토큰 베타를 활성화하되 사용량을 200k로 제한하는 것입니다. 이렇게 하면 모델이 충분한 여유가 있다고 생각하고 정상적으로 행동하며, 불안 중심의 지름길이나 성능 저하 없이 작동합니다.
이 행동은 컨텍스트 관리를 중심으로 설계하는 방법에 실질적인 영향을 미칩니다. 토큰 예산을 계획할 때, 이제 우리는 모델 자체의 인식을 고려해야 합니다: 모델이 자연스럽게 요약하고 싶어할 때와 우리가 컨텍스트 압축으로 개입해야 할 때를 알아야 합니다.
흥미롭게도, 모델은 남은 토큰 수를 일관되게 과소평가합니다. 그리고 이러한 잘못된 추정치에 대해 매우 정확합니다.
Sonnet 4.5의 가장 눈에 띄는 변화 중 하나는 모델이 문서화와 실험을 통해 문제 공간에 대한 지식을 적극적으로 구축하려고 시도한다는 것입니다.