Anthropic, 클로드 소넷 4.5 출시: 30시간 자율 프로그래밍, AI 코드 능력 한계 갱신

October 04, 2025

AnthropicC

4 min

요약

Anthropic은 2025년 9월 29일, 자사 역사상 가장 강력한 프로그래밍 AI 모델인 Claude Sonnet 4.5를 출시했습니다. 이 모델은 SWE-bench Verified 벤치마크에서 77.2%의 점수를 기록하며 실제 소프트웨어 엔지니어링 작업에서 OpenAI와 Google의 유사 제품들을 능가했습니다. Claude Sonnet 4.5는 복잡한 다단계 작업에서 30시간 이상 자율적으로 작동하며 집중력을 유지할 수 있는 반면, 지난 5월 출시된 Opus 4 모델은 7시간만 작동할 수 있었습니다.

기술 성능 돌파구

OSWorld 벤치마크에서 Claude Sonnet 4.5는 61.4%의 점수를 달성하여, 4개월 전 Claude Sonnet 4의 42.2%에 비해 크게 향상되었습니다. OSWorld 테스트는 웹사이트 탐색, 스프레드시트 작성, 데스크톱 작업 완료 등 실제 컴퓨터 작업에서 AI 모델의 성능을 평가합니다.

Anthropic 연구원 David Hershey는 초기 기업 고객 테스트에서 Claude Sonnet 4.5가 최대 30시간 동안 자율적으로 프로그래밍하는 것을 관찰했다고 밝혔습니다. 이 기간 동안 모델은 애플리케이션을 구축할 뿐만 아니라 데이터베이스 서비스를 구성하고, 도메인 이름을 구매하며, SOC 2 보안 감사를 수행했습니다.

이 모델은 코드 계획 및 시스템 설계에서 뛰어난 성능을 보여 더 나은 아키텍처 결정과 코드 구성을 할 수 있으며, 보안 엔지니어링 측면에서도 개선되어 더욱 강력한 보안 관행과 취약점 감지 기능을 제공합니다.

가격 및 가용성

Claude Sonnet 4.5의 API 가격은 이전 Claude Sonnet 4와 동일하게 백만 입력 토큰당 3달러, 백만 출력 토큰당 15달러로 유지됩니다. 이 가격 책정 전략은 경쟁사인 GPT-5(백만 입력 토큰당 1.25달러, 출력 토큰당 10달러)에 비해 여전히 높은 편이지만, Anthropic은 성능 우위를 통해 이러한 프리미엄 가격의 정당성을 입증하려 합니다.

이 모델은 현재 Claude.ai 웹 인터페이스, iOS 및 Android 앱, Claude API, Amazon Bedrock, Google Cloud의 Vertex AI 등 다양한 플랫폼에서 사용할 수 있으며, 개발자는 'claude-sonnet-4-5' 모델 문자열을 통해 호출할 수 있습니다. GitHub Copilot에도 Claude Sonnet 4.5가 통합되어 Copilot Pro, Pro+, Business, Enterprise 사용자에게 제공됩니다.

제품 생태계 업데이트

Anthropic은 Claude Code의 기대되던 체크포인트 기능을 포함한 여러 제품 업그레이드를 동시에 발표했습니다. 이 기능은 사용자가 진행 상황을 저장하고 언제든지 이전 상태로 롤백할 수 있도록 합니다. 또한, 새로운 터미널 인터페이스와 네이티브 VS Code 확장도 출시되었습니다.

이제 Claude 앱은 대화 내에서 코드를 직접 실행하고 스프레드시트, 슬라이드, 문서 등 파일을 생성하는 것을 지원합니다. Anthropic은 Claude Code와 동일한 인프라를 사용하는 Claude Agent SDK도 출시하여 개발자들이 자신만의 AI 에이전트를 구축할 수 있도록 했습니다.

회사는 또한 Max 구독자를 대상으로 5일간의 연구 미리보기 프로젝트인 "Imagine with Claude"를 시작했습니다. 이 프로젝트는 기능 사전 정의나 코드 사전 작성 없이 AI 모델이 실시간으로 소프트웨어를 생성하는 능력을 보여줍니다.

업계 반응 및 기업 적용

Cursor CEO Michael Truell은 Claude Sonnet 4.5가 장기 작업에서 뛰어난 성능을 보여주며, 이것이 Cursor를 사용하는 많은 개발자들이 복잡한 문제를 해결하기 위해 Claude를 선택하는 이유라고 말했습니다. GitHub Copilot 팀의 초기 평가에 따르면, 이 모델은 다단계 추론 및 코드 이해 측면에서 크게 개선되어 Copilot의 에이전트 경험이 코드베이스 전반의 복잡한 작업을 더 잘 처리할 수 있게 되었습니다.

기업 적용 측면에서, 보안 조직 HackerOne은 Claude Sonnet 4.5 사용 후 취약점 대응 시간이 44% 감소했다고 보고했습니다. 노르웨이 중앙은행 투자 관리 회사와 같은 금융 기관들도 이 모델을 사용하여 투자 등급 재무 분석을 수행하고 있으며, Netflix와 GitHub 개발자들은 복잡한 코드베이스 작업을 처리하는 데 이를 활용하고 있습니다.

보안 강화

Claude Sonnet 4.5는 AI Safety Level 3(ASL-3) 보호 조치 하에 출시되었으며, 이는 잠재적으로 위험한 입력 및 출력, 특히 화학, 생물학, 방사능 및 핵무기와 관련된 콘텐츠를 감지하도록 설계된 분류기를 포함합니다. Anthropic의 최고 제품 책임자(CPO) Mike Krieger는 이를 "지난 1년에서 1년 반 동안 가장 큰 보안 개선"이라고 평가했습니다.

Anthropic은 이 모델이 자사에서 출시한 최첨단 모델 중 가장 정렬된 모델이며, 아첨, 기만, 권력 추구, 망상적 사고 조장과 같은 우려되는 행동을 줄이는 데 실질적인 진전을 이루었다고 밝혔습니다. 이 모델은 프롬프트 주입 공격에 대한 저항력도 강화되었습니다.

시장 경쟁 구도

Claude Sonnet 4.5의 출시는 Anthropic의 이전 모델인 Claude Opus 4.1 출시 후 두 달도 채 되지 않아 이루어졌으며, 이는 AI 산업의 빠른 혁신 경쟁을 보여줍니다. 이 모델은 OpenAI의 연례 개발자 컨퍼런스 며칠 전에 출시되었고, Microsoft는 지난주 Claude 모델을 Copilot 365에 추가했습니다.

지난 1년 동안 Anthropic의 AI 모델은 소프트웨어 엔지니어링 작업에서 강력한 성능을 보여 개발자와 기업의 선호도가 높아졌습니다. 보도에 따르면 Apple과 Meta는 내부적으로 Claude AI 모델을 사용하고 있으며, Anthropic은 Cursor, Windsurf, Replit과 같은 AI 프로그래밍 애플리케이션에 API 접근권을 판매하여 상당한 사업 수익을 올렸습니다.

Anthropic은 현재 Claude Code가 5억 달러 이상의 운영 수익을 창출하고 있으며, 지난 3개월 동안 사용량이 10배 이상 증가했다고 밝혔습니다.

미래 전망

Anthropic의 수석 과학자 Jared Kaplan은 회사가 연말까지 한두 차례 더 모델을 출시할 계획이며, "Opus"의 새 버전이 포함될 가능성이 높다고 밝혔습니다. Krieger는 Claude Sonnet 4.5가 사용자들의 기본 선택이 될 것이며, Anthropic은 "거의 모든 사용 사례"에 이 모델을 추천한다고 말했습니다.

그러나 업계 관찰자들은 이 분야가 워낙 빠르게 발전하고 있어, 소문으로 들리는 Gemini 3의 출시가 임박함에 따라 Claude Sonnet 4.5가 "최고의 프로그래밍 모델"이라는 타이틀을 얼마나 오래 유지할 수 있을지는 불확실하다고 지적했습니다.