AnthropicがClaude Sonnet 4.5を発表:30時間の自律プログラミング、AIコード能力の限界を更新

October 04, 2025
AnthropicC
3 min

要約

Anthropicは2025年9月29日、同社史上最も強力なプログラミングAIモデルであるClaude Sonnet 4.5を発表しました。このモデルはSWE-bench Verifiedベンチマークテストで77.2%のスコアを記録し、実際のソフトウェアエンジニアリングタスクにおいてOpenAIやGoogleの競合製品を凌駕しました。Claude Sonnet 4.5は30時間以上自律的に動作し、複雑な多段階タスクでも集中力を維持できます。これは、以前5月にリリースされたOpus 4モデルが7時間しか動作しなかったのと比較して大幅な進歩です。

技術性能のブレイクスルー

OSWorldベンチマークテストにおいて、Claude Sonnet 4.5は61.4%のスコアを達成し、4ヶ月前のClaude Sonnet 4の42.2%から著しく向上しました。OSWorldテストは、ウェブサイトナビゲーション、スプレッドシート入力、デスクトップタスクの完了など、実際のコンピュータータスクにおけるAIモデルのパフォーマンスを評価します。

Anthropicの研究者であるDavid Hershey氏は、初期の企業顧客による試験で、Claude Sonnet 4.5が最大30時間にわたり自律的にプログラミングを行い、アプリケーションの構築だけでなく、データベースサービスの構成、ドメイン名の取得、SOC 2セキュリティ監査の実施まで行ったと述べています。

このモデルは、コード計画とシステム設計において優れた性能を発揮し、より良いアーキテクチャの意思決定とコードの整理を可能にします。また、セキュリティエンジニアリングも改善され、より強力なセキュリティプラクティスと脆弱性検出能力を提供します。

価格設定と利用可能性

Claude Sonnet 4.5のAPI料金は、入力100万トークンあたり3ドル、出力100万トークンあたり15ドルで、前世代のClaude Sonnet 4と同じ価格を維持しています。この価格戦略は、競合であるGPT-5(入力100万トークンあたり1.25ドル、出力100万トークンあたり10ドル)と比較して依然として高めですが、Anthropicは性能優位性によってそのプレミアム価格の正当性を主張しようとしています。

このモデルは現在、Claude.aiのウェブインターフェース、iOSおよびAndroidアプリ、Claude API、Amazon Bedrock、Google CloudのVertex AIなどのプラットフォームで利用可能であり、開発者は「claude-sonnet-4-5」というモデル文字列を通じて呼び出すことができます。GitHub CopilotにもClaude Sonnet 4.5が統合され、Copilot Pro、Pro+、Business、Enterpriseユーザー向けに提供されています。

製品エコシステムの更新

Anthropicは同時に複数の製品アップグレードを発表しました。これには、Claude Codeで待望のチェックポイント機能が含まれており、ユーザーは進捗を保存し、いつでも以前の状態に戻すことができます。また、新しいターミナルインターフェースと、ネイティブのVS Code拡張機能も導入されました。

Claudeアプリは、会話内で直接コードを実行し、スプレッドシート、プレゼンテーション、ドキュメントなどのファイルを作成する機能をサポートするようになりました。Anthropicはまた、Claude Codeと同じインフラストラクチャを使用するClaude Agent SDKをリリースし、開発者が独自のAIエージェントを構築できるようにしました。

同社はさらに、Maxサブスクリプションユーザー向けに、AIモデルが機能やコードを事前に定義することなく、リアルタイムでソフトウェアを生成する能力を示す5日間の研究プレビュープログラム「Imagine with Claude」を開始しました。

業界の反応と企業での利用

CursorのCEOであるMichael Truell氏は、Claude Sonnet 4.5が長期的なタスクで優れたパフォーマンスを発揮すると述べ、多くのCursorユーザーが複雑な問題を解決するためにClaudeを選択する理由であると指摘しました。GitHub Copilotチームの初期評価では、このモデルが多段階の推論とコード理解において著しい改善を示し、Copilotのエージェント体験がコードベース全体にわたる複雑なタスクをより適切に処理できるようになるとされています。

企業での利用に関して、セキュリティ企業HackerOneは、Claude Sonnet 4.5の使用により脆弱性対応時間が44%短縮されたと報告しています。ノルウェー中央銀行投資管理会社などの金融機関も、このモデルを投資レベルの財務分析に利用しており、NetflixやGitHubの開発者は複雑なコードベースのタスクに活用しています。

セキュリティの向上

Claude Sonnet 4.5は、AI安全レベル3(ASL-3)の保護措置の下でリリースされました。これには、特に化学兵器、生物兵器、放射性兵器、核兵器に関連するコンテンツなど、潜在的に危険な入力と出力を検出するための分類器が含まれます。Anthropicの最高製品責任者であるMike Krieger氏は、これを「過去1年から1年半で最大のセキュリティ向上」と称しています。

Anthropicは、これが同社がリリースした中で最もアラインメントされた最先端モデルであり、お世辞、欺瞞、権力追求、妄想的思考を助長するなどの懸念される行動の削減において実質的な進展を遂げたと述べています。このモデルは、プロンプトインジェクション攻撃に対する耐性も強化されています。

市場競争の状況

Claude Sonnet 4.5のリリースは、Anthropicの前のモデルであるClaude Opus 4.1からわずか2ヶ月足らずであり、AI業界の急速なイノベーション競争を反映しています。このモデルは、OpenAIの年次開発者会議の数日前に発表され、Microsoftは前週にClaudeモデルをCopilot 365に追加したばかりでした。

過去1年間、AnthropicのAIモデルは、ソフトウェアエンジニアリングタスクにおける強力なパフォーマンスにより、開発者や企業にとって第一の選択肢となっています。報道によると、AppleやMetaは社内でClaude AIモデルを使用しており、AnthropicはCursor、Windsurf、ReplitなどのAIプログラミングアプリケーションにAPIアクセスを販売することでかなりの事業収益を得ています。

Anthropicは、Claude Codeが現在5億ドル以上の営業収益を生み出しており、過去3ヶ月間で利用量が10倍以上に増加したと述べています。

今後の展望

Anthropicの主任科学者であるJared Kaplan氏は、同社が年末までにさらに1〜2回のモデルリリースを計画しており、その中には「Opus」の新しいバージョンが含まれる可能性が高いと明かしました。Krieger氏は、Claude Sonnet 4.5がユーザーのデフォルトの選択肢となり、Anthropicは「基本的にすべてのユースケース」でこのモデルを推奨すると述べました。

しかし、業界ウォッチャーは、この分野の発展が非常に速く、噂されるGemini 3の登場が間近に迫っているため、Claude Sonnet 4.5が「最高のプログラミングモデル」という称号をどれだけ長く維持できるかは不透明であると指摘しています。