Anthropic 揭示 Claude Opus 4.6:革命性代理團隊與百萬 token 上下文重塑企業 AI 格局

February 06, 2026
Anthropic, Claude
8 min

新聞摘要

Anthropic 公司於太平洋標準時間 2026 年 2 月 5 日星期四發布了 Claude Opus 4.6,標誌著企業級人工智慧能力的一項重大進展。這款新的旗艦模型擁有突破性的 100 萬個 token 上下文窗口、革命性的「代理團隊」功能,以及在編碼、財務分析和知識工作基準測試中的頂尖表現,使其成為 OpenAI GPT-5.2 的直接競爭對手。

Anthropic 發布 Claude Opus 4.6:企業級 AI 透過代理團隊和百萬 token 上下文實現飛躍

舊金山,2026 年 2 月 5 日 — Anthropic 公司於太平洋標準時間星期四上午發布了 Claude Opus 4.6,推出了該公司所稱的企業級人工智慧的範式轉移。其旗艦模型的最新版本在自主任務執行、擴展推理和協作式 AI 工作流程方面提供了前所未有的能力。

革命性的上下文窗口擴展 AI 能力

Claude Opus 4.6 成為 Anthropic Opus 系列中首款支援 100 萬個 token 上下文窗口的模型,使其與 Google 的 Gemini 模型一同躋身超長上下文類別。這種大規模的擴展允許模型在單一提示中處理約 1,500 頁文本、30,000 行程式碼或超過一小時的影片內容。

該模型在 MRCR v2 基準測試中表現出色,在「大海撈針」資訊檢索任務中準確率達到 76%,而其前身 Claude Sonnet 4.5 的準確率僅為 18.5%。根據 Anthropic 的說法,這代表著在消除「上下文衰退」(模型在長時間對話中性能下降)方面取得了質的飛躍。

代理團隊:複雜工作流程的平行處理

「代理團隊」的引入標誌著 Claude 處理複雜任務方式的根本性架構變革。Opus 4.6 不再依賴單一代理進行順序任務執行,而是能夠部署多個專用代理並行工作,每個代理處理不同的組件,同時直接相互協調。

Anthropic 企業產品負責人 Scott White 將此功能比作管理一個才華橫溢的人類團隊。「你可以將工作分配給多個代理——每個代理負責自己的部分並直接與其他代理協調,」White 在接受 TechCrunch 採訪時解釋道。此功能目前可供 API 用戶和訂閱客戶進行研究預覽。

在專業領域的基準測試中佔據主導地位

Claude Opus 4.6 在多項行業標準評估中創下了新的性能記錄:

卓越的編碼能力: 該模型在 Terminal-Bench 2.0 上得分 65.4%,這是該代理編碼評估的最高記錄。它在 OSWorld 代理電腦使用基準測試中也領先於競爭對手,得分 72.7%,而 Opus 4.5 的得分為 66.3%。

財務和法律分析: 在衡量經濟價值知識工作表現的 GDPval-AA 上,Opus 4.6 獲得了 1,606 Elo 分——比 OpenAI 的 GPT-5.2 高出約 144 Elo 分,比其前身高出 190 分。該模型在 BigLaw Bench 上也達到了 90.2% 的得分,這是所有 Claude 模型在法律推理任務中的最高得分。

新穎的問題解決能力: 或許最引人注目的是,Opus 4.6 在 ARC AGI 2 基準測試中得分 68.8%,該測試旨在評估對人類而言容易但對 AI 系統而言極其困難的問題。這比 Opus 4.5 的 37.6% 的得分提高了 83%。

資訊檢索: 該模型在 BrowseComp 上取得了行業最高分,展現了在網路上定位難以找到資訊的卓越能力。

Microsoft Office 整合深化

Anthropic 宣布對其 Office 套件整合進行了重大升級。現在,Excel 中的 Claude 可以處理更長、更複雜的任務,並在單一操作中應用多步驟轉換,而無需明確的結構說明。

該公司還推出了 PowerPoint 中的 Claude 研究預覽版,使 AI 能夠讀取現有的幻燈片佈局、字體和公司模板,然後生成或編輯保持品牌一致性的演示文稿。此整合功能對 Max、Team 和 Enterprise 計畫客戶提供 Beta 版本。

面向開發者的進階 API 控制以實現靈活性

Opus 4.6 為 API 開發者引入了幾項複雜的功能:

自適應思考: 模型可以自主決定何時採用更深入的推理,何時採用快速響應,利用上下文線索來平衡品質與延遲和成本。

努力程度: 開發者可以透過四種努力程度設定(低、中、高和最大)獲得明確的控制,從而精確地在智慧、速度和計算成本之間進行權衡。

上下文壓縮: 一項 Beta 功能,可在上下文限制接近時自動摘要較舊的對話片段,從而實現極長的互動而不會降低性能。

市場影響和企業採用

此次發布引發了顯著的市場反應。在 Anthropic 宣布為其 Cowork 工具推出行業特定插件後,本週早些時候軟體股經歷了大幅波動。湯森路透週二下跌 15.83%,LegalZoom 下跌近 20%,投資者權衡了 AI 取代專業研究和財務分析軟體的潛力。

儘管存在這些市場擔憂,企業的採用仍在加速。根據最近的 Andreessen Horowitz 調查,44% 的企業目前在生產環境中使用 Anthropic——自 2025 年 5 月以來,這是任何前沿 AI 實驗室中最大的市場份額增長。

現實世界部署展現希望

早期合作夥伴報告了顯著的生產力提升。樂天部署了 Opus 4.6,成功自主管理了一個 50 人的組織,並在一天內成功解決了 13 個問題。Notion 的 AI 負責人 Sarah Sachs 將該模型描述為從一個工具演變成「一個真正有能力的協作者」。

AI 編碼平台 Cursor 的聯合創始人 Michael Truell 指出了該模型在處理挑戰性問題上的堅持:「Claude Opus 4.6 在最難的問題上表現出色。它展現出更強的堅持性、更強的程式碼審查能力,以及在其他模型往往會放棄的長任務中保持專注的能力。」

定價和可用性

Anthropic 維持其競爭性的定價結構,每百萬個輸入 token 為 5 美元,每百萬個輸出 token 為 25 美元。該模型可透過 claude.ai、Claude API(模型 ID:claude-opus-4-6)以及包括 Amazon Web Services、Google Cloud 和 Microsoft Azure 在內的所有主要雲端平台立即獲得。

該模型也正在整合到 GitHub Copilot 中,並逐步向 Copilot Pro、Pro+、Business 和 Enterprise 用戶推出。

安全性和對齊承諾

根據 Anthropic 的廣泛系統卡,Opus 4.6 的整體安全配置與任何其他前沿模型相當或更好,在安全評估中出現不對齊行為的機率很低。該公司強調,在性能提升的同時並未犧牲安全性。

行業背景和競爭

此次發布發生在 OpenAI 發布 Codex 後僅 72 小時,凸顯了 AI 開發工具競爭的加速步伐。White 告訴媒體,Anthropic 已將 Claude 從「一個你可以用來完成非常小任務的對話模型」轉變為「一個你可以真正委託重要工作的東西」。

此次發布使 Anthropic 能夠應對 White 所稱的「氛圍工作」時代,在這個時代,知識工作者越來越多地將實質性的專業任務委託給能夠以最少監督自主執行的 AI 系統。

Claude Opus 4.6 代表了 Anthropic 迄今為止最雄心勃勃的企業級 AI 產品,結合了上下文處理、平行代理協調和領域專業知識方面的技術進步,以挑戰關於 AI 在專業工作流程中作用的現有假設。