OpenAI 加倍投入音訊 AI 革命,進行重大團隊重組並制定設備計畫

January 03, 2026
OpenAI
6 min

新聞摘要

OpenAI 已對其音訊 AI 能力進行全面重組,整合工程、產品和研究團隊,以開發下一代語音模型和以音訊為先的消費性裝置。該計畫目標是在 2026 年第一季推出先進的音訊模型,並將公司定位於朝向無螢幕、語音驅動互動的重大轉變。

舊金山 – 在一項預示人工智慧互動未來的策略性轉變中,OpenAI 在過去兩個月內進行了重大的內部重組,整合了工程、產品開發和研究等多個團隊,以加速其音訊 AI 能力。此舉是在公司為業界觀察家所描述的人機互動下一個重大演進做準備之際進行的:從以螢幕為主導的體驗轉向以音訊為先的介面。

主要發展時間表

該計畫目標是在 2026 年 3 月底推出革命性的新音訊模型,這代表著與 OpenAI 目前基於 Transformer 的 GPT 實時系統在架構上的根本性差異。這個新模型承諾具備目前語音 AI 系統無法實現的能力,包括能夠與使用者同時說話,並像人類對話夥伴一樣處理對話中的中斷。

技術突破功能

即將推出的音訊模型代表著對現有語音 AI 限制的重大飛躍。與今天的模型不同,新系統將能更好地處理中斷,並在語音對話中提供更準確、更深入的答案。或許最值得注意的是,該技術將實現同步說話——允許 AI 在使用者插話時繼續說話——這是目前 ChatGPT 音訊功能無法做到的。

該模型旨在產生更自然的語音,並增強情感表達,解決了語音 AI 互動廣泛採用的關鍵障礙之一。業界專家認為,這代表著從迄今為止語音助理所特有的生硬、輪流式的對話中潛在的範式轉移。

領導層和團隊結構

音訊 AI 的推動由前 Character.AI 研究員 Kundan Kumar 領導,他在對話式 AI 方面的先前工作為 OpenAI 的宏大時間表帶來了關鍵的專業知識。這次重組將先前獨立的團隊聚集在一起,創建了消息來源所描述的統一戰線,專注於音訊功能,而不是公司傳統的以文字為先的方法。

硬體願景成形

音訊模型的開發與 OpenAI 更廣泛的硬體野心直接相關。該公司設想一系列裝置,可能包括智慧眼鏡或無螢幕智慧音箱,旨在作為 AI 伴侶而非傳統工具。預計這些裝置將在音訊模型發布後約一年推出,可能在 2026 年底或 2027 年初。

在 OpenAI 於 2025 年 5 月以 65 億美元收購前 Apple 設計總監 Jony Ive 的公司 io 後,這項硬體計畫已獲得實質性的動力。Ive 以其在 iPhone 和 iPad 等標誌性 Apple 產品上的工作而聞名,據報導他已將減少裝置成癮列為優先事項,並將以音訊為先的設計視為解決他認為螢幕過多的裝置所犯錯誤的機會。

行業背景與競爭

OpenAI 以音訊為中心的策略與更廣泛的行業趨勢一致,一些分析師稱之為「螢幕戰爭」。智慧音箱已將語音助理確立為美國超過三分之一家庭中的固定裝置,而 Meta 和 Google 等公司正在將音訊功能推向新的外形。

Meta 最近為其 Ray-Ban 智慧眼鏡配備了五麥克風陣列,以幫助使用者在嘈雜的環境中聽到對話,而 Google 在 6 月開始試驗「音訊概覽」,將搜尋結果轉換為對話式摘要。Tesla 也類似地將對話式 AI 整合到其車輛中,以實現免持操作。

然而,轉型並非沒有付出代價。Humane AI Pin 儘管獲得了數億美元的投資,卻成為無螢幕穿戴裝置的警示故事,而關於持續聆聽裝置的隱私問題持續挑戰著廣泛的採用。

市場影響與收入機會

音訊 AI 市場代表著巨大的未開發潛力。僅 AI 生成音樂領域就正在快速增長,新創公司 Suno Inc. 的年收入超過 2 億美元,這表明消費者對超越傳統語音助理的複雜音訊 AI 應用有著巨大的需求。

對 OpenAI 而言,進軍以音訊為先的體驗和消費性硬體,代表著其從目前的雲端軟體模式向外擴張的策略性舉措,可能開闢新的收入來源,並減少對基於 API 的商業模式的依賴。

未來展望與行業影響

這項計畫使 OpenAI 有潛力在競爭對手平台確立市場主導地位之前,定義對話式 AI 裝置的參考體驗。該公司的做法暗示著一個未來,家庭、汽車和穿戴式裝置將作為持續的音訊介面,從根本上改變消費者與人工智慧互動的方式。

行業觀察家指出,在這個領域取得成功將需要 OpenAI 解決重大的基礎設施挑戰,包括對低延遲、全雙工音訊處理的需求,以及持續聆聽裝置的隱私影響。該公司能否在保持使用者信任的同時實現其宏大的時間表,將決定以音訊為先的 AI 是否會成為一項變革性技術,還是僅僅停留在小眾應用。

隨著 2026 年 3 月的截止日期臨近,科技行業將密切關注 OpenAI 是否能成功從其基於文字的 AI 主導地位,轉向在新興的以音訊為先的運算範式中取得領導地位。

報導基於行業消息來源以及 The Information、TechCrunch 和 SiliconANGLE 的公開報導。除非另有說明,否則所有提及的時間均為美國東部標準時間 (EST)。