xAI推出Imagine v0.9影片生成模型:15秒完成創作,免費對全體用戶開放
摘要
xAI於2025年10月7日(美東時間)正式發布了影片生成AI模型Imagine v0.9,並向所有用戶免費開放。這是自今年7月推出Imagine v0.1以來的首次重大升級。新版本在視覺品質、動態運動和音訊生成等方面實現了顯著提升,能夠生成與影片動作同步的音訊效果。
技術突破與核心功能
Imagine v0.9在視覺品質、運動效果、音訊生成等方面實現了大規模升級。該模型最引人注目的特性之一是原生影音一體化生成能力,可直接創建包含同步音效的電影級影片,無需後期編輯。
在官方演示影片中,生成的龍張開閉合嘴巴時會發出逼真的吼叫聲,機器人可以與人類口型同步說話,甚至能夠生成富有表現力的歌唱內容。
動作控制與畫面效果
v0.9版本在動作控制方面取得了長足進步,能夠流暢再現滑雪跳躍等複雜動態動作,從起跳到落地全程無變形失真。此外,該模型支援添加智能焦點轉移等動態相機效果,可根據鏡頭位置變化模糊街景以突出人物主體。
生成速度優勢
伊隆·馬斯克在社交平台X上表示,Imagine v0.9能夠在15秒內完成影片生成。這一速度相比競爭對手OpenAI的Sora 2有明顯優勢。據報導,Sora 2生成單個影片可能需要一到兩分鐘。
可訪問性與產品整合
Imagine v0.9已整合到Grok的影片生成功能中,向所有用戶免費開放,包括免費用戶。用戶可透過訪問grok.com/imagine使用該功能。
馬斯克還鼓勵用戶嘗試Grok的語音優先介面,透過設定啟用「語音模式打開應用」功能,用戶可以直接透過語音創建影片、圖像和文本,無需輸入文字。
爭議性功能仍然保留
值得注意的是,Grok的影片生成功能包含「Spicy」模式,該模式允許生成可能被Google或OpenAI影片生成AI屏蔽的內容。這一功能在v0.9版本中得以保留,引發了關於深度偽造風險和內容監管的討論。
v0.9的一項重要升級是允許用戶為影片添加自定義語音,這項技術成熟後,用戶可能上傳公眾人物照片並生成他們說特定內容的逼真影片,存在深度偽造風險。
市場競爭背景
Imagine v0.9的發布正值AI影片生成領域競爭白熱化之際。OpenAI於9月30日發布了旗艦級影片和音訊生成模型Sora 2。xAI此次更新被視為對Sora 2的直接回應。
不同於Sora 2採用的邀請制系統,Imagine v0.9向所有用戶免費開放,透過提供免費訪問吸引了大量流量。
當前局限性
測試發現,Imagine v0.9在實際使用中存在一些問題,包括誤解提示詞、影片和音訊不一致、未對深度偽造風險發出警告,以及無法處理中文等。此外,部分用戶報告網頁版暫時無法正常工作。
儘管存在這些局限,Imagine v0.9仍代表了AI影片生成技術的重要進步,為內容創作者提供了快速、免費的影片製作工具。隨著技術的持續迭代,該模型有望在未來幾個月內進一步提升能力和品質。