xAI推出Imagine v0.9视频生成模型:15秒完成创作,免费对全体用户开放
摘要
xAI于2025年10月7日(美东时间)正式发布了视频生成AI模型Imagine v0.9,并向所有用户免费开放。这是自今年7月推出Imagine v0.1以来的首次重大升级。新版本在视觉质量、动态运动和音频生成等方面实现了显著提升,能够生成与视频动作同步的音频效果。
技术突破与核心功能
Imagine v0.9在视觉质量、运动效果、音频生成等方面实现了大规模升级。该模型最引人注目的特性之一是原生音视频一体化生成能力,可直接创建包含同步音效的电影级视频,无需后期编辑。
在官方演示视频中,生成的龙张开闭合嘴巴时会发出逼真的吼叫声,机器人可以与人类口型同步说话,甚至能够生成富有表现力的歌唱内容。
动作控制与画面效果
v0.9版本在动作控制方面取得了长足进步,能够流畅再现滑雪跳跃等复杂动态动作,从起跳到落地全程无变形失真。此外,该模型支持添加智能焦点转移等动态相机效果,可根据镜头位置变化模糊街景以突出人物主体。
生成速度优势
埃隆·马斯克在社交平台X上表示,Imagine v0.9能够在15秒内完成视频生成。这一速度相比竞争对手OpenAI的Sora 2有明显优势。据报道,Sora 2生成单个视频可能需要一到两分钟。
可访问性与产品整合
Imagine v0.9已集成到Grok的视频生成功能中,向所有用户免费开放,包括免费用户。用户可通过访问grok.com/imagine使用该功能。
马斯克还鼓励用户尝试Grok的语音优先界面,通过设置启用"语音模式打开应用"功能,用户可以直接通过语音创建视频、图像和文本,无需输入文字。
争议性功能仍然保留
值得注意的是,Grok的视频生成功能包含"Spicy"模式,该模式允许生成可能被Google或OpenAI视频生成AI屏蔽的内容。这一功能在v0.9版本中得以保留,引发了关于深度伪造风险和内容监管的讨论。
v0.9的一项重要升级是允许用户为视频添加自定义语音,这项技术成熟后,用户可能上传公众人物照片并生成他们说特定内容的逼真视频,存在深度伪造风险。
市场竞争背景
Imagine v0.9的发布正值AI视频生成领域竞争白热化之际。OpenAI于9月30日发布了旗舰级视频和音频生成模型Sora 2。xAI此次更新被视为对Sora 2的直接回应。
不同于Sora 2采用的邀请制系统,Imagine v0.9向所有用户免费开放,通过提供免费访问吸引了大量流量。
当前局限性
测试发现,Imagine v0.9在实际使用中存在一些问题,包括误解提示词、视频和音频不一致、未对深度伪造风险发出警告,以及无法处理中文等。此外,部分用户报告网页版暂时无法正常工作。
尽管存在这些局限,Imagine v0.9仍代表了AI视频生成技术的重要进步,为内容创作者提供了快速、免费的视频制作工具。随着技术的持续迭代,该模型有望在未来几个月内进一步提升能力和质量。