OpenAI推出Sora 2模型与同名社交应用 AI视频生成迎来音视频同步时代
摘要
OpenAI于9月30日正式发布新一代AI视频生成模型Sora 2,同时推出配套的iOS社交应用Sora。新模型首次实现了AI生成视频与音频的同步,包括对话和音效的自动生成。该应用采用类似TikTok的短视频信息流设计,目前仅在美国和加拿大上线,并采用邀请制。
技术突破:物理准确性大幅提升
Sora 2在物理模拟、真实感和可控性方面实现了显著提升。与早期视频模型常常出现物体变形、违反物理规律的问题不同,Sora 2能够处理复杂的动作场景,如体操动作、滑板技巧和跳水等,并遵循真实世界的物理规则。
OpenAI研究团队成员Bill Peebles、Rohan Sahai和Thomas Dimson在YouTube直播中展示了模型的各项能力。演示视频包括沙滩排球比赛、滑板技巧表演、体操动作等场景,展现出前所未有的流畅度和真实感。
音视频同步:补齐关键短板
最引人注目的更新是Sora 2首次支持与视频画面匹配的AI音频生成,包括同步对话和音效。这一功能填补了初代Sora模型的重要缺陷。2024年初OpenAI首次公开Sora模型时曾引发业界轰动,但直到2024年12月才向公众开放。在此期间,Runway、Luma、Kling等竞争对手纷纷推出具备音频生成能力的视频模型。
社交应用:挑战短视频平台
与Sora 2同步发布的还有名为Sora的iOS应用,采用算法推荐的短视频信息流设计。该应用最具特色的功能是"Cameo"(客串),允许用户在经过授权后,将自己和朋友的形象插入AI生成的视频中。OpenAI表示已建立严格的身份保护措施,防止未经同意使用他人形象。
该应用目前采取免费模式,OpenAI表示这是为了让用户自由探索其功能。唯一的收费计划是在高峰期对额外视频生成进行收费。
版权争议浮现
Sora应用发布首日,即有用户生成了马里奥、皮卡丘等受版权保护的游戏角色视频,引发了版权专家的担忧。加州大学洛杉矶分校法学教授Mark McKenna指出,如果OpenAI允许输出受版权保护的内容,除非用户选择退出,这种做法可能不符合版权法规定。
此外,有用户生成了OpenAI CEO Sam Altman在商店盗窃电脑零件的视频,凸显出该技术在制作虚假内容方面的潜在风险。为应对这些问题,OpenAI表示所有通过Sora应用或网站生成的视频都将带有移动水印,并在元数据中标注AI生成来源。
用户创作热潮与恶搞现象
Sora 2发布后,中国社交媒体上掀起了AI视频创作热潮。用户生成了各类题材的视频,包括古装剧、现代都市剧、体育赛事等。部分网友甚至制作了中国男足夺得世界杯的虚构场景,以及各种针对Sam Altman的恶搞视频。
市场定位:模型+产品组合拳
分析人士指出,OpenAI的策略已从单纯的模型竞争转向"模型+产品"的组合。当某个技术跨越可用性临界点后,OpenAI会迅速推出配套应用,利用产品壁垒锁定用户。这一策略此前已在ChatGPT和代码生成工具Codex中得到验证。
目前Sora应用已成为iOS App Store照片与视频类别中下载量最高的应用。OpenAI表示希望尽快将服务扩展到更多国家和地区。
读者在使用该技术时,应注意遵守相关法律法规,尊重他人隐私和知识产权。