xAIがImagine v0.9動画生成モデルを発表: 15秒で作成完了、すべてのユーザーに無料公開

October 09, 2025
xAI
2 min

概要

xAIは2025年10月7日(米国東部時間)、動画生成AIモデル「Imagine v0.9」を正式にリリースし、全ユーザーに無料で公開しました。これは今年7月にImagine v0.1が発表されて以来、初のメジャーアップグレードとなります。新バージョンでは、視覚品質、動的な動き、音声生成などが大幅に向上し、動画の動きと同期した音声効果を生成できるようになりました。

技術的ブレイクスルーと主要機能

Imagine v0.9は、視覚品質、動きの表現、音声生成などにおいて大規模なアップグレードを実現しました。このモデルの最も注目すべき特徴の一つは、ネイティブな音声・動画統合生成機能であり、ポストプロダクションなしで、同期した音響効果を含む映画レベルの動画を直接作成できます。

公式デモ動画では、生成された龍が口を開閉する際にリアルな咆哮を上げたり、ロボットが人間の口の動きと同期して話したり、さらには表現豊かな歌唱コンテンツを生成することも可能です。

動作制御と画面効果

v0.9バージョンは動作制御において大きな進歩を遂げ、スキージャンプのような複雑な動的動作を、離陸から着地まで変形や歪みなくスムーズに再現できます。さらに、このモデルはスマートフォーカスシフトなどの動的なカメラ効果の追加をサポートしており、レンズ位置の変化に応じて街並みをぼかし、人物の被写体を際立たせることが可能です。

生成速度の優位性

イーロン・マスクはソーシャルプラットフォームXで、Imagine v0.9が15秒以内に動画生成を完了できると述べました。この速度は、競合であるOpenAIのSora 2と比較して明確な優位性があります。報道によると、Sora 2が単一の動画を生成するには1〜2分かかる可能性があるとのことです。

アクセシビリティと製品統合

Imagine v0.9はGrokの動画生成機能に統合されており、無料ユーザーを含むすべてのユーザーに無料で公開されています。ユーザーはgrok.com/imagineにアクセスすることでこの機能を利用できます。

マスクはまた、ユーザーにGrokの音声優先インターフェースを試すよう促しており、「音声モードでアプリを開く」機能を設定で有効にすることで、ユーザーは文字を入力することなく、直接音声で動画、画像、テキストを作成できます。

論争の的となる機能は依然として維持

注目すべきは、Grokの動画生成機能には「Spicy」モードが含まれており、このモードではGoogleやOpenAIの動画生成AIによってブロックされる可能性のあるコンテンツの生成が許可されています。この機能はv0.9バージョンでも維持されており、ディープフェイクのリスクやコンテンツ規制に関する議論を巻き起こしています。

v0.9の重要なアップグレードの一つは、ユーザーが動画にカスタム音声を追加できるようになったことです。この技術が成熟すれば、ユーザーは公人の写真をアップロードし、特定のコンテンツを話すリアルな動画を生成できるようになり、ディープフェイクのリスクが存在します。

市場競争の背景

Imagine v0.9のリリースは、AI動画生成分野の競争が激化する真っ只中にあります。OpenAIは9月30日にフラッグシップの動画・音声生成モデルSora 2を発表しました。xAIの今回のアップデートは、Sora 2への直接的な対抗と見なされています。

Sora 2が採用している招待制システムとは異なり、Imagine v0.9はすべてのユーザーに無料で公開されており、無料アクセスを提供することで大量のトラフィックを引き付けています。

現在の限界

テストの結果、Imagine v0.9は実際の使用において、プロンプトの誤解釈、動画と音声の不一致、ディープフェイクのリスクに関する警告の欠如、中国語の処理ができないなどのいくつかの問題があることが判明しました。さらに、一部のユーザーはウェブ版が一時的に正常に機能しないと報告しています。

これらの限界があるにもかかわらず、Imagine v0.9はAI動画生成技術における重要な進歩を象徴しており、コンテンツクリエイターに迅速かつ無料の動画制作ツールを提供しています。技術の継続的な反復開発により、このモデルは今後数ヶ月で能力と品質をさらに向上させることが期待されます。