ChatGPTで知られるOpenAIが、新たな一手を打った。12月9日、テキストから高品質な動画を生成できるAIモデル「Sora」の一般提供を開始した。これまで一部のクリエイターに限定して提供していたサービスを、ChatGPTの有料プランユーザー全員に解放する。
画像生成AI「DALL?E」で培った技術を基盤に、OpenAIは動画という新たな領域に踏み出した。最長20秒、1080p解像度の映像生成が可能なSoraは、単なる動画生成の枠を超え、物理世界のシミュレーターとしての可能性も秘めている。
Soraの利用にはChatGPTのサブスクリプションが必要となる。Plusプラン(月額20ドル)では月50本までの優先動画(720p解像度、5秒まで)を、Proプラン(月額200ドル)では月500本までの優先動画(1080p解像度、20秒まで)を生成できる。いずれも追加料金なしでSoraが利用可能だ。
生成できる映像の幅は驚くほど広い。「パラソルを指して空を飛ぶカワウソ」や「身をくねらせて踊るスマートフォン」といった想像的な映像から、街並みや自然風景、人物の動きまでリアルに表現できる。光の反射や物体の動き、質感の表現など、細部まで丁寧に作り込まれている。
静止画からの動画生成も可能だ。商品の写真から360度回転する映像を作ったり、風景写真に動きや天候の変化を加えたりできる。
注目すべきは、その使いやすさだ。ユーザーは「雪の降る山小屋」といった短い言葉でプロンプト(指示文章)を記述するだけでよい。ChatGPTが自動的にそれを「夕暮れ時、雪に覆われた山々を背景に、温かな明かりの漏れる古風な木造の山小屋。煙突から煙が立ち上り、大きな雪片がゆっくりと降り積もっている」といった詳細な指示に変換する。AIへの適切な指示の書き方に悩む必要はない。
操作は映像の設計図となる「ストーリーボード」上で行う。例えば商品の紹介動画を作る場合、最初のシーンで全体を見せ、次に特徴的な部分をクローズアップし、最後に使用シーンを見せる、といった具合に映像の流れを組み立てられる。
生成した映像はさまざまな方法で調整できる。長さを変更したり(Re-cut)、雰囲気を変えて別バージョンを作ったり(Remix)、複数の映像のいいところを組み合わせたり(Blend)、SNS投稿用にループ再生できる短い動画を作ったり(Loop)といった編集が可能だ。
また、プロンプトによる動画の変更も可能だ。例えば、砂漠を歩くマンモスの映像に「マンモスをロボットに変更して」と指示するだけで、同じ動きのロボットの映像に変換できる。また、2つの異なる動画をブレンドして、まったく新しい映像を作り出すことも可能だ。専門的な編集技術がなくても、アイデア次第でさまざまな表現に挑戦できる。
この技術では、まず4K映像のような高品質な映像から「設計図」を作り、映像の本質的な特徴を取り出す。その設計図を時間と空間の「パッチ」という小さな区画に分け、少しずつノイズを加えていく。ChatGPTが文章を単語の並びとして理解するように、AIはこれらのパッチの並びとして映像を理解し、ノイズから設計図を作り出す方法を学習する。