Soraのようなテキストから動画へのAI

[広告_1]

ソラ（OpenAI）

Sora は発表された中で最も新しい名前ですが、最も大きな騒ぎを巻き起こしています。その理由の一部は、ChatGPT の有名な開発元である OpenAI の製品であることです。しかし、主な理由は、このプログラムがテキストコマンドだけで作成するビデオの品質です。

ChatGPT の成功により、同社の人工知能は高度な言語理解能力も獲得しました。ソラの能力を説明するクリップでは、実写映画のようにキャラクターの動きやニュアンスが生き生きと表現されています。

Video "siêu thực" do Sora tạo từ các lệnh văn bản — ソラがテキストコマンドから作成した「シュールレアリスム」ビデオ

しかし、安全上の理由から、Sora はまだ市販されていません。 OpenAI は、この製品を一般に公開する前に、特に人工知能が犯罪者によって悪意のある目的、ユーザーのなりすまし、または違法に悪用される状況を考慮して、慎重な措置を講じます。

ルミエール（Google）

Lumiere は Google の製品であり、STUNet (Space-Time-U-Net) 構造化拡散モデルに基づいて動作し、入力テキストコマンドからビデオを作成することもできます。 Lumiere は、静止フレームをつなぎ合わせるのではなく、ビデオの詳細 (空間部分) を識別し、それらがどのように動き、同時に変化するか (時間部分) を追跡することで、プロセスがスムーズに実行されるようにします。

ソラ同様、ルミエールも一般公開されていません。同社は、最近Bardと同期された大規模言語モデルであるGeminiをリリースした後、2024年1月下旬にこのモデルを導入したばかりだ。

ビデオポエット（Google）

この大規模言語モデル（LLM）は、2023年にGoogle検索によって開発された、動画、画像、音声、テキストの膨大なリポジトリからトレーニングされています。VideoPoetは、テキスト、画像、動画などの入力ソースからさまざまなタスクを実行し、動画を作成したり、コンテンツを強調表示したり、動画を音声に変換したり、静止画像をアニメーションに変換したりできます。

VideoPoet の元々のアイデアは、あらゆる自己回帰言語モデルをビデオ生成システムに変換する必要性から生まれました。現在の自己回帰言語モデルは、人間のようにテキストやプログラミングコードを処理できますが、ビデオに関しては行き詰まってしまいます。 VideoPoet は、トークン化を使用して、あらゆる形式の入力を理解できる言語に変換することでこの問題を解決します。

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — テキストから動画を作成するツールは、ほとんどが限界を試している

Emu ビデオ (メタ)

Google や OpenAI に加え、Meta も AI イノベーションに積極的に取り組んでいる大手テクノロジー企業の 1 つです。 Facebook を所有する同社はまた、画像をテキストに変換し、それをデータとして使用してクリップを作成できる Emu Video と呼ばれるビデオ作成 AI も開発しました。

Emu Video はテストプログラムの参加者から好意的なレビューを受けており、81% が Imagen Video (Google) よりもこの AI を好んでいます。 90% 以上が PYOCO (Nvidia) よりも Meta のモデルを選択しました。これは Meta の Make-A-Video (96% が選択) よりも優れています。