ソラ(OpenAI)
Sora は発表された中で最も新しい名前ですが、最も大きな騒ぎを巻き起こしています。その理由の一部は、ChatGPT の有名な開発元である OpenAI の製品であることです。しかし、主な理由は、このプログラムがテキスト コマンドだけで作成するビデオの品質です。
ChatGPT の成功により、同社の人工知能は高度な言語理解能力も獲得しました。ソラの能力を説明するクリップでは、実写映画のようにキャラクターの動きやニュアンスが生き生きと表現されています。
ソラがテキストコマンドから作成した「シュールレアリスム」ビデオ
しかし、安全上の理由から、Sora はまだ市販されていません。 OpenAI は、この製品を一般に公開する前に、特に人工知能が犯罪者によって悪意のある目的、ユーザーのなりすまし、または違法に悪用される状況を考慮して、慎重な措置を講じます。
ルミエール(Google)
Lumiere は Google の製品であり、STUNet (Space-Time-U-Net) 構造化拡散モデルに基づいて動作し、入力テキスト コマンドからビデオを作成することもできます。 Lumiere は、静止フレームをつなぎ合わせるのではなく、ビデオの詳細 (空間部分) を識別し、それらがどのように動き、同時に変化するか (時間部分) を追跡することで、プロセスがスムーズに実行されるようにします。
ソラ同様、ルミエールも一般公開されていません。同社は、最近Bardと同期された大規模言語モデルであるGeminiをリリースした後、2024年1月下旬にこのモデルを導入したばかりだ。
ビデオポエット(Google)
この大規模言語モデル(LLM)は、2023年にGoogle検索によって開発された、動画、画像、音声、テキストの膨大なリポジトリからトレーニングされています。VideoPoetは、テキスト、画像、動画などの入力ソースからさまざまなタスクを実行し、動画を作成したり、コンテンツを強調表示したり、動画を音声に変換したり、静止画像をアニメーションに変換したりできます。
VideoPoet の元々のアイデアは、あらゆる自己回帰言語モデルをビデオ生成システムに変換する必要性から生まれました。現在の自己回帰言語モデルは、人間のようにテキストやプログラミング コードを処理できますが、ビデオに関しては行き詰まってしまいます。 VideoPoet は、トークン化を使用して、あらゆる形式の入力を理解できる言語に変換することでこの問題を解決します。
テキストから動画を作成するツールは、ほとんどが限界を試している
Emu ビデオ (メタ)
Google や OpenAI に加え、Meta も AI イノベーションに積極的に取り組んでいる大手テクノロジー企業の 1 つです。 Facebook を所有する同社はまた、画像をテキストに変換し、それをデータとして使用してクリップを作成できる Emu Video と呼ばれるビデオ作成 AI も開発しました。
Emu Video はテスト プログラムの参加者から好意的なレビューを受けており、81% が Imagen Video (Google) よりもこの AI を好んでいます。 90% 以上が PYOCO (Nvidia) よりも Meta のモデルを選択しました。これは Meta の Make-A-Video (96% が選択) よりも優れています。
CogVideo(清華大学、中国)
上記のモデルはすべて世界有数のテクノロジー企業の製品ですが、CogVideo は中国だけでなくアジアでも有数の名門大学である清華大学の研究チームによって開発された AI です。このプログラムは、事前トレーニング済みのテキストから画像へのモデルである CogView2 に基づいています。
CogVideo をテストしたコンピューターアートの専門家、グレン・マーシャル氏は、「ディレクターは職を失う可能性がある」と述べた。 CogVideo の協力を得て制作した「The Crow」というクリップは高い評価を受け、英国アカデミー賞 (BAFTA) にノミネートされました。
[広告2]
ソースリンク
コメント (0)