ソラ (OpenAI)
Sora は発表された中で最も新しい名前ですが、最も大きな騒動を巻き起こしています。その理由の一部は、ChatGPT の有名な開発元である OpenAI の製品であることです。しかし、主な理由は、このプログラムがテキスト コマンドだけで作成するビデオの品質です。
ChatGPT の成功により、同社の人工知能は高度な言語理解能力も獲得しました。ソラの能力を説明するクリップでは、キャラクターの動きやニュアンスがまるで実写映画のように生き生きと表現されています。
テキストコマンドからソラが作成した「シュール」なビデオ
しかし、安全上の理由から、Sora はまだ市場に出回っていません。 OpenAI は、この製品を一般に公開する前に、特に人工知能が犯罪者によって悪意のある目的、ユーザーになりすました目的、または違法に悪用される可能性を考慮して、慎重な措置を講じます。
ルミエール(Google)
Lumiere は Google の製品であり、STUNet (Space-Time-U-Net) 構造化拡散モデルに基づいて動作し、入力テキスト コマンドからビデオを生成することもできます。 Lumiere は静止フレームをつなぎ合わせる作業は行いません。代わりに、この AI はビデオの詳細 (空間部分) を識別し、それらがどのように動き、同時に変化するか (時間部分) を追跡して、プロセスがスムーズに実行されるようにします。
ソラ同様、ルミエールも一般公開されていません。同社は、最近Bardと同期された大規模言語モデルであるGeminiをリリースした後、2024年1月下旬にこのモデルを導入したばかりだ。
ビデオポエット(Google)
この大規模言語モデル (LLM) は、2023 年に Google 検索によって開発された、動画、画像、音声、テキストの膨大なリポジトリからトレーニングされています。VideoPoet は、テキスト、画像、動画などの入力ソースからさまざまなタスクを実行して、動画を作成したり、コンテンツを強調表示したり、動画を音声に変換したり、静止画像をアニメーションに変換したりできます。
VideoPoet の元々のアイデアは、あらゆる自己回帰言語モデルをビデオ生成システムに変換する必要性から生まれました。現在の自己回帰言語モデルは、テキストやプログラミング コードを人間のように処理できますが、ビデオに関しては壁にぶつかります。 VideoPoet は、トークン化を使用して、あらゆる形式の入力を理解できる言語に変換することでこの問題を解決します。
テキストから動画を作成するツールは、ほとんどが限界を試している
エミュービデオ(メタ)
Google や OpenAI に加え、Meta も AI イノベーションに積極的に取り組んでいる大手テクノロジー企業の 1 つです。 Facebook を所有する同社は、画像をテキストに変換し、それをデータとして使用してクリップを作成できる Emu Video と呼ばれるビデオ作成 AI も開発しました。
Emu Video はテスト プログラムの参加者から好意的なレビューを受けており、81% が Imagen Video (Google) よりもこの AI を好んでいます。 90% 以上が PYOCO (Nvidia) よりも Meta のモデルを選択しました。これは Meta の Make-A-Video (96% が選択) よりも優れています。
CogVideo(清華大学、中国)
上記のモデルはすべて世界有数のテクノロジー企業の製品ですが、CogVideo は中国だけでなくアジアでも有数の名門校である清華大学の研究チームによって開発された AI です。このプログラムは、事前にトレーニングされたテキストから画像へのモデルである CogView2 に基づいています。
CogVideo をテストしたコンピューターアートの専門家、グレン・マーシャル氏は、「ディレクターは職を失う可能性がある」と語った。彼がCogVideoの協力を得て制作した「The Crow」というクリップは高い評価を受け、英国アカデミー賞(BAFTA)にノミネートされた。
[広告2]
ソースリンク
コメント (0)