宇宙飛行士が馬に乗っている画像は、2種類の生成 AI モデルを組み合わせたものです。写真: MITニュース
スピードと品質がトレードオフではなくなったとき
AI イメージングの分野では、現在、主に 2 つのアプローチがあります。
拡散モデルにより、鮮明で詳細な画像が得られます。ただし、各ピクセルからノイズを除去するには数十の処理ステップが必要となるため、非常に遅く、計算負荷も高くなります。
一方、自己回帰モデルは、画像の小さな部分を順番に予測できるため、はるかに高速に動作します。しかし、それらの画像では細部が乏しく、エラーが発生しやすい傾向があります。
HART (ハイブリッド自己回帰トランスフォーマー) は、両方を組み合わせて「両方の長所」を実現します。まず、自己回帰モデルを使用して、画像全体を個別のトークンにエンコードして構築します。次に、軽量拡散モデルは、残余トークン(エンコード中に失われた詳細情報)を追加します。
結果として得られる画像は最先端の拡散モデルと同等(またはそれ以上)の品質ですが、処理速度は 9 倍速く、計算リソースの使用量は 31% 少なくなります。
高速で高品質な画像を作成するための新しいアプローチ
HART の注目すべき革新の 1 つは、自己回帰モデルを使用する際の情報損失の問題を解決する方法です。画像を個別のトークンに変換すると処理速度は上がりますが、オブジェクトのエッジ、顔の特徴、髪の毛、目、口などの重要な詳細も失われます。
HART の解決策は、拡散モデルが残余トークンを通じてこれらの詳細を「修正」することにのみ焦点を当てるようにすることです。また、自己回帰モデルがほとんどの作業を行ったため、拡散モデルでは、以前の 30 ステップ以上ではなく、8 ステップの処理ステップのみが必要になります。
「普及モデルは実装が簡単で、効率性が高まります」と共著者のハオティアン・タン氏は説明する。
具体的には、7 億のパラメータを持つ自己回帰トランスフォーマー モデルと 3,700 万のパラメータを持つ軽量拡散モデルを組み合わせることで、HART は最大 20 億のパラメータを持つ拡散モデルと同じパフォーマンスを 9 倍高速化します。
当初、研究チームは拡散モデルを画像処理の初期段階に統合しようと試みましたが、これにより誤差が蓄積されてしまいました。最も効率的なアプローチは、拡散モデルに最終ステップを処理させ、画像の「欠落」部分のみに焦点を当てることです。
マルチメディアAIの未来を切り開く
研究チームの次の方向性は、HART アーキテクチャに基づく新世代の視覚言語 AI モデルを構築することです。 HART はスケーラブルで、多くの種類のデータ (マルチモーダル) に適応できるため、ビデオ生成、オーディオ予測、その他多くの分野に適用できると期待されています。
この研究は、MIT-IBM Watson AI Lab、MIT-Amazon Science Center、MIT AI ハードウェア プログラム、米国国立科学財団など、複数の組織から資金提供を受けました。 NVIDIA はモデルのトレーニング用に GPU インフラストラクチャも寄付しました。
(MITニュースによると)
出典: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
コメント (0)