Google の優れた AI 画像生成モデルを体験してください

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 1

Google は、Gemini 2.0 Flash 言語モデルのネイティブ画像生成機能を広くリリースしました。この機能により、モデルはテキスト入力に基づいて既存の画像を作成、編集できます。写真: Google .

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 2

拡散モデリングと大規模言語モデリング (LLM) を組み合わせた他のイメージングツールとは異なり、Gemini 2.0 Flash はマルチモーダルであり、複数の形式 (テキスト、オーディオ、画像など) での入力と出力を処理できます。理論的には、この技術により写真の品質が向上し、ツールがコンテキストを理解し、同じ会話内で編集を継続できるようになります。写真: Google .

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 3

このツールを試すには、ユーザーと開発者は Google AI Studio にアクセスし、 Gemini 2.0 Flash (Image Generation) 実験モデルに切り替える必要があります。出力形式セクションで、画像とテキストを選択します。ツール操作領域は画面の中央にあります。以下は、Gemini 2.0 Flash の主な機能の一部です。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 4

画像とテキストを同時に作成します。 Google によれば、Gemini 2.0 Flash はテキストと画像を同時に作成することをサポートしています。たとえば、モデルに物語を語ったりイラストを描いたりするように依頼することがあります。私の経験では、画像とテキストの作成速度は非常に速く、平均して 1 画像あたり 5 ～ 10 秒です (長さと複雑さによって異なります)。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 5

同じ会話内で写真を編集します。 Gemini 2.0 Flash は、コンテキスト理解機能により、フィードバックと写真編集をサポートします。写真の色、オブジェクト、または詳細に満足できない場合は、コマンドを入力するだけで、他の要素に影響を与えずにツールを変更できます。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 6

既存の写真を編集します。同様に、写真をアップロードするだけで、色の変更、オブジェクトの追加、背景の調整など、写真の詳細を編集するようにツールに依頼できます。ツールが満足のいく結果を生み出すまで、ユーザーは継続的にフィードバックを提供できます。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 7

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 8

オブジェクトを分割します。 Gemini 2.0 Flash のオブジェクト分離能力は非常に優れていますが、人間の手に関連する弱点はまだ残っています。このツールはベトナム語の意味を理解し、さまざまなトピックに応じて背景を分離および置き換えることができます。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 9

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 10

シーンを拡大・変更します。この場合、ユーザーはツールに既存の画像を縮小し、説明に基づいて新しいシーンでギャップを埋めるように要求できます。まだベータ版であるため、ツールがクラッシュしたり、目的の画像が生成されないことがあります。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 11

複数のテキストを含む画像を作成します。 Google によれば、Gemini 2.0 Flash はスペルミスや奇妙な文字のない長いテキストを含む画像を作成できるとのことです。これは、他のイメージングモデルの多くの弱点の 1 つです。しかし、経験上、ベトナム語は場所によっては依然として読みにくいことが分かっています。また、このツールは具体的な提案がなければテキスト内の単語を翻訳することもできません。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 12

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 13

写真に人を追加します。説明どおりに正しい外観で、既存の写真に人物を追加するためのツール。無料のベータ版リリースであるため、各会話スレッドは約 30,000 トークンに制限されます。ただし、1 つの質問/回答にかかる費用は 300 ～ 500 トークン程度で、基本的な写真の編集と作成だけであればそれほど高くないため、ユーザーは心配する必要はありません。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 14

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 15

撮影角度を変えます。ユーザーは同じ写真の異なる角度を変更するようリクエストできます。もちろん、このツールは、満足のいく画像が作成されるまでさまざまな詳細を調整することをサポートします。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 16

知識マイニング。 Googleによれば、Gemini 2.0 Flashは推論能力を備えた大量の知識に基づいてトレーニングされているとのこと。たとえば、既存の知識に基づいてレシピを考え、それを分かりやすくするためにイラストを描くようにツールに依頼することができます。 Google は、他のツールと同様に、Gemini 2.0 Flash は一般的な知識を提供するだけであり、あまり詳細ではなく、絶対的に正確でもないと指摘しています。

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 17

物議を醸す使用法。広くリリースされた後、多くの人が Gemini 2.0 Flash で写真から透かしを削除できることを発見しました。この可能性は、GPT-4o のような AI ツールでは受け入れられません。まだ実験段階なので、Google は近い将来にこれを修正する可能性があります。写真: @deedydas/X .

出典: https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html