![]() |
Google は、Gemini 2.0 Flash 言語モデルのネイティブ画像生成機能を広くリリースしました。この機能により、モデルはテキスト入力に基づいて既存の画像を作成、編集できます。写真: Google . |
![]() |
拡散モデリングと大規模言語モデリング (LLM) を組み合わせた他のイメージング ツールとは異なり、Gemini 2.0 Flash はマルチモーダルであり、複数の形式 (テキスト、オーディオ、画像など) での入力と出力を処理できます。理論的には、この技術により写真の品質が向上し、ツールがコンテキストを理解し、同じ会話内で編集を継続できるようになります。写真: Google . |
![]() |
このツールを試すには、ユーザーと開発者は Google AI Studio にアクセスし、 Gemini 2.0 Flash (Image Generation) 実験モデルに切り替える必要があります。出力形式セクションで、画像とテキストを選択します。ツール操作領域は画面の中央にあります。以下は、Gemini 2.0 Flash の主な機能の一部です。 |
![]() |
画像とテキストを同時に作成します。 Google によれば、Gemini 2.0 Flash はテキストと画像を同時に作成することをサポートしています。たとえば、モデルに物語を語ったりイラストを描いたりするように依頼することがあります。私の経験では、画像とテキストの作成速度は非常に速く、平均して 1 画像あたり 5 ~ 10 秒です (長さと複雑さによって異なります)。 |
![]() |
同じ会話内で写真を編集します。 Gemini 2.0 Flash は、コンテキスト理解機能により、フィードバックと写真編集をサポートします。写真の色、オブジェクト、または詳細に満足できない場合は、コマンドを入力するだけで、他の要素に影響を与えずにツールを変更できます。 |
![]() |
既存の写真を編集します。同様に、写真をアップロードするだけで、色の変更、オブジェクトの追加、背景の調整など、写真の詳細を編集するようにツールに依頼できます。ツールが満足のいく結果を生み出すまで、ユーザーは継続的にフィードバックを提供できます。 |
![]() ![]() |
オブジェクトを分割します。 Gemini 2.0 Flash のオブジェクト分離能力は非常に優れていますが、人間の手に関連する弱点はまだ残っています。このツールはベトナム語の意味を理解し、さまざまなトピックに応じて背景を分離および置き換えることができます。 |
![]() ![]() |
シーンを拡大・変更します。この場合、ユーザーはツールに既存の画像を縮小し、説明に基づいて新しいシーンでギャップを埋めるように要求できます。まだベータ版であるため、ツールがクラッシュしたり、目的の画像が生成されないことがあります。 |
![]() |
複数のテキストを含む画像を作成します。 Google によれば、Gemini 2.0 Flash はスペルミスや奇妙な文字のない長いテキストを含む画像を作成できるとのことです。これは、他のイメージング モデルの多くの弱点の 1 つです。しかし、経験上、ベトナム語は場所によっては依然として読みにくいことが分かっています。また、このツールは具体的な提案がなければテキスト内の単語を翻訳することもできません。 |
![]() ![]() |
写真に人を追加します。説明どおりに正しい外観で、既存の写真に人物を追加するためのツール。無料のベータ版リリースであるため、各会話スレッドは約 30,000 トークンに制限されます。ただし、1 つの質問/回答にかかる費用は 300 ~ 500 トークン程度で、基本的な写真の編集と作成だけであればそれほど高くないため、ユーザーは心配する必要はありません。 |
![]() ![]() |
撮影角度を変えます。ユーザーは同じ写真の異なる角度を変更するようリクエストできます。もちろん、このツールは、満足のいく画像が作成されるまでさまざまな詳細を調整することをサポートします。 |
![]() |
知識マイニング。 Googleによれば、Gemini 2.0 Flashは推論能力を備えた大量の知識に基づいてトレーニングされているとのこと。たとえば、既存の知識に基づいてレシピを考え、それを分かりやすくするためにイラストを描くようにツールに依頼することができます。 Google は、他のツールと同様に、Gemini 2.0 Flash は一般的な知識を提供するだけであり、あまり詳細ではなく、絶対的に正確でもないと指摘しています。 |
![]() |
物議を醸す使用法。広くリリースされた後、多くの人が Gemini 2.0 Flash で写真から透かしを削除できることを発見しました。この可能性は、GPT-4o のような AI ツールでは受け入れられません。まだ実験段階なので、Google は近い将来にこれを修正する可能性があります。写真: @deedydas/X . |
出典: https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html
コメント (0)