Découvrez l'impressionnant modèle de génération d'images IA de Google

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 1

Google vient de diffuser largement la fonctionnalité de génération d'images natives à partir du modèle de langage Flash Gemini 2.0. Grâce à cette capacité, le modèle peut composer et éditer des images existantes en fonction de la saisie de texte. Photo : Google .

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 2

Contrairement à d'autres outils d'imagerie qui combinent la modélisation par diffusion avec la modélisation en langage large (LLM), Gemini 2.0 Flash est multimodal, capable de gérer l'entrée et la sortie dans plusieurs formats (texte, audio, images, etc.). En théorie, cette technique améliore la qualité des photos, permet à l’outil de comprendre le contexte et de poursuivre l’édition au sein de la même conversation. Photo : Google .

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 3

Pour tester l'outil, les utilisateurs et les développeurs doivent accéder à Google AI Studio et passer au modèle expérimental Gemini 2.0 Flash (génération d'images) . Dans la section Format de sortie, sélectionnez Images et texte . La zone d’interaction des outils est située au milieu de l’écran. Vous trouverez ci-dessous quelques-unes des principales fonctionnalités de Gemini 2.0 Flash.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 4

Créez des images et du texte en même temps. Selon Google, Gemini 2.0 Flash prend en charge la création simultanée de texte et d'images. Par exemple, on pourrait demander au modèle de raconter une histoire et de dessiner des illustrations. D'après mon expérience, la vitesse de création d'images et de texte est assez rapide, en moyenne 5 à 10 secondes/image (selon la longueur et la complexité).

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 5

Modifiez les photos dans la même conversation . Grâce à sa compréhension contextuelle, Gemini 2.0 Flash prend en charge le feedback et l'édition de photos. Si vous n'êtes pas satisfait de la couleur, de l'objet ou d'un détail de la photo, entrez simplement une commande pour effectuer le changement d'outil sans affecter les autres éléments.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 6

Modifier les photos existantes . De même, téléchargez simplement n’importe quelle photo pour demander à l’outil de modifier les détails de la photo, comme changer les couleurs, ajouter des objets ou ajuster l’arrière-plan. Les utilisateurs peuvent donner un retour continu jusqu’à ce que l’outil produise des résultats satisfaisants.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 7

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 8

Diviser l'objet . La capacité de séparation des objets de Gemini 2.0 Flash est assez bonne, mais il existe toujours une faiblesse liée aux mains humaines. L'outil comprend le sens vietnamien, permettant de séparer et de remplacer les arrière-plans en fonction de nombreux sujets différents.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 9

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 10

Développer/modifier la scène . Dans ce cas, l'utilisateur peut demander à l'outil de réduire l'image existante, en comblant le vide avec une nouvelle scène basée sur la description. Comme il est encore en version bêta, l'outil plante parfois ou ne génère pas l'image souhaitée.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 11

Créer une image avec plusieurs textes . Selon Google, Gemini 2.0 Flash peut créer des images avec du texte long sans fautes d'orthographe ni caractères étranges. C’est l’une des nombreuses faiblesses des autres modèles d’imagerie. Cependant, l’expérience montre que la langue vietnamienne est encore difficile à lire dans certains endroits. L'outil ne peut pas non plus traduire les mots d'un texte sans suggestions spécifiques.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 12

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 13

Ajoutez des personnes à la photo . Outil permettant d'ajouter des personnes à des photos existantes, avec l'apparence correcte telle que décrite. Comme il s'agit d'une version bêta gratuite, chaque fil de conversation est limité à environ 30 000 jetons. Cependant, les utilisateurs n'ont pas à s'inquiéter car une question/réponse ne coûte qu'environ 300 à 500 jetons, ce qui n'est pas trop cher s'il s'agit simplement d'éditer et de créer des photos de base.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 14

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 15

Changer l'angle de prise de vue . Les utilisateurs peuvent demander de modifier différents angles de la même photo. Bien entendu, l'outil permet d'ajuster différents détails jusqu'à créer une image satisfaisante.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 16

Exploration des connaissances . Selon Google, Gemini 2.0 Flash est formé sur une grande quantité de connaissances avec une capacité de raisonnement. Par exemple, vous pouvez demander à l’outil de créer une recette à partir des connaissances existantes, puis de dessiner une illustration pour faciliter la compréhension. Comme d'autres outils, Google note que Gemini 2.0 Flash n'est qu'une connaissance générale, pas trop approfondie ni absolument précise.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 17

Utilisations controversées . Après sa sortie généralisée, de nombreuses personnes ont découvert que Gemini 2.0 Flash pouvait supprimer les filigranes des photos. Cette possibilité n’est pas acceptée par les outils d’IA comme GPT-4o. Comme il s'agit encore d'un problème expérimental, Google est susceptible de résoudre ce problème dans un avenir proche. Photo : @deedydas/X .

Source : https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html