![]() |
Google vient de diffuser largement la fonctionnalité de génération d'images natives à partir du modèle de langage Flash Gemini 2.0. Grâce à cette capacité, le modèle peut composer et éditer des images existantes en fonction de la saisie de texte. Photo : Google . |
![]() |
Contrairement à d'autres outils d'imagerie qui combinent la modélisation par diffusion avec la modélisation en langage large (LLM), Gemini 2.0 Flash est multimodal, capable de gérer l'entrée et la sortie dans plusieurs formats (texte, audio, images, etc.). En théorie, cette technique améliore la qualité des photos, permet à l’outil de comprendre le contexte et de poursuivre l’édition au sein de la même conversation. Photo : Google . |
![]() |
Pour tester l'outil, les utilisateurs et les développeurs doivent accéder à Google AI Studio et passer au modèle expérimental Gemini 2.0 Flash (génération d'images) . Dans la section Format de sortie, sélectionnez Images et texte . La zone d’interaction des outils est située au milieu de l’écran. Vous trouverez ci-dessous quelques-unes des principales fonctionnalités de Gemini 2.0 Flash. |
![]() |
Créez des images et du texte en même temps. Selon Google, Gemini 2.0 Flash prend en charge la création simultanée de texte et d'images. Par exemple, on pourrait demander au modèle de raconter une histoire et de dessiner des illustrations. D'après mon expérience, la vitesse de création d'images et de texte est assez rapide, en moyenne 5 à 10 secondes/image (selon la longueur et la complexité). |
![]() |
Modifiez les photos dans la même conversation . Grâce à sa compréhension contextuelle, Gemini 2.0 Flash prend en charge le feedback et l'édition de photos. Si vous n'êtes pas satisfait de la couleur, de l'objet ou d'un détail de la photo, entrez simplement une commande pour effectuer le changement d'outil sans affecter les autres éléments. |
![]() |
Modifier les photos existantes . De même, téléchargez simplement n’importe quelle photo pour demander à l’outil de modifier les détails de la photo, comme changer les couleurs, ajouter des objets ou ajuster l’arrière-plan. Les utilisateurs peuvent donner un retour continu jusqu’à ce que l’outil produise des résultats satisfaisants. |
![]() ![]() |
Diviser l'objet . La capacité de séparation des objets de Gemini 2.0 Flash est assez bonne, mais il existe toujours une faiblesse liée aux mains humaines. L'outil comprend le sens vietnamien, permettant de séparer et de remplacer les arrière-plans en fonction de nombreux sujets différents. |
![]() ![]() |
Développer/modifier la scène . Dans ce cas, l'utilisateur peut demander à l'outil de réduire l'image existante, en comblant le vide avec une nouvelle scène basée sur la description. Comme il est encore en version bêta, l'outil plante parfois ou ne génère pas l'image souhaitée. |
![]() |
Créer une image avec plusieurs textes . Selon Google, Gemini 2.0 Flash peut créer des images avec du texte long sans fautes d'orthographe ni caractères étranges. C’est l’une des nombreuses faiblesses des autres modèles d’imagerie. Cependant, l’expérience montre que la langue vietnamienne est encore difficile à lire dans certains endroits. L'outil ne peut pas non plus traduire les mots d'un texte sans suggestions spécifiques. |
![]() ![]() |
Ajoutez des personnes à la photo . Outil permettant d'ajouter des personnes à des photos existantes, avec l'apparence correcte telle que décrite. Comme il s'agit d'une version bêta gratuite, chaque fil de conversation est limité à environ 30 000 jetons. Cependant, les utilisateurs n'ont pas à s'inquiéter car une question/réponse ne coûte qu'environ 300 à 500 jetons, ce qui n'est pas trop cher s'il s'agit simplement d'éditer et de créer des photos de base. |
![]() ![]() |
Changer l'angle de prise de vue . Les utilisateurs peuvent demander de modifier différents angles de la même photo. Bien entendu, l'outil permet d'ajuster différents détails jusqu'à créer une image satisfaisante. |
![]() |
Exploration des connaissances . Selon Google, Gemini 2.0 Flash est formé sur une grande quantité de connaissances avec une capacité de raisonnement. Par exemple, vous pouvez demander à l’outil de créer une recette à partir des connaissances existantes, puis de dessiner une illustration pour faciliter la compréhension. Comme d'autres outils, Google note que Gemini 2.0 Flash n'est qu'une connaissance générale, pas trop approfondie ni absolument précise. |
![]() |
Utilisations controversées . Après sa sortie généralisée, de nombreuses personnes ont découvert que Gemini 2.0 Flash pouvait supprimer les filigranes des photos. Cette possibilité n’est pas acceptée par les outils d’IA comme GPT-4o. Comme il s'agit encore d'un problème expérimental, Google est susceptible de résoudre ce problème dans un avenir proche. Photo : @deedydas/X . |
Source : https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html
Comment (0)