Experimente el impresionante modelo de generación de imágenes con IA de Google

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 1

Google acaba de lanzar ampliamente la función de generación de imágenes nativas del modelo de lenguaje Flash Gemini 2.0. Con esta capacidad, el modelo puede componer y editar imágenes existentes basándose en la entrada de texto. Foto: Google .

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 2

A diferencia de otras herramientas de imágenes que combinan el modelado de difusión con el modelado de lenguaje grande (LLM), Gemini 2.0 Flash es multimodal, capaz de manejar entrada y salida en múltiples formatos (texto, audio, imágenes, etc.). En teoría, esta técnica mejora la calidad de la fotografía, permite que la herramienta comprenda el contexto y continúe editando dentro de la misma conversación. Foto: Google .

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 3

Para probar la herramienta, los usuarios y desarrolladores deben ir a Google AI Studio y cambiar al modelo experimental Gemini 2.0 Flash (generación de imágenes) . En la sección Formato de salida, seleccione Imágenes y texto . El área de interacción de herramientas se encuentra en el medio de la pantalla. A continuación se muestran algunas de las características principales de Gemini 2.0 Flash.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 4

Crea imágenes y texto al mismo tiempo. Según Google, Gemini 2.0 Flash admite la creación de texto e imágenes al mismo tiempo. Por ejemplo, se le podría pedir al modelo que cuente una historia y dibuje ilustraciones. En mi experiencia, la velocidad de creación de imágenes y texto es bastante rápida, en promedio 5-10 segundos/imagen (dependiendo de la longitud y la complejidad).

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 5

Editar fotos en la misma conversación . Gracias a su comprensión contextual, Gemini 2.0 Flash admite retroalimentación y edición de fotografías. Si no está satisfecho con el color, el objeto o algún detalle de la foto, simplemente ingrese un comando para realizar el cambio de herramienta sin afectar otros elementos.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 6

Editar fotos existentes . De manera similar, simplemente cargue cualquier foto para pedirle a la herramienta que edite detalles en la foto, como cambiar colores, agregar objetos o ajustar el fondo. Los usuarios pueden brindar comentarios continuos hasta que la herramienta produzca resultados satisfactorios.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 7

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 8

Objeto dividido . La capacidad de separación de objetos de Gemini 2.0 Flash es bastante buena, pero todavía hay una debilidad relacionada con las manos humanas. La herramienta entiende el significado vietnamita, lo que permite separar y reemplazar fondos según muchos temas diferentes.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 9

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 10

Expandir/cambiar la escena . En este caso, el usuario puede pedirle a la herramienta que reduzca el tamaño de la imagen existente, rellenando el espacio con una nueva escena basada en la descripción. Dado que todavía está en versión beta, la herramienta a veces falla o no genera la imagen deseada.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 11

Crear imagen con texto múltiple . Según Google, Gemini 2.0 Flash puede crear imágenes con texto largo sin errores ortográficos ni caracteres extraños. Esta es una de las muchas debilidades de otros modelos de imágenes. Sin embargo, la experiencia demuestra que el idioma vietnamita todavía es difícil de leer en algunos lugares. La herramienta tampoco puede traducir palabras del texto sin sugerencias específicas.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 12

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 13

Añadir personas a la foto . Herramienta para agregar personas a fotos existentes, con la apariencia correcta como se describe. Dado que se trata de una versión beta gratuita, cada hilo de conversación está limitado a alrededor de 30.000 tokens. Sin embargo, los usuarios no tienen que preocuparse porque una pregunta/respuesta solo cuesta alrededor de 300 a 500 tokens, no demasiado si solo se trata de editar y crear fotos básicas.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 14

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 15

Cambiar el ángulo de disparo . Los usuarios pueden solicitar cambiar diferentes ángulos de la misma foto. Por supuesto, la herramienta admite el ajuste de diferentes detalles hasta crear una imagen satisfactoria.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 16

Minería de conocimiento . Según Google, Gemini 2.0 Flash está entrenado en una gran cantidad de conocimientos con capacidad de razonamiento. Por ejemplo, puedes pedirle a la herramienta que cree una receta basada en el conocimiento existente y luego dibuje una ilustración para que sea más fácil de entender. Al igual que otras herramientas, Google señala que Gemini 2.0 Flash solo ofrece conocimiento general y no es demasiado profundo ni absolutamente preciso.

Google Gemini 2.0 Flash, trai nghiem Google Gemini, tri tue nhan tao, cong cu AI Google anh 17

Usos controvertidos . Después de su lanzamiento generalizado, muchas personas descubrieron que Gemini 2.0 Flash puede eliminar marcas de agua de las fotos. Esta posibilidad no es aceptada por herramientas de IA como GPT-4o. Dado que todavía es experimental, es probable que Google solucione este problema en un futuro cercano. Foto: @deedydas/X .

Fuente: https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html