![]() |
Google acaba de lanzar ampliamente la función de generación de imágenes nativas del modelo de lenguaje Flash Gemini 2.0. Con esta capacidad, el modelo puede componer y editar imágenes existentes basándose en la entrada de texto. Foto: Google . |
![]() |
A diferencia de otras herramientas de imágenes que combinan el modelado de difusión con el modelado de lenguaje grande (LLM), Gemini 2.0 Flash es multimodal, capaz de manejar entrada y salida en múltiples formatos (texto, audio, imágenes, etc.). En teoría, esta técnica mejora la calidad de la fotografía, permite que la herramienta comprenda el contexto y continúe editando dentro de la misma conversación. Foto: Google . |
![]() |
Para probar la herramienta, los usuarios y desarrolladores deben ir a Google AI Studio y cambiar al modelo experimental Gemini 2.0 Flash (generación de imágenes) . En la sección Formato de salida, seleccione Imágenes y texto . El área de interacción de herramientas se encuentra en el medio de la pantalla. A continuación se muestran algunas de las características principales de Gemini 2.0 Flash. |
![]() |
Crea imágenes y texto al mismo tiempo. Según Google, Gemini 2.0 Flash admite la creación de texto e imágenes al mismo tiempo. Por ejemplo, se le podría pedir al modelo que cuente una historia y dibuje ilustraciones. En mi experiencia, la velocidad de creación de imágenes y texto es bastante rápida, en promedio 5-10 segundos/imagen (dependiendo de la longitud y la complejidad). |
![]() |
Editar fotos en la misma conversación . Gracias a su comprensión contextual, Gemini 2.0 Flash admite retroalimentación y edición de fotografías. Si no está satisfecho con el color, el objeto o algún detalle de la foto, simplemente ingrese un comando para realizar el cambio de herramienta sin afectar otros elementos. |
![]() |
Editar fotos existentes . De manera similar, simplemente cargue cualquier foto para pedirle a la herramienta que edite detalles en la foto, como cambiar colores, agregar objetos o ajustar el fondo. Los usuarios pueden brindar comentarios continuos hasta que la herramienta produzca resultados satisfactorios. |
![]() ![]() |
Objeto dividido . La capacidad de separación de objetos de Gemini 2.0 Flash es bastante buena, pero todavía hay una debilidad relacionada con las manos humanas. La herramienta entiende el significado vietnamita, lo que permite separar y reemplazar fondos según muchos temas diferentes. |
![]() ![]() |
Expandir/cambiar la escena . En este caso, el usuario puede pedirle a la herramienta que reduzca el tamaño de la imagen existente, rellenando el espacio con una nueva escena basada en la descripción. Dado que todavía está en versión beta, la herramienta a veces falla o no genera la imagen deseada. |
![]() |
Crear imagen con texto múltiple . Según Google, Gemini 2.0 Flash puede crear imágenes con texto largo sin errores ortográficos ni caracteres extraños. Esta es una de las muchas debilidades de otros modelos de imágenes. Sin embargo, la experiencia demuestra que el idioma vietnamita todavía es difícil de leer en algunos lugares. La herramienta tampoco puede traducir palabras del texto sin sugerencias específicas. |
![]() ![]() |
Añadir personas a la foto . Herramienta para agregar personas a fotos existentes, con la apariencia correcta como se describe. Dado que se trata de una versión beta gratuita, cada hilo de conversación está limitado a alrededor de 30.000 tokens. Sin embargo, los usuarios no tienen que preocuparse porque una pregunta/respuesta solo cuesta alrededor de 300 a 500 tokens, no demasiado si solo se trata de editar y crear fotos básicas. |
![]() ![]() |
Cambiar el ángulo de disparo . Los usuarios pueden solicitar cambiar diferentes ángulos de la misma foto. Por supuesto, la herramienta admite el ajuste de diferentes detalles hasta crear una imagen satisfactoria. |
![]() |
Minería de conocimiento . Según Google, Gemini 2.0 Flash está entrenado en una gran cantidad de conocimientos con capacidad de razonamiento. Por ejemplo, puedes pedirle a la herramienta que cree una receta basada en el conocimiento existente y luego dibuje una ilustración para que sea más fácil de entender. Al igual que otras herramientas, Google señala que Gemini 2.0 Flash solo ofrece conocimiento general y no es demasiado profundo ni absolutamente preciso. |
![]() |
Usos controvertidos . Después de su lanzamiento generalizado, muchas personas descubrieron que Gemini 2.0 Flash puede eliminar marcas de agua de las fotos. Esta posibilidad no es aceptada por herramientas de IA como GPT-4o. Dado que todavía es experimental, es probable que Google solucione este problema en un futuro cercano. Foto: @deedydas/X . |
Fuente: https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html
Kommentar (0)