Inteligencia artificial que convierte texto a video como Sora

[anuncio_1]

Sora (OpenAI)

Sora es el nombre más reciente en ser anunciado pero el que ha causado más revuelo, en parte porque es un producto de OpenAI, el famoso desarrollador de ChatGPT, pero principalmente por la calidad de los vídeos que el programa crea solo con comandos de texto.

El éxito de ChatGPT también le otorga a la inteligencia artificial de la empresa capacidades de comprensión profunda del lenguaje. Los clips que ilustran las habilidades de Sora muestran los movimientos y matices del personaje de forma tan vívida, como en una película de acción real.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — Vídeo "surrealista" creado por Sora a partir de comandos de texto

Pero Sora aún no está disponible en el mercado por razones de seguridad. OpenAI tomará medidas cuidadosas antes de llevar este producto a las masas, especialmente en el contexto de que la inteligencia artificial sea explotada por delincuentes con fines maliciosos, suplantando a usuarios o de manera ilegal.

Lumiere (Google)

Lumiere es un producto de Google, también capaz de producir vídeos a partir de comandos de texto de entrada, operando en base al modelo de difusión estructurado STUNet (Space-Time-U-Net). Lumiere no se preocupa por unir imágenes fijas, en cambio, esta IA identifica los detalles en el video (parte espacial), rastrea cómo se mueven y cambian al mismo tiempo (parte temporal), lo que ayuda a que el proceso funcione sin problemas.

Al igual que Sora, Lumiere no ha sido hecho público. La compañía recién introdujo este modelo a fines de enero de 2024, después de lanzar Gemini, un gran modelo de lenguaje que se sincronizó recientemente con Bard.

VideoPoet (Google)

Este gran modelo de lenguaje (LLM) se entrena a partir de un enorme repositorio de vídeos, imágenes, audio y texto desarrollado por Google Search en 2023. VideoPoet puede realizar diversas tareas a partir de fuentes de entrada como texto, imágenes, vídeos... para crear vídeos, resaltar contenido, convertir vídeos a audio, convertir imágenes fijas en animaciones...

La idea original de VideoPoet surgió de la necesidad de convertir cualquier modelo de lenguaje autorregresivo en un sistema de generación de vídeo. Los modelos de lenguaje autorregresivo actuales pueden procesar texto y código de programación como los humanos, pero se topan con un obstáculo cuando se trata de video. VideoPoet resuelve esto utilizando tokenización para convertir la entrada de cualquier formato a un lenguaje que pueda entender.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Las herramientas para crear vídeos a partir de texto están probando en gran medida sus límites

Vídeo de Emu (Meta)

Además de Google y OpenAI, Meta también es una de las grandes tecnológicas activas en la innovación en IA. La empresa propietaria de Facebook también desarrolló una inteligencia artificial para crear videos llamada Emu Video, que puede convertir imágenes en texto y luego usar eso como datos para crear clips.

Emu Video está recibiendo críticas positivas de los participantes del programa de prueba, y el 81 % prefiere esta IA sobre Imagen Video (Google). Más del 90% eligió el modelo de Meta en lugar de PYOCO (Nvidia), incluso mejor que Make-A-Video de Meta (eligió el 96%).

CogVideo (Universidad de Tsinghua, China)

A diferencia de los modelos anteriores, que son todos productos de las principales empresas de tecnología del mundo, CogVideo es una IA desarrollada por un equipo de investigación de la Universidad de Tsinghua, una prestigiosa universidad líder en China y Asia. El programa se basa en CogView2, un modelo de texto a imagen previamente entrenado.

El experto en arte informático Glenn Marshall, que probó CogVideo, dijo que "los directores podrían perder sus trabajos". El clip llamado The Crow , que creó con la ayuda de CogVideo, recibió grandes elogios y fue nominado a un premio de la Academia Británica de Cine (BAFTA).

[anuncio_2]
Enlace de origen