Искусственный интеллект для преобразования текста в видео, например, Sora

Сора (OpenAI)

Sora — самое новое из объявленных названий, но оно уже вызвало наибольший ажиотаж, отчасти потому, что это продукт OpenAI — известного разработчика ChatGPT, но в основном из-за качества видео, которые программа создает с помощью одних только текстовых команд.

Успех ChatGPT также дает искусственному интеллекту компании возможности глубокого понимания языка. Клипы, иллюстрирующие способности Соры, так ярко показывают движения и нюансы персонажа, словно в игровом фильме.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — «Сюрреалистическое» видео, созданное Сорой из текстовых команд

Однако Sora пока недоступен на рынке по соображениям безопасности. OpenAI примет тщательные меры, прежде чем выводить этот продукт на рынок, особенно в контексте использования искусственного интеллекта преступниками в вредоносных целях, выдавая себя за пользователей или совершая противозаконные действия.

Люмьер (Google)

Lumiere — это продукт от Google, также способный создавать видео из входных текстовых команд, работающий на основе структурированной модели диффузии STUNet (Space-Time-U-Net). Lumiere не возится со сшиванием неподвижных кадров, вместо этого этот ИИ определяет детали в видео (пространственная часть), отслеживает, как они движутся, изменяются одновременно (временная часть), тем самым помогая процессу проходить гладко.

Как и Сора, Люмьер не был представлен публике. Компания представила эту модель только в конце января 2024 года после запуска Gemini — большой языковой модели, которая недавно была синхронизирована с Bard.

ВидеоПоэт (Google)

Эта большая языковая модель (LLM) обучается на основе огромного хранилища видео, изображений, аудио и текста, разработанного Google Search в 2023 году. VideoPoet может выполнять различные задачи с такими источниками входных данных, как текст, изображения, видео... для создания видео, выделения контента, преобразования видео в аудио, превращения неподвижных изображений в анимацию...

Первоначальная идея VideoPoet возникла из необходимости преобразовать любую модель авторегрессионного языка в систему генерации видео. Современные авторегрессионные языковые модели способны обрабатывать текст и программный код так же, как люди, но упираются в стену, когда дело доходит до видео. VideoPoet решает эту проблему, используя токенизацию для преобразования входных данных из любого формата в понятный ему язык.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — Инструменты для создания видео из текста в основном проверяют свои возможности

Эму Видео (Мета)

Наряду с Google и OpenAI, Meta также является одним из крупнейших технологических гигантов, активно занимающихся инновациями в области искусственного интеллекта. Компания, которой принадлежит Facebook, также разработала искусственный интеллект для создания видео под названием Emu Video, который может преобразовывать изображения в текст, а затем использовать его в качестве данных для создания клипов.

Emu Video получает положительные отзывы от участников тестовой программы: 81% отдают предпочтение этому ИИ, а не Imagen Video (Google). Более 90% выбрали модель Meta вместо PYOCO (Nvidia), что даже лучше, чем Make-A-Video от Meta (выбрали 96%).

CogVideo (Университет Цинхуа, Китай)

В отличие от вышеперечисленных моделей, которые являются продуктами ведущих мировых технологических компаний, CogVideo — это искусственный интеллект, разработанный исследовательской группой из Университета Цинхуа — ведущего престижного университета в Китае и Азии. Программа основана на CogView2 — предварительно обученной модели преобразования текста в изображение.

Эксперт по компьютерному искусству Гленн Маршалл, который тестировал CogVideo, сказал, что «режиссеры могут потерять работу». Клип под названием «Ворон» , созданный им с помощью CogVideo, получил высокую оценку и был номинирован на премию Британской академии кино (BAFTA).

Ссылка на источник