Искусственный интеллект для преобразования текста в видео, например, Sora

Báo Thanh niênBáo Thanh niên20/02/2024


Сора (OpenAI)

Sora — самое новое из объявленных названий, но оно уже вызвало наибольший ажиотаж, отчасти потому, что это продукт OpenAI — известного разработчика ChatGPT, но в основном из-за качества видео, которые программа создает с помощью одних только текстовых команд.

Успех ChatGPT также дает искусственному интеллекту компании возможности глубокого понимания языка. Клипы, иллюстрирующие способности Соры, так ярко показывают движения и нюансы персонажа, словно в игровом фильме.

Video "siêu thực" do Sora tạo từ các lệnh văn bản

«Сюрреалистическое» видео, созданное Сорой из текстовых команд

Однако Sora пока недоступен на рынке по соображениям безопасности. OpenAI примет тщательные меры, прежде чем выводить этот продукт на рынок, особенно в контексте использования искусственного интеллекта преступниками в вредоносных целях, выдавая себя за пользователей или совершая противозаконные действия.

Люмьер (Google)

Lumiere — это продукт от Google, также способный создавать видео из входных текстовых команд, работающий на основе структурированной модели диффузии STUNet (Space-Time-U-Net). Lumiere не возится со сшиванием неподвижных кадров, вместо этого этот ИИ определяет детали в видео (пространственная часть), отслеживает, как они движутся, изменяются одновременно (временная часть), тем самым помогая процессу проходить гладко.

Как и Сора, Люмьер не был представлен публике. Компания представила эту модель только в конце января 2024 года после запуска Gemini — большой языковой модели, которая недавно была синхронизирована с Bard.

ВидеоПоэт (Google)

Эта большая языковая модель (LLM) обучается на основе огромного хранилища видео, изображений, аудио и текста, разработанного Google Search в 2023 году. VideoPoet может выполнять различные задачи с такими источниками входных данных, как текст, изображения, видео... для создания видео, выделения контента, преобразования видео в аудио, превращения неподвижных изображений в анимацию...

Первоначальная идея VideoPoet возникла из необходимости преобразовать любую модель авторегрессионного языка в систему генерации видео. Современные авторегрессионные языковые модели способны обрабатывать текст и программный код так же, как люди, но упираются в стену, когда дело доходит до видео. VideoPoet решает эту проблему, используя токенизацию для преобразования входных данных из любого формата в понятный ему язык.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn

Инструменты для создания видео из текста в основном проверяют свои возможности

Эму Видео (Мета)

Наряду с Google и OpenAI, Meta также является одним из крупнейших технологических гигантов, активно занимающихся инновациями в области искусственного интеллекта. Компания, которой принадлежит Facebook, также разработала искусственный интеллект для создания видео под названием Emu Video, который может преобразовывать изображения в текст, а затем использовать его в качестве данных для создания клипов.

Emu Video получает положительные отзывы от участников тестовой программы: 81% отдают предпочтение этому ИИ, а не Imagen Video (Google). Более 90% выбрали модель Meta вместо PYOCO (Nvidia), что даже лучше, чем Make-A-Video от Meta (выбрали 96%).

CogVideo (Университет Цинхуа, Китай)

В отличие от вышеперечисленных моделей, которые являются продуктами ведущих мировых технологических компаний, CogVideo — это искусственный интеллект, разработанный исследовательской группой из Университета Цинхуа — ведущего престижного учебного заведения как в Китае, так и в Азии. Программа основана на CogView2 — предварительно обученной модели преобразования текста в изображение.

Эксперт по компьютерному искусству Гленн Маршалл, который тестировал CogVideo, сказал, что «режиссеры могут потерять работу». Клип под названием «Ворон» , созданный им с помощью CogVideo, получил высокие отзывы и был номинирован на премию Британской академии кино (BAFTA).



Ссылка на источник

Комментарий (0)

No data
No data

Та же тема

Та же категория

Тот же автор

Фигура

Французский отец привозит дочь во Вьетнам, чтобы найти мать: невероятные результаты ДНК через 1 день
Кантхо в моих глазах
17-секундное видео с Манг Ден настолько красивое, что пользователи сети подозревают, что оно было отредактировано
Красавица прайм-тайма произвела фурор благодаря своей роли ученицы 10-го класса, которая слишком хороша собой, несмотря на свой рост всего 1 м 53 см.

No videos available