Сора (OpenAI)
Sora — самое новое из объявленных названий, но оно уже вызвало наибольший ажиотаж, отчасти потому, что это продукт OpenAI — известного разработчика ChatGPT, но в основном из-за качества видео, которые программа создает с помощью одних только текстовых команд.
Успех ChatGPT также дает искусственному интеллекту компании возможности глубокого понимания языка. Клипы, иллюстрирующие способности Соры, так ярко показывают движения и нюансы персонажа, словно в игровом фильме.
«Сюрреалистическое» видео, созданное Сорой из текстовых команд
Однако Sora пока недоступен на рынке по соображениям безопасности. OpenAI примет тщательные меры, прежде чем выводить этот продукт на рынок, особенно в контексте использования искусственного интеллекта преступниками в вредоносных целях, выдавая себя за пользователей или совершая противозаконные действия.
Люмьер (Google)
Lumiere — это продукт от Google, также способный создавать видео из входных текстовых команд, работающий на основе структурированной модели диффузии STUNet (Space-Time-U-Net). Lumiere не возится со сшиванием неподвижных кадров, вместо этого этот ИИ определяет детали в видео (пространственная часть), отслеживает, как они движутся, изменяются одновременно (временная часть), тем самым помогая процессу проходить гладко.
Как и Сора, Люмьер не был представлен публике. Компания представила эту модель только в конце января 2024 года после запуска Gemini — большой языковой модели, которая недавно была синхронизирована с Bard.
ВидеоПоэт (Google)
Эта большая языковая модель (LLM) обучается на основе огромного хранилища видео, изображений, аудио и текста, разработанного Google Search в 2023 году. VideoPoet может выполнять различные задачи с такими источниками входных данных, как текст, изображения, видео... для создания видео, выделения контента, преобразования видео в аудио, превращения неподвижных изображений в анимацию...
Первоначальная идея VideoPoet возникла из необходимости преобразовать любую модель авторегрессионного языка в систему генерации видео. Современные авторегрессионные языковые модели способны обрабатывать текст и программный код так же, как люди, но упираются в стену, когда дело доходит до видео. VideoPoet решает эту проблему, используя токенизацию для преобразования входных данных из любого формата в понятный ему язык.
Инструменты для создания видео из текста в основном проверяют свои возможности
Эму Видео (Мета)
Наряду с Google и OpenAI, Meta также является одним из крупнейших технологических гигантов, активно занимающихся инновациями в области искусственного интеллекта. Компания, которой принадлежит Facebook, также разработала искусственный интеллект для создания видео под названием Emu Video, который может преобразовывать изображения в текст, а затем использовать его в качестве данных для создания клипов.
Emu Video получает положительные отзывы от участников тестовой программы: 81% отдают предпочтение этому ИИ, а не Imagen Video (Google). Более 90% выбрали модель Meta вместо PYOCO (Nvidia), что даже лучше, чем Make-A-Video от Meta (выбрали 96%).
CogVideo (Университет Цинхуа, Китай)
В отличие от вышеперечисленных моделей, которые являются продуктами ведущих мировых технологических компаний, CogVideo — это искусственный интеллект, разработанный исследовательской группой из Университета Цинхуа — ведущего престижного учебного заведения как в Китае, так и в Азии. Программа основана на CogView2 — предварительно обученной модели преобразования текста в изображение.
Эксперт по компьютерному искусству Гленн Маршалл, который тестировал CogVideo, сказал, что «режиссеры могут потерять работу». Клип под названием «Ворон» , созданный им с помощью CogVideo, получил высокие отзывы и был номинирован на премию Британской академии кино (BAFTA).
Ссылка на источник
Комментарий (0)