По словам команды разработчиков ByteDance, мультимодальная модель под названием OmniHuman-1 может создавать захватывающие видеоролики с говорящими, поющими и движущимися персонажами с качеством, «превосходящим текущие методы генерации видео».

Технология искусственного интеллекта, создающая изображения, видео и звуки, которые напоминают реальных людей, также известна как «дипфейк» — технология, которая все чаще используется в мошенничестве, а также в сфере развлечений.

ByteDance — одна из самых перспективных компаний в сфере искусственного интеллекта в Китае. Приложение Doubao компании пользуется наибольшей популярностью среди пользователей материкового Китая.

Хотя OmniHuman-1 еще не был представлен публике, видеоролики с его примерами быстро стали вирусными.

Одним из ярких примеров является 23-секундное видео, на котором Альберт Эйнштейн выступает с речью. TechCrunch описывает продукты приложения как «шокирующе потрясающие» и «самые реалистичные deepfake-видео на сегодняшний день».

По словам разработчика, для создания видео любой длины OmniHuman-1 требуется только одно изображение в качестве справочных данных, а также аудиоданные, такие как речь или вокал.

Частоту кадров выходного видео можно регулировать, как и «пропорции тела» персонажа в нем.

d6a434e5a4dc974582b09c05b3646092afcf9490.jpeg
ByteDance — одна из крупнейших компаний в области искусственного интеллекта в Китае. Фото: TechCrunch

Мало того, модель ИИ, обученная на 19 000 часах видеоконтента из закрытых источников, также способна редактировать существующие видео, даже изменять жесты человеческих рук и ног с убедительным уровнем.

Однако ByteDance также признал, что OmniHuman-1 не идеален, поскольку у него все еще возникают трудности с некоторыми позами, и что «некачественные референсные изображения» не позволят создать качественные видео.

Новая модель искусственного интеллекта ByteDance демонстрирует прогресс Китая, несмотря на попытки Вашингтона ограничить экспорт технологий.

Обеспокоенность

В прошлом году политические дипфейки стали вирусными. В Молдове появились фейковые видеоролики, имитирующие речь президента страны Майи Санду об отставке.

А в Южной Африке в преддверии выборов в стране вирусным стал дипфейк с изображением рэпера Эминема, поддерживающего южноафриканскую оппозиционную партию.

Дипфейки также все чаще используются для совершения финансовых преступлений. Потребители обманываются с помощью поддельных знаменитостей, рекомендующих инвестиции и предлагающих фальшивые инвестиционные возможности, в то время как компании также теряют миллионы долларов из-за мошенников, выдающих себя за руководителей высшего звена.

По данным Deloitte, в 2023 году потери от мошенничества из-за контента, созданного с помощью искусственного интеллекта, составили более 12 миллиардов долларов, а к 2027 году в США эта сумма может достичь 40 миллиардов долларов.

В феврале прошлого года сотни людей из сообщества ИИ подписали письмо, призывающее к строгому регулированию дипфейков. В связи с отсутствием в США федеральной уголовной ответственности за дипфейк более 10 штатов приняли законы против подделки ИИ.

Однако обнаружить дипфейки непросто. Хотя некоторые социальные сети и поисковые системы приняли меры по ограничению их распространения, количество контента с дипфейками в сети по-прежнему растет с пугающей скоростью.

В опросе, проведенном в мае 2024 года компанией Jumio, занимающейся проверкой личности, 60% респондентов заявили, что сталкивались с дипфейком в течение последнего года; 72% респондентов заявили, что обеспокоены тем, что их ежедневно обманывают дипфейки, в то время как большинство поддержало принятие законов, направленных на борьбу с распространением фейковых видеороликов, созданных с помощью искусственного интеллекта.

Google «дала добро» на использование ИИ для разработки оружия и технологий наблюдения Google отказалась от своего «обещания» не разрабатывать и не внедрять инструменты ИИ для использования в оружии и технологиях наблюдения.