Новый инструмент ИИ создает высококачественные фотографии в 9 раз быстрее

Ученые из Массачусетского технологического института и NVIDIA успешно разработали HART — инструмент, который создает высококачественные изображения с исключительно высокой скоростью, потребляя при этом так мало ресурсов, что его можно запускать прямо на ноутбуке или смартфоне.

VietNamNet•26/03/2025

картинка 1.jpg

Изображение астронавта верхом на лошади представляет собой комбинацию двух типов генеративных моделей ИИ. Фото: Новости Массачусетского технологического института

Когда скорость и качество больше не являются компромиссами

В области визуализации с помощью ИИ в настоящее время существует два основных подхода:

Модели диффузии позволяют получать четкие и подробные изображения. Однако они очень медленные и требуют больших вычислительных затрат, поскольку для удаления шума из каждого пикселя требуются десятки этапов обработки.

С другой стороны, авторегрессионные модели работают гораздо быстрее, поскольку они могут последовательно предсказывать небольшие части изображения. Однако они часто создают изображения с плохой детализацией и подвержены ошибкам.

HART (гибридный авторегрессионный преобразователь) объединяет оба подхода, предоставляя «лучшее из обоих миров». Во-первых, он использует модель авторегрессии для построения общего изображения путем его кодирования в дискретные токены. Затем облегченная модель диффузии переходит к добавлению остаточных токенов — подробной информации, потерянной во время кодирования.

Получаемые изображения сопоставимы по качеству (или превосходят) изображения, получаемые с помощью современных моделей диффузии, но обрабатываются в 9 раз быстрее и требуют на 31% меньше вычислительных ресурсов.

Новый подход к созданию качественных изображений на высокой скорости

Одним из примечательных нововведений HART является решение проблемы потери информации при использовании авторегрессионных моделей. Преобразование изображений в дискретные токены ускоряет процесс, но при этом теряются важные детали, такие как края объектов, черты лица, волосы, глаза, рты и т. д.

Решение HART заключается в том, чтобы позволить модели диффузии сосредоточиться только на «исправлении» этих деталей с помощью остаточных токенов. А поскольку авторегрессионная модель выполнила большую часть работы, диффузионной модели требуется всего 8 этапов обработки вместо более чем 30 шагов, как раньше.

«Модель диффузии проще в реализации, что приводит к более высокой эффективности», — объясняет соавтор Хаотянь Тан.

В частности, сочетание модели авторегрессионного трансформатора с 700 миллионами параметров и облегченной диффузионной модели с 37 миллионами параметров обеспечивает HART ту же производительность, что и диффузионная модель с 2 миллиардами параметров, но в девять раз быстрее.

Первоначально группа также пыталась интегрировать модель диффузии на ранних этапах визуализации, но это привело к накоплению ошибок. Наиболее эффективный подход — позволить модели диффузии справиться с последним шагом и сосредоточиться только на «отсутствующей» части изображения.

Открывая будущее мультимедийного ИИ

Следующим направлением работы исследовательской группы является создание визуально-лингвистических моделей ИИ нового поколения на основе архитектуры HART. Поскольку протокол HART масштабируется и адаптируется ко многим типам данных (мультимодальным), они рассчитывают, что смогут применять его для генерации видео, прогнозирования звука и многих других областей.

Это исследование финансировалось несколькими организациями, включая лабораторию искусственного интеллекта MIT-IBM Watson, научный центр MIT-Amazon, программу MIT AI Hardware Program и Национальный научный фонд США. NVIDIA также предоставила инфраструктуру графического процессора для обучения модели.

(По данным новостей Массачусетского технологического института)

Источник: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html