Изображение астронавта верхом на лошади представляет собой комбинацию двух типов генеративных моделей ИИ. Фото: Новости Массачусетского технологического института
Когда скорость и качество больше не являются компромиссами
В области визуализации с помощью ИИ в настоящее время существует два основных подхода:
Модели диффузии позволяют получать четкие и подробные изображения. Однако они очень медленные и требуют больших вычислительных затрат, поскольку для удаления шума из каждого пикселя требуются десятки этапов обработки.
С другой стороны, авторегрессионные модели работают гораздо быстрее, поскольку они могут последовательно предсказывать небольшие части изображения. Однако они часто создают изображения с плохой детализацией и подвержены ошибкам.
HART (гибридный авторегрессионный преобразователь) объединяет оба подхода, предоставляя «лучшее из обоих миров». Во-первых, он использует модель авторегрессии для построения общего изображения путем его кодирования в дискретные токены. Затем облегченная модель диффузии переходит к добавлению остаточных токенов — подробной информации, потерянной во время кодирования.
Получаемые изображения сопоставимы по качеству (или превосходят) изображения, получаемые с помощью современных моделей диффузии, но обрабатываются в 9 раз быстрее и требуют на 31% меньше вычислительных ресурсов.
Новый подход к созданию качественных изображений на высокой скорости
Одним из примечательных нововведений HART является решение проблемы потери информации при использовании авторегрессионных моделей. Преобразование изображений в дискретные токены ускоряет процесс, но при этом теряются важные детали, такие как края объектов, черты лица, волосы, глаза, рты и т. д.
Решение HART заключается в том, чтобы позволить модели диффузии сосредоточиться только на «исправлении» этих деталей с помощью остаточных токенов. А поскольку авторегрессионная модель выполнила большую часть работы, диффузионной модели требуется всего 8 этапов обработки вместо более чем 30 шагов, как раньше.
«Модель диффузии проще в реализации, что приводит к более высокой эффективности», — объясняет соавтор Хаотянь Тан.
В частности, сочетание модели авторегрессионного трансформатора с 700 миллионами параметров и облегченной диффузионной модели с 37 миллионами параметров обеспечивает HART ту же производительность, что и диффузионная модель с 2 миллиардами параметров, но в девять раз быстрее.
Первоначально группа также пыталась интегрировать модель диффузии на ранних этапах визуализации, но это привело к накоплению ошибок. Наиболее эффективный подход — позволить модели диффузии справиться с последним шагом и сосредоточиться только на «отсутствующей» части изображения.
Открывая будущее мультимедийного ИИ
Следующим направлением работы исследовательской группы является создание визуально-лингвистических моделей ИИ нового поколения на основе архитектуры HART. Поскольку протокол HART масштабируется и адаптируется ко многим типам данных (мультимодальным), они рассчитывают, что смогут применять его для генерации видео, прогнозирования звука и многих других областей.
Это исследование финансировалось несколькими организациями, включая лабораторию искусственного интеллекта MIT-IBM Watson, научный центр MIT-Amazon, программу MIT AI Hardware Program и Национальный научный фонд США. NVIDIA также предоставила инфраструктуру графического процессора для обучения модели.
(По данным новостей Массачусетского технологического института)
Источник: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Комментарий (0)