![]() |
Компания Google только что широко представила функцию генерации собственных изображений на основе языковой модели Gemini 2.0 Flash. Благодаря этой возможности модель может компоновать и редактировать существующие изображения на основе введенного текста. Фото: Google . |
![]() |
В отличие от других инструментов визуализации, которые сочетают диффузионное моделирование с моделированием большого языка (LLM), Gemini 2.0 Flash является многомодальным и способен обрабатывать входные и выходные данные в различных форматах (текст, аудио, изображения и т. д.). Теоретически этот метод улучшает качество фотографий, позволяет инструменту понимать контекст и продолжать редактирование в рамках одного диалога. Фото: Google . |
![]() |
Чтобы опробовать инструмент, пользователям и разработчикам необходимо зайти в Google AI Studio, переключиться на экспериментальную модель Gemini 2.0 Flash (Image Generation) . В разделе Формат вывода выберите Изображения и текст . Область взаимодействия с инструментами расположена в центре экрана. Ниже приведены некоторые основные функции Gemini 2.0 Flash. |
![]() |
Создавайте изображения и текст одновременно. По данным Google, Gemini 2.0 Flash поддерживает одновременное создание текста и изображений. Например, модель можно попросить рассказать историю и нарисовать иллюстрации. По моему опыту, скорость создания изображений и текста довольно высокая, в среднем 5-10 секунд на изображение (в зависимости от длины и сложности). |
![]() |
Редактируйте фотографии в том же разговоре . Благодаря контекстному пониманию Gemini 2.0 Flash поддерживает обратную связь и редактирование фотографий. Если вас не устраивает цвет, объект или какая-либо деталь на фотографии, просто введите команду, чтобы сменить инструмент, не затрагивая другие элементы. |
![]() |
Редактировать существующие фотографии . Аналогично, просто загрузите любую фотографию, чтобы инструмент отредактировал детали на фотографии, например, изменил цвета, добавил объекты или настроил фон. Пользователи могут постоянно оставлять отзывы до тех пор, пока инструмент не даст удовлетворительных результатов. |
![]() ![]() |
Разделить объект . Способность Gemini 2.0 Flash разделять объекты довольно хороша, но все еще есть слабость, связанная с человеческими руками. Инструмент понимает вьетнамские значения, позволяя разделять и заменять фоны в соответствии с различными темами. |
![]() ![]() |
Расширить/изменить сцену . В этом случае пользователь может попросить инструмент сжать существующее изображение, заполнив пробел новой сценой на основе описания. Поскольку инструмент все еще находится в стадии бета-тестирования, иногда он дает сбой или не создает нужное изображение. |
![]() |
Создать изображение с несколькими текстами . По данным Google, Gemini 2.0 Flash может создавать изображения с длинным текстом без ошибок и странных символов. Это один из многочисленных недостатков других моделей визуализации. Однако опыт показывает, что в некоторых местах вьетнамский язык по-прежнему трудно читать. Инструмент также не может переводить слова в тексте без конкретных предложений. |
![]() ![]() |
Добавьте людей на фото . Инструмент для добавления людей на существующие фотографии с правильным внешним видом, как описано. Поскольку это бесплатная бета-версия, каждая ветка обсуждения ограничена примерно 30 000 токенами. Однако пользователям не стоит беспокоиться, поскольку один вопрос/ответ стоит всего около 300–500 токенов, что не так уж и много, если речь идет только об редактировании и создании простых фотографий. |
![]() ![]() |
Измените угол съемки . Пользователи могут запросить изменение разных ракурсов одной и той же фотографии. Конечно, инструмент поддерживает корректировку различных деталей до тех пор, пока не будет создано удовлетворительное изображение. |
![]() |
Добыча знаний . По данным Google, Gemini 2.0 Flash обучен на большом объеме знаний и способности к рассуждению. Например, вы можете попросить инструмент придумать рецепт на основе имеющихся знаний, а затем нарисовать иллюстрацию, чтобы сделать его более понятным. Как и в случае с другими инструментами, Google отмечает, что Gemini 2.0 Flash предоставляет лишь общие сведения, не слишком глубокие и не абсолютно точные. |
![]() |
Спорные варианты использования . После широкого распространения Gemini 2.0 Flash многие обнаружили, что он может удалять водяные знаки с фотографий. Такая возможность не допускается инструментами искусственного интеллекта, такими как GPT-4o. Поскольку это все еще экспериментальная функция, Google, скорее всего, исправит ее в ближайшем будущем. Фото: @deedydas/X . |
Источник: https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html
Комментарий (0)