Агент ИИ и революция «Интернета дронов»

Агенты ИИ считаются следующим прорывом в области ИИ, обещающим полностью изменить способ взаимодействия людей с Интернетом.

В последние дни китайский искусственный интеллект Манус вызвал переполох в мировом технологическом сообществе. По словам разработчика, инструмент может выполнять сложные задачи, такие как сканирование профилей кандидатов, планирование маршрутов поездок и анализ акций, если пользователи дают ему базовые инструкции.

До того, как Manus запустил AI Agent, американский гигант в области искусственного интеллекта OpenAI представил Operator пользователям ChatGPT Pro в США. По данным OpenAI, этот ИИ-агент может выполнять простые задачи от имени своего владельца в браузере, например, бронировать билеты на концерты или размещать онлайн-заказы.

Оператор основан на новой модели под названием Computer-Using Agent (CUA), созданной на основе большой мультимодальной языковой модели GPT-4o. Исследователь OpenAI Яш Кумар признает, что проект все еще находится на ранней стадии развития и имеет недостатки.

Подобно другим агентам ИИ, Оператор делает снимки экрана компьютера, сканируя пиксели, чтобы определить, какие действия следует предпринять. Модель CUA, лежащая в основе этого, обучена взаимодействовать с графическими интерфейсами, такими как кнопки, меню, текстовые диалоги, которые знакомы людям.

По словам Рейитиро Накано, другого ученого OpenAI, традиционные модели используют программное обеспечение через специализированные API (интерфейсы прикладного программирования), что приводит ко многим ограничениям.

CUA также разбивает работу на более мелкие этапы и старается выполнять их по одному за раз, а также возвращается к началу, если что-то идет не так. В настоящее время Operator может выполнять некоторые действия только в своем собственном браузере.

В будущем OpenAI планирует расширить возможности CUA с помощью API (интерфейса прикладного программирования), который позволит разработчикам писать собственные приложения на его основе.

OpenAI также проверила безопасность CUA, используя Red Team для определения того, что произойдет, если пользователь попросит AI-агента выполнить неприемлемые задачи (например, производство биологического оружия).

Журналист New York Times Кевин Руз попросил Operator выполнить для него ряд задач, включая заказ шариков мороженого через Amazon, покупку нового доменного имени и его перенастройку, бронирование столика в ресторане на 14 февраля и запись на стрижку.

Автор отметил, что ИИ-агент выполнял большую часть работы самостоятельно, но иногда ему приходилось «спасать» его после некоторых неудачных попыток.

Руз описывает Operator как нечто похожее на обычный ChatGPT, за исключением того, что при получении задания ИИ-агент открывает мини-окно браузера, вводит Amazon.com в адресную строку и начинает нажимать кнопки, чтобы выполнить действие.

В ходе процесса он задаст несколько вопросов, чтобы прояснить намерения владельца, например, время доставки... Убедившись, что сделан правильный выбор, он отправит окончательное подтверждение, поместит товар в корзину и приступит к оформлению заказа.

Самым важным моментом здесь является то, что пользователю не нужно следить за ним, так как он работает в фоновом режиме.

Однако Оператор также провалил некоторые другие миссии, поскольку был заблокирован на некоторых сайтах, таких как Reddit, YouTube, или не прошел тест CAPTCHA.

В настоящее время не существует «стандартного» определения AI Agent, но, по словам Рудины Сесери, основателя и менеджера венчурной компании Glasswing, AI Agent — это интеллектуальная программная система, предназначенная для понимания операционной среды, рассуждений, принятия решений и действий для автоматического достижения целей.

Для этого AI Agent использует множество методов AI/ML, таких как обработка естественного языка, машинное обучение, компьютерное зрение.

Аарон Леви, основатель и генеральный директор Box, отмечает, что со временем, по мере того как возможности ИИ будут расти, ИИ-агенты смогут выполнять больше работы для людей.

Джаред Спатаро, директор по маркетингу AI at Work в Microsoft, рассматривает AI Agents как «новые приложения в мире, управляемом ИИ». Они добавляют новые функции, направленные на решение «самых острых проблем» каждого сотрудника на рабочем месте и достижение реальных бизнес-результатов.

AI Agent расширяет возможности генеративного ИИ, не только помогая людям, но и работая с ними или от их имени. По данным IBM, агенты ИИ действуют на основе полученной информации.

Поскольку у него нет всеобъемлющей базы знаний для решения каждой задачи, он будет использовать доступные инструменты, включая внешние наборы данных, веб-поиск, API или даже других агентов ИИ.

Собрав недостающую информацию, агент обновляет свои знания. Это означает, что на каждом этапе план действий будет пересматриваться и корректироваться.

Пока еще слишком рано судить, представляют ли агенты ИИ опасность для людей. Однако нетрудно представить себе недалекое будущее, в котором большая часть Интернета будет заполнена роботами, общающимися друг с другом, совершающими покупки или отправляющими электронные письма от имени своих владельцев.

«Интернет без дронов» постепенно становится реальностью, поэтому «кликайте, пока можете», — заключает обозреватель New York Times Руз.

Источник: https://vietnamnet.vn/ai-agent-va-cuoc-cach-mang-internet-khong-nguoi-lai-2379590.html