En los últimos días, el agente de inteligencia artificial chino Manus ha causado revuelo en la comunidad tecnológica mundial. Según el desarrollador, la herramienta puede realizar tareas complejas como escanear perfiles de candidatos, planificar itinerarios de viaje y analizar acciones cuando los usuarios le dan instrucciones básicas.

Antes de que Manus lanzara AI Agent, un gigante estadounidense de IA, OpenAI, presentó Operator a los usuarios de ChatGPT Pro en los EE. UU. Según OpenAI, este agente de IA puede realizar tareas sencillas en nombre de su propietario en un navegador, como reservar entradas para conciertos o realizar un pedido en línea.

El operador se basa en un nuevo modelo llamado Agente Utilizador de Computadoras - CUA, construido sobre el modelo de lenguaje multimodal grande GPT-4o. El investigador de OpenAI, Yash Kumar, admite que todavía está en sus primeras etapas y tiene fallas.

Al igual que otros agentes de IA, el operador toma capturas de pantalla de la pantalla de la computadora, escaneando los píxeles para determinar qué acciones tomar. CUA, el modelo detrás de esto, está entrenado para interactuar con interfaces gráficas como botones, menús y diálogos de texto que son familiares para los humanos.

Según Reiichiro Nakano, otro científico de OpenAI, los modelos tradicionales utilizan software a través de API (interfaces de programación de aplicaciones) especializadas, lo que genera muchas limitaciones.

CUA también divide el trabajo en pasos más pequeños y trata de hacerlos uno a la vez, además de volver al principio si algo sale mal. Actualmente, el Operador solo puede hacer algunas cosas en su propio navegador.

OpenAI planea ampliar las capacidades de CUA en el futuro a través de una API (interfaz de programación de aplicaciones) que permite a los desarrolladores escribir sus propias aplicaciones basadas en ella.

OpenAI también probó la seguridad de CUA, utilizando un Equipo Rojo para determinar qué sucedería si un usuario le pidiera al Agente de IA que realizara tareas inaceptables (como producir armas biológicas).

El periodista del New York Times Kevin Roose le pidió a Operator que hiciera una serie de cosas por él, entre ellas pedir helados a través de Amazon, comprar un nuevo nombre de dominio y reconfigurarlo, reservar un restaurante para el 14 de febrero y programar un corte de pelo.

El escritor comentó que el Agente de IA hizo la mayor parte del trabajo por sí solo, pero ocasionalmente tuvo que “rescatarlo” después de algunos intentos fallidos.

Roose describe al Operador como similar al ChatGPT normal, excepto que cuando se le asigna una tarea, el agente de IA abrirá una mini ventana del navegador, escribirá Amazon.com en la barra de direcciones y comenzará a hacer clic para realizar una acción.

Durante el proceso, realizará algunas preguntas para aclarar las intenciones del propietario como el tiempo de entrega... Después de asegurarse de que se ha realizado la elección correcta, envía una confirmación final, coloca el artículo en el carrito y procede a realizar el pedido.

El punto más importante aquí es que el usuario no tiene que supervisarlo ya que funciona en segundo plano.

Sin embargo, el Operador también falló en algunas otras misiones porque fue bloqueado en algunos sitios web como Reddit, YouTube o no pasó la prueba CAPTCHA.

Actualmente, no existe una definición “estándar” de Agente de IA, pero según Rudina Seseri, fundadora y gerente de la firma de capital de riesgo Glasswing, Agente de IA es un sistema de software inteligente, diseñado para comprender el entorno operativo, razonar, tomar decisiones y actuar para lograr objetivos automáticamente.

AI Agent utiliza muchas técnicas de IA/ML para lograrlo, como procesamiento del lenguaje natural, aprendizaje automático y visión artificial.

Aaron Levie, fundador y director ejecutivo de Box, señala que con el tiempo, a medida que la IA se vuelva más capaz, los agentes de IA podrán realizar más trabajo para los humanos.

Jared Spataro, director de marketing de IA en el trabajo en Microsoft, ve a los agentes de IA como “nuevas aplicaciones en un mundo impulsado por la IA”. Agregan nuevas funciones para abordar los “mayores problemas” de cada individuo en el lugar de trabajo para impulsar resultados comerciales reales.

AI Agent lleva el poder de la IA generativa al siguiente nivel, no solo ayudando a los humanos, sino también trabajando con ellos o en su nombre. Según IBM, los agentes de IA actúan sobre la información recibida.

Como no tiene una base de conocimientos completa para gestionar todas las tareas, utilizará las herramientas disponibles, incluidos conjuntos de datos externos, búsquedas web, API o incluso otros agentes de IA.

Después de recopilar la información que falta, el agente actualiza sus conocimientos. Esto significa que en cada paso, reevaluará el plan de acción y se ajustará.

Es demasiado pronto para juzgar si los agentes de IA representan un riesgo para los humanos. Sin embargo, no es difícil imaginar un futuro cercano en el que gran parte de la web estará llena de robots hablando entre sí, comprando o escribiendo correos electrónicos en nombre de sus dueños.

Una “Internet sin drones” se está convirtiendo poco a poco en una realidad, así que “haz clic mientras puedas”, concluye Roose, columnista del New York Times.