Agent IA et la révolution de l'« Internet des drones »

Les agents IA sont considérés comme la prochaine avancée en matière d’IA, promettant de changer complètement la façon dont les gens interagissent avec Internet.

Ces derniers jours, l'agent IA chinois Manus a fait sensation au sein de la communauté technologique mondiale. Selon le développeur, l'outil peut effectuer des tâches complexes comme analyser les profils des candidats, planifier des itinéraires de voyage et analyser les stocks lorsque les utilisateurs lui donnent des instructions de base.

Avant que Manus ne lance AI Agent, un géant américain de l'IA, OpenAI, a présenté Operator aux utilisateurs de ChatGPT Pro aux États-Unis. Selon OpenAI, cet agent IA peut effectuer des tâches simples pour le compte de son propriétaire dans un navigateur, comme réserver des billets de concert ou passer une commande en ligne.

L'opérateur est basé sur un nouveau modèle appelé Computer-Using Agent - CUA, construit sur le grand modèle de langage multimodal GPT-4o. Le chercheur d'OpenAI, Yash Kumar, admet que le projet en est encore à ses débuts et qu'il présente des défauts.

Semblable à d'autres agents d'IA, l'opérateur prend des captures d'écran de l'écran de l'ordinateur, scannant les pixels pour déterminer les actions à entreprendre. CUA, le modèle qui le sous-tend, est formé pour interagir avec des interfaces graphiques telles que des boutons, des menus et des boîtes de dialogue textuelles qui sont familières aux humains.

Selon Reiichiro Nakano, un autre scientifique d’OpenAI, les modèles traditionnels utilisent des logiciels via des API spécialisées (interfaces de programmation d’applications), ce qui entraîne de nombreuses limitations.

La CUA divise également le travail en étapes plus petites et essaie de les réaliser une par une, tout en revenant au début si quelque chose ne va pas. Actuellement, l'opérateur ne peut effectuer certaines opérations que dans son propre navigateur.

OpenAI prévoit d'étendre les capacités de CUA à l'avenir via une API (interface de programmation d'application) qui permet aux développeurs d'écrire leurs propres applications basées sur celle-ci.

OpenAI a également testé la sécurité du CUA, en utilisant une équipe rouge pour déterminer ce qui se passerait si un utilisateur demandait à l'agent IA d'effectuer des tâches inacceptables (comme la production d'armes biologiques).

Le journaliste du New York Times, Kevin Roose, a demandé à Operator de faire un certain nombre de choses pour lui, notamment commander des boules de glace via Amazon, acheter un nouveau nom de domaine et le reconfigurer, réserver un restaurant pour le 14 février et planifier une coupe de cheveux.

L'auteur a commenté que l'agent IA a fait la plupart du travail tout seul, mais qu'il a parfois dû le « sauver » après quelques tentatives infructueuses.

Roose décrit l'opérateur comme ressemblant à ChatGPT classique, sauf que lorsqu'une tâche lui est confiée, l'agent IA ouvre une mini fenêtre de navigateur, tape Amazon.com dans la barre d'adresse et commence à cliquer pour agir.

Durant le processus, il posera quelques questions pour clarifier les intentions du propriétaire telles que le délai de livraison... Après s'être assuré que le bon choix est fait, il envoie une confirmation finale, met l'article dans le panier et procède à la passation de la commande.

Le point le plus important ici est que l’utilisateur n’a pas besoin de le surveiller car il fonctionne en arrière-plan.

Cependant, l'opérateur a également échoué à d'autres missions car il a été bloqué sur certains sites Web comme Reddit, YouTube ou a échoué au test CAPTCHA.

Actuellement, il n’existe pas de définition « standard » d’agent IA, mais selon Rudina Seseri, fondatrice et directrice de la société de capital-risque Glasswing, l’agent IA est un système logiciel intelligent, conçu pour comprendre l’environnement opérationnel, raisonner, prendre des décisions et agir pour atteindre des objectifs automatiquement.

AI Agent utilise de nombreuses techniques d'IA/ML pour y parvenir, telles que le traitement du langage naturel, l'apprentissage automatique et la vision par ordinateur.

Aaron Levie, fondateur et PDG de Box, souligne qu'au fil du temps, à mesure que l'IA deviendra plus performante, les agents IA seront en mesure de faire plus de travail pour les humains.

Jared Spataro, directeur du marketing AI at Work chez Microsoft, considère les agents IA comme « de nouvelles applications dans un monde axé sur l'IA ». Ils ajoutent de nouvelles fonctionnalités pour répondre aux « plus gros problèmes » de chaque individu sur le lieu de travail afin de générer de réels résultats commerciaux.

AI Agent pousse la puissance de l'IA générative plus loin en assistant non seulement les humains, mais également en travaillant avec eux ou en leur nom. Selon IBM, les agents IA agissent sur la base des informations reçues.

Comme il ne dispose pas d'une base de connaissances complète pour gérer chaque tâche, il utilisera les outils disponibles, notamment des ensembles de données externes, des recherches Web, des API ou même d'autres agents d'IA.

Après avoir rassemblé les informations manquantes, l'agent met à jour ses connaissances. Cela signifie qu’à chaque étape, il réévaluera le plan d’action et s’ajustera.

Il est trop tôt pour juger si les agents IA présentent un risque pour les humains. Il n’est pourtant pas difficile d’imaginer un futur proche où une grande partie du Web sera remplie de robots qui communiqueront entre eux, feront des achats ou écriront des e-mails au nom de leurs propriétaires.

Un « Internet sans drones » devient peu à peu une réalité, alors « cliquez tant que vous le pouvez », conclut le chroniqueur du New York Times Roose.

Source : https://vietnamnet.vn/ai-agent-va-cuoc-cach-mang-internet-khong-nguoi-lai-2379590.html