De nouvelles recherches permettent aux humains d’ajuster les actions d’un robot en temps réel, de la même manière qu’ils donneraient un retour d’information à une autre personne.
Imaginez un robot qui vous aide à faire la vaisselle. Vous lui demandez d'aller chercher un bol de savon dans l'évier, mais sa pince ne saisit pas exactement là où elle doit aller.
Grâce à un nouveau framework développé par des chercheurs du MIT et de NVIDIA, vous pouvez modifier le comportement d'un robot avec des gestes simples. Vous pouvez pointer le bol ou dessiner un chemin sur l'écran, ou simplement pousser le bras du robot dans la bonne direction.
Contrairement à d’autres méthodes de modification du comportement des robots, cette technique ne nécessite pas que l’utilisateur collecte de nouvelles données et recycle le modèle d’apprentissage automatique contrôlant le robot. Au lieu de cela, il permet au robot d'utiliser un retour humain visuel en temps réel pour choisir la séquence d'action qui correspond le mieux à l'intention de l'utilisateur.
Lorsque les chercheurs ont testé ce cadre, son taux de réussite était 21 % supérieur à celui d’une approche alternative qui n’utilisait pas d’intervention humaine.
À l’avenir, ce cadre pourrait permettre à un utilisateur d’ordonner facilement à un robot formé en usine d’effectuer diverses tâches ménagères, même si le robot n’a jamais vu l’environnement ou les objets de cette maison auparavant.
« Nous ne pouvons pas nous attendre à ce que les utilisateurs ordinaires collectent eux-mêmes des données et peaufinent un modèle de réseau neuronal. Ils s’attendent à ce que le robot fonctionne dès sa sortie de la boîte et, si quelque chose ne va pas, ils ont besoin d’un mécanisme intuitif pour l’ajuster. « C’est le défi que nous avons relevé dans cette étude », a déclaré Felix Yanwei Wang, étudiant diplômé du Département de génie électrique et d’informatique (EECS) du MIT et auteur principal de l’étude.
Minimiser les écarts
Récemment, des chercheurs ont utilisé un modèle d’IA générative pré-entraîné pour apprendre une « politique » – un ensemble de règles qu’un robot suit pour accomplir une tâche. Ces modèles peuvent résoudre de nombreuses tâches complexes.
Pendant la formation, le modèle est exposé uniquement à des mouvements de robot valides, il apprend donc à générer des trajectoires de mouvement appropriées.
Cependant, cela ne signifie pas que chaque action du robot correspond en réalité aux souhaits de l’utilisateur. Par exemple, un robot pourrait être entraîné à ramasser des boîtes sur une étagère sans les renverser, mais pourrait ne pas parvenir à atteindre une boîte sur l'étagère de quelqu'un si la disposition de l'étagère est différente de ce qu'il a vu pendant l'entraînement.
Pour corriger de telles erreurs, les ingénieurs collectent souvent des données supplémentaires sur de nouvelles tâches et recyclent le modèle, un processus coûteux et long qui nécessite une expertise en apprentissage automatique.
Au lieu de cela, l'équipe du MIT souhaite permettre aux utilisateurs d'ajuster le comportement du robot dès qu'il commet une erreur.
Cependant, si un humain intervient dans le processus de prise de décision du robot, il peut accidentellement amener le modèle génératif à choisir une action non valide. Le robot peut récupérer la boîte que l'utilisateur souhaite, mais il peut renverser des livres sur l'étagère au cours du processus.
« Nous voulons que les utilisateurs interagissent avec le robot sans commettre de telles erreurs, obtenant ainsi un comportement qui correspond mieux aux intentions de l'utilisateur, tout en garantissant la validité et la faisabilité », a déclaré Felix Yanwei Wang.
Améliorer la capacité de prise de décision
Pour garantir que ces interactions n’entraînent pas d’actions non valides du robot, l’équipe utilise une procédure d’échantillonnage spéciale. Cette technique aide le modèle à choisir l’action parmi un ensemble de choix valides qui correspond le mieux à l’objectif de l’utilisateur.
« Au lieu d'imposer les intentions de l'utilisateur, nous aidons le robot à comprendre ses intentions, tout en laissant le processus d'échantillonnage fluctuer autour des comportements qu'il a appris », a déclaré Felix Yanwei Wang.
Grâce à cette approche, leur cadre de recherche a surpassé d’autres méthodes dans des expériences de simulation ainsi que dans des tests avec un véritable bras robotique dans une cuisine modèle.
Bien que cette méthode ne termine pas toujours la tâche immédiatement, elle présente un gros avantage pour l'utilisateur : il peut corriger le robot dès qu'il détecte une erreur, au lieu d'attendre que le robot termine la tâche et de donner ensuite de nouvelles instructions.
De plus, après que l’utilisateur ait doucement poussé le robot à plusieurs reprises pour le guider vers le bon bol, le robot peut mémoriser cette correction et l’intégrer dans l’apprentissage futur. Grâce à cela, le lendemain, le robot peut récupérer le bon bol sans avoir à recevoir de nouvelles instructions.
« Mais la clé de cette amélioration continue est d’avoir un mécanisme permettant aux utilisateurs d’interagir avec le robot, et c’est exactement ce que nous avons démontré dans cette étude », a déclaré Felix Yanwei Wang.
À l’avenir, l’équipe souhaite augmenter la vitesse du processus d’échantillonnage tout en maintenant ou en améliorant les performances. Ils souhaitent également tester la méthode dans de nouveaux environnements pour évaluer l'adaptabilité du robot.
(Source : MIT News)
Source : https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html
Comment (0)