Una nueva investigación permite a los humanos ajustar las acciones de un robot en tiempo real, de forma similar a como le darían retroalimentación a otra persona.
Imagina un robot que te ayuda a lavar los platos. Le pides que saque un recipiente con jabón del lavabo, pero sus pinzas no agarran exactamente donde necesita.
Con un nuevo marco desarrollado por investigadores del MIT y NVIDIA, es posible modificar el comportamiento de un robot con gestos simples. Puedes señalar el recipiente o dibujar un camino en la pantalla, o simplemente empujar el brazo del robot en la dirección correcta.
A diferencia de otros métodos de modificación del comportamiento del robot, esta técnica no requiere que el usuario recopile nuevos datos y vuelva a entrenar el modelo de aprendizaje automático que controla el robot. En cambio, permite que el robot utilice retroalimentación humana visual en tiempo real para elegir la secuencia de acciones que mejor se adapte a la intención del usuario.
Cuando los investigadores probaron este marco, su tasa de éxito fue un 21% mayor que la de un enfoque alternativo que no utilizó intervención humana.
En el futuro, este marco podría permitir que un usuario pueda instruir fácilmente a un robot entrenado en fábrica para realizar diversas tareas domésticas, incluso si el robot nunca ha visto antes el entorno ni los objetos de esa casa.
“No podemos esperar que los usuarios comunes recopilen datos y ajusten por sí mismos un modelo de red neuronal. Esperarán que el robot funcione desde el primer momento y, si algo sale mal, necesitarán un mecanismo intuitivo para ajustarlo. “Éste es el desafío que abordamos en este estudio”, dijo Felix Yanwei Wang, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT y autor principal del estudio.
Minimizar la desviación
Recientemente, los investigadores utilizaron un modelo de IA generativa previamente entrenado para aprender una “política”, un conjunto de reglas que sigue un robot para completar una tarea. Estos modelos pueden resolver muchas tareas complejas.
Durante el entrenamiento, el modelo se expone únicamente a movimientos válidos del robot, por lo que aprende a generar trayectorias de movimiento adecuadas.
Sin embargo, esto no significa que cada acción del robot coincida en la realidad con los deseos del usuario. Por ejemplo, un robot podría estar entrenado para recoger cajas de un estante sin tirarlas, pero podría no alcanzar una caja en el estante de alguien si la disposición del estante es diferente de lo que vio durante el entrenamiento.
Para corregir estos errores, los ingenieros a menudo recopilan datos adicionales sobre nuevas tareas y vuelven a entrenar el modelo, un proceso costoso y que consume mucho tiempo y que requiere experiencia en aprendizaje automático.
En cambio, el equipo del MIT quiere permitir a los usuarios ajustar el comportamiento del robot tan pronto como cometa un error.
Sin embargo, si un humano interviene en el proceso de toma de decisiones del robot, puede provocar accidentalmente que el modelo generativo elija una acción no válida. El robot puede conseguir la caja que quiere el usuario, pero puede tirar libros del estante en el proceso.
“Queremos que los usuarios interactúen con el robot sin cometer tales errores, logrando así un comportamiento que se ajuste mejor a las intenciones del usuario, al tiempo que garantizamos la validez y la viabilidad”, dijo Felix Yanwei Wang.
Mejorar la capacidad de toma de decisiones
Para garantizar que estas interacciones no hagan que el robot realice acciones no válidas, el equipo utiliza un procedimiento de muestreo especial. Esta técnica ayuda al modelo a elegir la acción de un conjunto de opciones válidas que mejor se adapte al objetivo del usuario.
“En lugar de imponer las intenciones del usuario, ayudamos al robot a comprender sus intenciones, mientras permitimos que el proceso de muestreo fluctúe en torno a los comportamientos que ha aprendido”, dijo Felix Yanwei Wang.
Gracias a este enfoque, su marco de investigación superó otros métodos en experimentos de simulación, así como en pruebas con un brazo robótico real en una cocina modelo.
Si bien este método no siempre completa la tarea de inmediato, tiene una gran ventaja para el usuario: puede corregir el robot tan pronto como detecta un error, en lugar de esperar a que el robot complete la tarea y luego darle nuevas instrucciones.
Además, después de que el usuario empuja suavemente al robot unas cuantas veces para guiarlo y que tome el recipiente correcto, el robot puede recordar esa corrección e incorporarla al aprendizaje futuro. Gracias a ello, al día siguiente el robot podrá coger el recipiente correcto sin necesidad de volver a darle instrucciones.
"Pero la clave de esta mejora continua es tener un mecanismo para que los usuarios interactúen con el robot, y eso es exactamente lo que demostramos en este estudio", dijo Felix Yanwei Wang.
En el futuro, el equipo quiere aumentar la velocidad del proceso de muestreo manteniendo o mejorando el rendimiento. También quieren probar el método en nuevos entornos para evaluar la adaptabilidad del robot.
(Fuente: MIT News)
[anuncio_2]
Fuente: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html
Kommentar (0)