새로운 연구에 따르면 인간은 다른 사람에게 피드백을 제공하듯이 로봇의 행동을 실시간으로 조정할 수 있게 됐습니다.
로봇이 설거지를 돕는다고 상상해보세요. 싱크대에서 비누 한 그릇을 가져오라고 했지만, 그 집게가 정확히 어디에 닿아야 할지 파악하지 못했습니다.
MIT와 NVIDIA의 연구자들이 개발한 새로운 프레임워크를 사용하면 간단한 제스처로 로봇의 행동을 조정할 수 있습니다. 그릇을 가리키거나 화면에 경로를 그리거나 간단히 로봇의 팔을 올바른 방향으로 밀어낼 수 있습니다.
다른 로봇 행동 수정 방법과 달리, 이 기술은 사용자가 새로운 데이터를 수집하고 로봇을 제어하는 머신 러닝 모델을 다시 훈련시킬 필요가 없습니다. 그 대신 로봇은 사용자의 의도에 가장 잘 맞는 동작 시퀀스를 선택하기 위해 실시간으로 시각적인 인간의 피드백을 활용할 수 있습니다.
연구자들이 이 프레임워크를 테스트한 결과, 인간의 개입을 활용하지 않는 대체 접근 방식보다 성공률이 21% 더 높았습니다.
미래에는 이 프레임워크를 사용하면 로봇이 이전에 집안 환경이나 사물을 본 적이 없더라도 사용자가 공장에서 훈련된 로봇에게 다양한 집안일을 수행하도록 지시하는 것이 쉬워질 수 있습니다.
"일반 사용자가 직접 데이터를 수집하고 신경망 모델을 미세 조정할 수 있을 것으로 기대할 수는 없습니다. 그들은 로봇이 상자에서 꺼내자마자 바로 작동할 것으로 기대하며, 문제가 발생하면 이를 조정할 수 있는 직관적인 메커니즘이 필요합니다. MIT 전기공학 및 컴퓨터 과학부(EECS) 대학원생이자 본 연구의 주저자인 펠릭스 얀웨이 왕은 "이것이 바로 우리가 이 연구에서 다룬 과제입니다."라고 말했습니다.
편차를 최소화하다
최근 연구자들은 사전 훈련된 생성 AI 모델을 사용하여 로봇이 작업을 완료하기 위해 따르는 일련의 규칙인 "정책"을 학습했습니다. 이러한 모델은 많은 복잡한 작업을 해결할 수 있습니다.
훈련하는 동안 모델은 유효한 로봇의 움직임에만 노출되므로 적절한 움직임 궤적을 생성하는 법을 배웁니다.
하지만 이는 로봇의 모든 행동이 실제로 사용자의 희망과 일치한다는 것을 의미하지는 않습니다. 예를 들어, 로봇은 선반에 있는 상자를 넘어뜨리지 않고 집어 올리도록 훈련받을 수 있지만, 훈련 중에 본 것과 책장의 구성이 다르면 누군가의 책장에 있는 상자에 닿지 못할 수도 있습니다.
이러한 오류를 해결하기 위해 엔지니어는 종종 새로운 작업에 대한 추가 데이터를 수집하고 모델을 다시 학습시키는데, 이는 머신 러닝 전문 지식이 필요한 비용과 시간이 많이 소요되는 과정입니다.
그 대신 MIT 팀은 로봇이 실수를 하면 사용자가 곧바로 로봇의 행동을 조정할 수 있도록 하려고 합니다.
그러나 인간이 로봇의 의사결정 과정에 개입한다면 생성 모델이 실수로 잘못된 행동을 선택하게 될 수도 있습니다. 로봇은 사용자가 원하는 상자를 가져올 수 있지만, 그 과정에서 선반에 있는 책을 넘어뜨릴 수도 있습니다.
펠릭스 얀웨이 왕은 "우리는 사용자가 이러한 오류 없이 로봇과 상호 작용하여 사용자의 의도에 더 잘 맞는 행동을 달성하면서도 유효성과 실행 가능성을 보장하고 싶습니다."라고 말했습니다.
의사결정능력 강화
이러한 상호작용으로 인해 로봇이 잘못된 작업을 수행하지 않도록 하기 위해 연구팀은 특별한 샘플링 절차를 사용합니다. 이 기술은 모델이 사용자의 목표에 가장 잘 맞는 유효한 선택지 중에서 동작을 선택하는 데 도움이 됩니다.
펠릭스 얀웨이 왕은 "사용자의 의도를 강요하는 대신, 로봇이 사용자의 의도를 이해하도록 돕고, 샘플링 프로세스는 로봇이 학습한 행동에 따라 변동하도록 했습니다."라고 말했습니다.
이런 접근 방식 덕분에 그들의 연구 프레임워크는 모델 주방에서 실제 로봇 팔을 사용한 테스트뿐 아니라 시뮬레이션 실험에서도 다른 방법보다 우수한 성과를 보였습니다.
이 방법으로 항상 작업이 즉시 완료되는 것은 아니지만, 사용자에게는 큰 장점이 있습니다. 사용자는 로봇이 작업을 완료한 후 새로운 지침을 제공하는 것을 기다릴 필요 없이, 오류를 감지하자마자 로봇을 수정할 수 있습니다.
또한, 사용자가 로봇을 가볍게 몇 번 밀어 올바른 그릇을 집도록 하면 로봇은 그 교정 내용을 기억하고 향후 학습에 활용할 수 있습니다. 덕분에 로봇은 다음 날 다시 지시를 받지 않고도 올바른 그릇을 집어 올릴 수 있습니다.
"그러나 이러한 지속적인 개선의 핵심은 사용자가 로봇과 상호작용할 수 있는 메커니즘을 갖는 것이고, 이것이 바로 이 연구에서 우리가 보여준 것입니다."라고 펠릭스 얀웨이 왕은 말했습니다.
앞으로 연구팀은 성능을 유지하거나 개선하는 동시에 샘플링 프로세스 속도를 높이고자 합니다. 또한 그들은 로봇의 적응성을 평가하기 위해 새로운 환경에서 해당 방법을 테스트하고자 합니다.
(출처: MIT 뉴스)
[광고2]
출처: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html
댓글 (0)