写真19.jpg
Felix Yanwei Wang - MIT 電気工学およびコンピューターサイエンス (EECS) 博士課程学生。出典: MITニュース

ロボットが食器洗いを手伝ってくれるところを想像してみてください。シンクから石鹸の入ったボウルを取るようにロボットに指示しても、ロボットのグリッパーが必要な場所を正確につかむことができません。

MIT と NVIDIA の研究者が開発した新しいフレームワークを使用すると、簡単なジェスチャーでロボットの動作を微調整できます。ボウルを指さしたり、画面上にパスを描いたり、あるいは単にロボットのアームを正しい方向に動かしたりすることができます。

他のロボット動作修正方法とは異なり、この技術では、ユーザーが新しいデータを収集したり、ロボットを制御する機械学習モデルを再トレーニングしたりする必要がありません。代わりに、ロボットはリアルタイムの視覚的な人間からのフィードバックを使用して、ユーザーの意図に最も一致するアクション シーケンスを選択できるようになります。

研究者がこのフレームワークをテストしたところ、人間の介入を利用しない代替アプローチよりも成功率が 21% 高かった。

将来的には、このフレームワークにより、工場で訓練されたロボットが、その家の環境や物体をこれまで見たことがなくても、ユーザーがさまざまな家事を実行するように指示することが容易になる可能性があります。

「一般ユーザーが自らデータを収集し、ニューラルネットワークモデルを微調整することを期待することはできません。彼らはロボットが箱から出してすぐに動作することを期待しており、何か問題が発生した場合には、それを調整するための直感的なメカニズムを必要としています。 「これが、私たちがこの研究で取り組んだ課題です」と、MIT電気工学・コンピューターサイエンス学部(EECS)の大学院生で、この研究の主著者であるフェリックス・ヤンウェイ・ワン氏は述べた。

偏差を最小化する

最近、研究者たちは、事前にトレーニングされた生成 AI モデルを使用して、「ポリシー」、つまりロボットがタスクを完了するために従う一連のルールを学習しました。これらのモデルは多くの複雑なタスクを解決できます。

トレーニング中、モデルは有効なロボットの動きにのみさらされるため、適切な動きの軌跡を生成することを学習します。

しかし、これはロボットのあらゆる動作が現実にはユーザーの希望に一致することを意味するものではありません。たとえば、ロボットは棚の上の箱を倒さずに拾い上げるように訓練されているかもしれませんが、本棚のレイアウトが訓練中に見たものと異なる場合、本棚の上の箱に届かない可能性があります。

このようなエラーを修正するために、エンジニアは新しいタスクに関する追加データを収集し、モデルを再トレーニングすることがよくありますが、これは機械学習の専門知識を必要とする、コストと時間のかかるプロセスです。

代わりに、MIT チームは、ロボットがミスをしたらすぐにユーザーがロボットの動作を調整できるようにしたいと考えています。

しかし、人間がロボットの意思決定プロセスに介入すると、生成モデルが誤って無効なアクションを選択してしまう可能性があります。ロボットはユーザーが望む箱を手に入れることはできるが、その過程で棚の本を倒してしまう可能性がある。

「私たちは、ユーザーがそのような間違いをすることなくロボットと対話し、妥当性と実現可能性を確保しながら、ユーザーの意図により合った動作を実現できるようにしたいと考えています」とフェリックス・ヤンウェイ・ワンは語った。

意思決定能力を高める

これらのインタラクションによってロボットが無効なアクションを実行しないようにするために、チームは特別なサンプリング手順を使用します。この手法は、モデルが有効な選択肢のセットからユーザーの目標に最も一致するアクションを選択するのに役立ちます。

「ユーザーの意図を押し付けるのではなく、ロボットがユーザーの意図を理解できるように支援しながら、サンプリング プロセスを学習した動作を中心に変動させます」と Felix Yanwei Wang 氏は述べています。

このアプローチのおかげで、彼らの研究フレームワークは、シミュレーション実験だけでなく、模型キッチンでの実際のロボットアームを使ったテストでも他の方法よりも優れた結果を達成しました。

この方法では必ずしもタスクがすぐに完了するわけではありませんが、ユーザーにとって大きな利点があります。ロボットがタスクを完了するまで待ってから新しい指示を与えるのではなく、エラーを検出するとすぐにロボットを修正できるのです。

さらに、ユーザーがロボットを数回軽く押して正しいボウルを拾うように誘導すると、ロボットはその修正を記憶し、将来の学習に組み込むことができます。そのおかげで、翌日にはロボットは再度指示を受けることなく正しいボウルを拾うことができるようになります。

「しかし、この継続的な改善の鍵は、ユーザーがロボットと対話できるメカニズムを備えることであり、それがまさに今回の研究で実証されたことだ」とフェリックス・ヤンウェイ・ワン氏は述べた。

将来的には、チームはパフォーマンスを維持または向上させながら、サンプリング プロセスの速度を上げたいと考えています。彼らはまた、ロボットの適応性を評価するために、新しい環境でこの方法をテストしたいと考えています。

(出典:MITニュース)