Новое исследование позволяет людям корректировать действия робота в режиме реального времени, подобно тому, как они дают обратную связь другому человеку.
Представьте себе робота, помогающего вам мыть посуду. Вы просите его достать миску с мылом из раковины, но его захват не захватывает именно то место, где нужно.
Благодаря новой платформе, разработанной исследователями из Массачусетского технологического института и NVIDIA, вы можете настраивать поведение робота с помощью простых жестов. Вы можете указать на миску, нарисовать путь на экране или просто подтолкнуть руку робота в нужном направлении.
В отличие от других методов модификации поведения робота, этот метод не требует от пользователя сбора новых данных и повторного обучения модели машинного обучения, управляющей роботом. Вместо этого он позволяет роботу использовать визуальную обратную связь от человека в режиме реального времени, чтобы выбрать последовательность действий, которая наилучшим образом соответствует намерениям пользователя.
Когда исследователи протестировали эту структуру, ее успешность оказалась на 21% выше, чем у альтернативного подхода, не предполагавшего вмешательства человека.
В будущем эта структура позволит пользователю легко давать указания обученному на заводе-изготовителе роботу выполнять различные домашние задачи, даже если робот никогда раньше не видел окружающую среду или предметы в этом доме.
«Мы не можем ожидать, что обычные пользователи будут самостоятельно собирать данные и настраивать модель нейронной сети. Они будут ожидать, что робот будет работать сразу после распаковки, а если что-то пойдет не так, им понадобится интуитивно понятный механизм для его настройки. «Именно эту задачу мы решили в данном исследовании», — сказал Феликс Яньвэй Ван, аспирант кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института и ведущий автор исследования.
Минимизировать отклонение
Недавно исследователи использовали предварительно обученную модель генеративного искусственного интеллекта для изучения «политики» — набора правил, которым следует робот для выполнения задачи. Эти модели способны решать множество сложных задач.
Во время обучения модель подвергается воздействию только допустимых движений робота, поэтому она учится генерировать соответствующие траектории движения.
Однако это не означает, что каждое действие робота в реальности соответствует желаниям пользователя. Например, робота можно обучить поднимать коробки на полке, не опрокидывая их, но он может не дотянуться до коробки на чьей-то книжной полке, если расположение книжных полок отличается от того, что он видел во время обучения.
Чтобы исправить такие ошибки, инженеры часто собирают дополнительные данные по новым задачам и переобучают модель. Это дорогостоящий и трудоемкий процесс, требующий знаний в области машинного обучения.
Вместо этого команда Массачусетского технологического института хочет позволить пользователям корректировать поведение робота сразу после того, как он совершает ошибку.
Однако если человек вмешается в процесс принятия решений роботом, это может случайно привести к тому, что генеративная модель выберет недопустимое действие. Робот может получить нужную пользователю коробку, но в процессе может опрокинуть книги на полке.
«Мы хотим, чтобы пользователи взаимодействовали с роботом, не допуская подобных ошибок, тем самым достигая поведения, которое лучше соответствует намерениям пользователя, при этом обеспечивая обоснованность и осуществимость», — сказал Феликс Яньвэй Ван.
Улучшить способность принимать решения
Чтобы гарантировать, что эти взаимодействия не приведут к выполнению роботом недопустимых действий, команда использует специальную процедуру отбора проб. Этот метод помогает модели выбрать действие из набора допустимых вариантов, которое наилучшим образом соответствует цели пользователя.
«Вместо того чтобы навязывать намерения пользователя, мы помогаем роботу понять его намерения, позволяя при этом процессу выборки колебаться в соответствии с усвоенными моделями поведения», — сказал Феликс Яньвэй Ван.
Благодаря такому подходу их исследовательская система превзошла другие методы в имитационных экспериментах, а также при тестировании с использованием настоящей роботизированной руки на модельной кухне.
Хотя этот метод не всегда позволяет выполнить задачу немедленно, он имеет большое преимущество для пользователя: он может исправить робота сразу после обнаружения ошибки, вместо того чтобы ждать, пока робот выполнит задачу, а затем давать новые инструкции.
Кроме того, после того как пользователь несколько раз слегка подтолкнет робота, чтобы помочь ему взять нужную миску, робот может запомнить это исправление и включить его в дальнейшее обучение. Благодаря этому на следующий день робот сможет взять нужную миску без необходимости получения дополнительных инструкций.
«Но ключом к этому постоянному совершенствованию является наличие механизма, позволяющего пользователям взаимодействовать с роботом, и именно это мы продемонстрировали в этом исследовании», — сказал Феликс Яньвэй Ван.
В будущем команда хочет увеличить скорость процесса отбора проб, сохранив или улучшив производительность. Они также хотят протестировать метод в новых условиях, чтобы оценить адаптивность робота.
(Источник: Новости Массачусетского технологического института)
Источник: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html
Комментарий (0)