Инженеры MIT разработали метод, помогающий роботам обнаруживать нужные объекты
Инженеры Массачусетского технологического института разработали инновационный метод, позволяющий роботам эффективно анализировать окружающую обстановку и принимать решения в зависимости от поставленных задач. Этот метод, получивший название Clio, использует передовые технологии в области компьютерного зрения и обработки естественного языка. Как сообщается в журнале Robotics and Automation Letters, Clio помогает роботам быстро составлять карту местности и определять необходимые действия.
Основная идея Clio заключается в том, чтобы робот мог интуитивно понимать уровень детализации, необходимый для выполнения конкретной задачи. Например, если роботу нужно навести порядок на кухне, он может по-разному подходить к сортировке предметов в зависимости от конечной цели. Если требуется просто очистить стол, робот может сгрести все предметы в одну кучу. Однако если задача состоит в том, чтобы отобрать определенные предметы, например, пакетики с горчицей, робот будет действовать более аккуратно и внимательно.
Команда исследователей провела ряд экспериментов в различных условиях, от загроможденного офиса до многоэтажного здания в кампусе MIT. В ходе этих испытаний Clio продемонстрировал способность автоматически сегментировать сцену на разных уровнях детализации в зависимости от поставленной задачи. Важно отметить, что задачи формулировались на естественном языке, что делает взаимодействие с роботом более интуитивным для человека.
Одним из ключевых преимуществ Clio является его способность "запоминать" только те части сцены, которые имеют значение для выполнения текущей задачи. Это позволяет оптимизировать процесс обработки информации и принятия решений. Например, если роботу нужно найти игрушку для собаки, он будет фокусироваться только на релевантных объектах, игнорируя ненужные детали окружения.
Исследователи подчеркивают, что Clio может найти применение в различных областях, где требуется быстрая адаптация робота к новым условиям. Особенно перспективным направлением считается использование Clio в поисково-спасательных операциях, где способность робота быстро ориентироваться в незнакомой обстановке может сыграть решающую роль.
Технически Clio основан на сочетании методов глубокого обучения и теории информации. Система использует нейронные сети, обученные на миллиардах пар "изображение-текст" из интернета, что позволяет ей распознавать широкий спектр объектов в реальных условиях. Затем применяется концепция "информационного узкого места" для выделения наиболее релевантной информации в контексте текущей задачи.
Одним из значительных достижений команды стала возможность запуска Clio в режиме реального времени на бортовом компьютере робота. Это было продемонстрировано в эксперименте с четвероногим роботом Spot от Boston Dynamics, который успешно выполнял различные задачи в офисном здании, используя Clio для навигации и принятия решений.
Исследователи отмечают, что текущая версия Clio способна выполнять относительно простые задачи, но они уже работают над расширением её возможностей. В будущем планируется научить систему справляться с более сложными заданиями, приближенными к человеческому уровню понимания и выполнения.