Figure выпустила собственную ИИ-модель для андроидов
Современные роботы плохо приспособлены к новым задачам и часто нуждаются в сложном программировании или множестве примеров. Figure решила эту проблему, используя «языковую модель зрения» (Vision Language Model, VLM). С помощью нее роботы могут обобщать свои навыки и выполнять задачи по инструкциям на простом человеческом языке, без специального обучения или кода.
Решение, получившее название Helix, предназначено для управления всем верхним корпусом робота с высокой точностью и скоростью. Helix состоит из двух систем: S1 и S2. S2 — это более медленная VLM (7B параметров), обученная на интернет-данных и отвечающая за понимание сцен и языка. S1 (80M параметров), напротив, — быстрая система визуально-моторного управления, которая превращает информацию из S2 в действия робота. Разделение позволяет каждой из них работать оптимально: S2 — анализировать, S1 — выполнять. Кроме того, обе системы можно настраивать отдельно.
Обучение Helix проводилось на основе 500 часов данных, полученных с помощью телеуправления роботами. Для генерации текстовых инструкций использовалась VLM с автоматической маркировкой.
Helix обладает способностью к обобщению, позволяя роботу манипулировать тысячами бытовых предметов, даже если они отличаются по форме, размеру, цвету и материалу и не были представлены в обучающем наборе. Управление происходит посредством команд на естественном языке. Еще одно важное преимущество: система позволяет двум андроидам одновременно решать сложные задачи.
Helix использует особый подход, обучая роботов разным действиям, от захвата предметов до взаимодействия с бытовой техникой, с помощью единого набора весов нейросети. Это упрощает процесс обучения, исключая необходимость индивидуальной настройки под каждую задачу. Работа модели обеспечивается встроенными маломощными GPU, что удобно для коммерческого развертывания.
Figure занималась Helix больше года. Проект запустили вскоре после того, как компания объявила о своем отделении от OpenAI в начале февраля.