Новый ИИ-агент Microsoft управляет ПО и роботами

21.02.2025 13:02

Название «Magma» расшифровывается как «Multimodal Agentic Model at Microsoft Research». Microsoft утверждает, что Magma — первая модель, которая не только обрабатывает мультимодальные данные (текст, изображения, видео), но и может работать с ними. Она может управлять интерфейсами или манипулировать физическими объектами. Этот проект — результат сотрудничества Microsoft с другими университетами и исследовательскими центрами.

Похожие проекты, которые использовали большие языковые модели, такие как PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft, существовали и раньше. Но Magma отличается тем, что объединяет восприятие и управление в одной модели, в отличие от предыдущих ИИ-систем, которые требовали отдельных моделей для этих задач.

Microsoft позиционирует Magma как шаг к "агентному ИИ", который может самостоятельно разрабатывать планы и выполнять задачи, а не просто отвечать на вопросы. Magma может планировать и выполнять действия, чтобы достичь поставленной цели. Она использует данные из изображений, видео и текстов, чтобы совмещать вербальный, пространственный и временной интеллект для выполнения сложных задач.

Magma отличается от традиционных моделей, таких как GPT-4V, тем, что включает не только вербальный, но и пространственный интеллект. Обычные языковые модели, такие как ChatGPT, могут описывать, что изображено на картинке или предлагать пошаговую инструкцию. Но они не способны сами «двигаться» в интерфейсе или управлять объектами. Magma же объединяет зрительное восприятие с возможностью действовать на основе пространственных связей между объектами.

Magma может понимать, где расположены кнопки и элементы интерфейса, и нажимать их в нужном порядке. Например, если дать команду "отправь письмо в Gmail", она сможет:

Найти кнопку "Написать".

Переместить курсор в поле "Кому".

Ввести текст письма.

Нажать "Отправить".

Если робот с Magma должен пройти по комнате, он поймет, где есть препятствия, и построит маршрут. Например, если перед ним стоит стул, он обойдет его, а не пойдет прямо.

Иными словами, обычные ИИ работают с текстом и изображениями, но не могут использовать их для действий. Magma не просто анализирует картинку с кнопками или объекты на столе — она принимает решения о том, как с ними взаимодействовать, и выполняет эти действия.

В Magma есть два ключевых компонента: Set-of-Mark и Trace-of-Mark. Первый помогает ИИ распознавать объекты, с которыми можно взаимодействовать, например, кнопки на экране или предметы, которые можно взять роботом. Второй компонент обучается на видео данных распознавать и воспроизводить движения.

Microsoft утверждает, что Magma показывает хорошие результаты в тестах, например, в задаче по навигации по интерфейсу и управлению роботами. Она превзошла другие модели, такие как OpenVLA, в нескольких тестах по робототехнике. Однако Magma все еще не идеальна. Ей тяжело принимать сложные решения, которые требуют нескольких шагов.

Microsoft https://arstechnica.com/ai/2025/02/microsofts-new-ai-agent-c... выпустить код Magma на GitHub, чтобы другие исследователи могли продолжить работу над этой моделью. Если Magma оправдает ожидания, она позволит Microsoft создавать ИИ, который может не только работать с текстом, но и выполнять реальные задачи: управлять роботами, программами и техникой.

Magma также показывает, как быстро меняется культура ИИ и общественное восприятие этой технологии. Хотя еще несколько лет назад разговоры о ИИ-агентах пугали людей, сейчас такие исследования становятся обычным явлением. Публика больше не опасается, что ИИ может захватить мир, а ждет, когда роботам можно будет делегировать уборку и готовку.