Alibaba представила «рассуждающую» модель Marco-o1

28.11.2024 11:48

Модель OpenAI o1 хорошо решала задачи со стандартными ответами в математике, физике и программировании. Этого удалось достичь благодаря применению техники «масштабирования во время вывода». Суть метода заключается в том, что модели предоставляется дополнительное «время на подумать» за счет увеличения количества вычислительных циклов во время генерации. Это позволяет ей выдавать более развернутые и обоснованные ответы, тщательно проверяя каждый шаг рассуждения. Однако многие реальные проблемы не имеют однозначных решений и требуют более гибкого подхода. Исследователи Alibaba стремились преодолеть эти ограничения и расширить возможности больших языковых моделей для решения сложных, нестандартных задач.

Marco-o1 — это усовершенствованная модель искусственного интеллекта на базе Alibaba Qwen2-7B-Instruct. В нее интегрированы современные методы машинного обучения — обучение с цепочкой рассуждений (CoT), поиск по дереву Монте-Карло (MCTS) и специальные алгоритмы для улучшения логического мышления. Модель тренировалась на специально разработанных наборах данных для задач, требующих глубокого анализа и рассуждений.

Marco-o1 применяет алгоритм поиска MCTS для генерации ответов, рассматривая множество потенциальных вариантов. Оценивая вероятность каждого исхода, модель строит «дерево» решений, изучая различные ветви. Это позволяет ей принимать более взвешенный и нюансированный выбор, особенно в неопределенных ситуациях.

Исследователи также разработали гибкую стратегию, которая позволяет им регулировать гранулярность шагов MCTS — определять количество токенов, генерируемых в каждом узле дерева. Это оптимизирует баланс между точностью и вычислительными затратами.

Marco-o1 оснащена механизмом самопроверки. В процессе рассуждения модель периодически останавливается и задает себе вопрос: «А правильно ли я мыслю? Не допустил ли я ошибку?». Это позволяет ИИ пересмотреть свои логические цепочки, выявить возможные недочеты и скорректировать ход мыслей. Как отмечают исследователи, такой подход делает модель похожей на внутреннего критика, который постоянно проверяет правильность своих рассуждений.

Для оценки Marco-o1 исследователи провели ряд экспериментов, в том числе на бенчмарке MGSM — наборе задач по математике начальной школы на нескольких языках. ИИ превзошел базовую модель Qwen2-7B, особенно при настройке компонента MCTS на точность одного токена. Однако основной целью создания ИИ-инструмента было решение задач, требующих глубокого осмысления в условиях неопределенности.

Для проверки этих возможностей Marco-o1 протестировали на переводе разговорных выражений и сленга, что требует понимания тонких нюансов языка, культуры и контекста. Модель справилась лучше традиционных систем перевода в этой области.

Например, она перевела китайское идиоматическое выражение на английский язык. В процессе рассуждений она оценивала различные варианты перевода и выбрала наиболее подходящий.

Команда Alibaba выпустила Marco-o1 на Hugging Face вместе с частичным набором данных, который исследователи могут использовать для тренировки собственных моделей рассуждений. После https://hightech.plus/2024/09/13/openai-predstavila-novuyu-m... o1 ИИ-компании соревнуются за создание «рассуждающих» моделей. Ранее китайская DeepSeek https://hightech.plus/2024/11/21/predstavlen-kitaiskii-analo... R1-Lite-Preview — аналог o1. Выпуск этих инструментов происходит на фоне неопределенности относительно перспектив масштабирования ИИ. Некоторые исследования показывают, что эффективность обучения моделей с увеличением их размера начинает снижаться и может достичь предела.