Китайская DeepSeek-R1 обошла «мыслящую» OpenAI o1 в ключевых тестах

21.01.2025 11:34

По информации DeepSeek, R1 показывает лучшие результаты, чем o1, в тестах AIME, MATH-500 и SWE-bench Verified. Эти бенчмарки предназначены для оценки различных аспектов модели, включая математические способности, навыки программирования и общую производительность. R1 можно найти на платформе Hugging Face. Она распространяется под лицензией MIT, поэтому её можно свободно использовать в коммерческих целях.

R1 способна к рассуждениям, что позволяет ей проверять себя и избегать многих ошибок, характерных для других моделей. Хотя на решение задач у таких моделей уходит больше времени (от нескольких секунд до нескольких минут), они более надежны в таких областях, как физика, естественные науки и математика.

Как говорится в техническом отчете DeepSeek, модель R1 содержит 671 млрд параметров. Параметры соответствуют способности модели решать задачи: чем их больше, тем лучше результаты. DeepSeek также предлагает «упрощенные» версии R1 размером от 1,5 до 70 млрд параметров.

Самая маленькая из них может работать даже на обычном ноутбуке. Полная версия R1 требует более мощного оборудования, но её можно использовать через API DeepSeek, причем это будет на 90–95% дешевле, чем o1 от OpenAI.

У R1 есть и обратная сторона. Поскольку это китайская модель, интернет-регулятор проверяет ее на соответствие «основным социалистическим ценностям». Например, R1 не будет отвечать на вопросы о площади Тяньаньмэнь или статусе Тайваня. Многие другие китайские ИИ-системы, в том числе способные к рассуждению, избегают тем, которые могут вызвать критику со стороны китайских властей. Например, они отказываются обсуждать режим Си Цзиньпина.

R1 появилась вскоре после того, как уходящая администрация Байдена предложила ужесточить экспортные правила и ограничения на ИИ-технологии для китайского бизнеса. В то же время OpenAI в своем программном документе попросила правительство поддержать развитие американского искусственного интеллекта, чтобы не отстать от Китая. В интервью изданию The Information вице-президент OpenAI Крис Лейн выразил особую обеспокоенность по поводу компании High Flyer Capital Management, владельца DeepSeek.

Уже как минимум три китайские лаборатории — DeepSeek, Alibaba и Kimi — создали модели, которые, по их заявлениям, не уступают o1.