Китайская ИИ-модель для программирования с открытым кодом обошла GPT-4 Turbo

18.06.2024 22:05

Основанная в прошлом году DeepSeek стала заметным китайским игроком в гонке ИИ, присоединившись к таким компаниям, как Qwen, 01.AI и Baidu. В декабре 2023 года она выпустила DeepSeek Chat — конкурента ChatGPT, обученного на 2 трлн английских и китайских токенов. В течение года после запуска компания открыла исходный код ряда моделей, включая семейство DeepSeek Coder.

Первая версия DeepSeek Coder, обладающая до 33 млрд параметров, показала неплохие результаты в тестах, демонстрируя возможности вроде автодополнения кода на уровне проекта и заполнения пробелов. Однако она поддерживала всего 86 языков программирования и имела окно контекста 16 000 токенов. В новой версии V2 поддерживается до 338 языков программирования, а контекстное окно увеличено до 128 000 токенов. Это позволяет ей справляться с более сложными и масштабными задачами программирования.

Модель проверили на тестах MBPP+, HumanEval и Aider, разработанных для оценки возможностей больших языковых моделей по генерации, редактированию кода и решению задач. DeepSeek Coder V2 набрала 76,2, 90,2 и 73,7 баллов соответственно. Это ставит ее выше большинства закрытых и открытых моделей, включая GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro, Codestral и Llama-3 70B. Аналогичная производительность наблюдалась в тестах, предназначенных для оценки математических возможностей модели (MATH и GSM8K).

Единственной моделью, которой удалось превзойти DeepSeek по нескольким тестам, была GPT-4o, которая получила немного более высокие оценки в HumanEval, LiveCode Bench, MATH и GSM8K.

DeepSeek объясняет достигнутый технический прогресс и улучшение производительности использованием языковой модели DeepSeek V2, основанной на их собственной архитектуре Mixture of Experts (смесь экспертов). По сути, компания предварительно обучила базовую модель V2 на дополнительном наборе данных объемом 6 трлн токенов, который в основном состоит из информации, связанной с кодом и математикой, полученной из GitHub и CommonCrawl. Модель поставляется с опциями параметров 16 млрд и 236 млрд. Но архитектура Mixture of Experts позволяет ей активировать только «экспертные» параметры (2,4 млрд и 21 млрд) для решения поставленных задач, а также оптимизировать ее для различных потребностей вычислений и приложений.

Помимо превосходных результатов в задачах, связанных с кодом и математикой, DeepSeek Coder V2 также демонстрирует достойную производительность в общих рассуждениях и понимании языка.

Например, в тесте MMLU, предназначенном для оценки понимания языка, она набрала 79,2 балла. Это значительно выше показателей других моделей, специализирующихся на коде, и почти соответствует результату Llama-3 — 70B. Лидерами категории MMLU по-прежнему остаются GPT-4o и Claude 3 Opus с результатами 88,7 и 88,6 баллов соответственно. DeepSeek Coder V2 также оставила позади GPT-4 Turbo.

DeepSeek Coder V2 предлагается под лицензией MIT, которая допускает как исследовательское, так и коммерческое использование. Пользователи могут загрузить обе версии модели (16 млрд и 236 млрд параметров) через платформу Hugging Face. В качестве альтернативы компания предоставляет доступ к моделям через API за оплату по мере использования. Те, кто хочет сначала опробовать возможности моделей, могут пообщаться с DeepSeek Coder V2 через чат-бот.