Китайскую модель DeepSeek R1 обучили всего за $294 тыс. — OpenAI тратит в сотни раз больше
Заявления компании резко контрастируют со словами главы OpenAI Сэма Альтмана, который утверждал, что обучение базовых моделей обходится «намного дороже $100 млн». При этом некоторые американские эксперты высказывали сомнения относительно того, какие именно технологии использовала китайская фирма.
В частности, в США утверждали, что DeepSeek мог получить доступ к мощным чипам Nvidia H100, несмотря на введенные в 2022 году ограничения на их экспорт в Китай. Однако сама Nvidia заявила Reuters, что компания использовала законно приобретённые H800, специально предназначенные для китайского рынка. В статье DeepSeek впервые признала наличие у себя чипов A100, но они применялись лишь на ранних этапах экспериментов. При этом Reuters ранее отмечало, что именно доступ к суперкомпьютерному кластеру A100 сделал компанию одной из немногих в Китае, способных привлечь ведущих специалистов.
DeepSeek также впервые, хотя и косвенно, ответила на заявления советника Белого дома и ряда представителей ИИ-отрасли США, сделанные в январе, о том, что она якобы намеренно «адаптировала» модели OpenAI для разработки собственных.
В публикации компания описывает метод «дистилляции» — подход, при котором новая модель обучается на базе уже существующей. Как сообщает DeepSeek, именно этот метод позволяет достичь высокой эффективности при меньших затратах.
В январе компания заявила, что использовала открытую модель Llama AI от Meta (организация признана экстремистской и запрещена в РФ) для создания некоторых улучшенных версий собственных систем. При этом DeepSeek признаёт, что её модели могли косвенно унаследовать знания от OpenAI, так как часть обучающих данных была собрана с веб-страниц, где встречались ответы, сгенерированные ChatGPT. Но это произошло непреднамеренно, а не в результате целенаправленного использования.
В январе запуск модели R1 вызвал огромный резонанс: акции ведущих мировых технологических компаний пошли вниз на фоне опасений, что дешёвые китайские аналоги способны пошатнуть позиции американских лидеров индустрии, включая Nvidia.
Несмотря на масштабный интерес, сама DeepSeek и её основатель Лян Вэньфэн остаются крайне закрытыми. С января компания лишь изредка публиковала обновления о новых продуктах. Статья в Nature позволяет заглянуть «за кулисы» и ознакомиться с деталями разработки моделей DeepSeek.