В Яндексе придумали, как бизнесу сократить расходы на ИИ в 8 раз

23.07.2024 16:30

Для эффективной работы больших языковых моделей обычно требуется множество дорогостоящих графических процессоров. Решение от Яндекса позволяет уменьшить размер моделей в несколько раз, что снижает потребность в вычислительных мощностях и позволяет запускать модели на устройствах с меньшими вычислительными ресурсами. Это делает внедрение и обслуживание нейросетей более доступным для бизнеса. В отличие от других методов, которые существенно снижают качество ответов нейросетей при сжатии, метод Яндекса сохраняет до 95% качества.

Разработанное https://yandex.ru/company/news/02-23-07-2024 включает два инструмента. Первый уменьшает размер модели до 8 раз, что ускоряет её работу и позволяет запускать её на одном графическом процессоре вместо 4. Второй инструмент исправляет ошибки, возникающие в процессе сжатия, что обеспечивает высокое качество работы модели.

Эффективность методов была проверена на популярных моделях с открытым исходным кодом, таких как Llama 2, Llama 3 и Mistral. В ходе тестирования на англоязычных бенчмарках, метод Яндекса показал лучший результат среди всех существующих методов сжатия, сохранив в среднем 95% качества ответов нейросети, в то время как другие инструменты сохраняют от 59% до 90%.

Код новых методов сжатия уже опубликован на https://github.com/vahe1994/aqlm, что позволяет специалистам начать его использовать. Также доступны для скачивания уже сжатые модели и обучающие материалы, которые помогут разработчикам адаптировать уменьшенные нейросети под свои задачи.

Статья Yandex Research о методе сжатия AQLM вошла в программу одной из самых престижных конференций по машинному обучению — ICML. Работа была подготовлена в сотрудничестве с экспертами из ISTA и ИИ-стартапа Neural Magic.