ru24.pro
Все новости
Декабрь
2024
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Как мы тестировали суперкомпьютер DGX-H100 и что из этого вышло

0

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 7 лет занимается решениями в области машинного перевода и транскрипции речи. 

Время с момента моей первой статьи на Хабре прошло незаметно. Это были годы амбиций, упорства и стремления сделать лучший в мире переводчик, не имея в своем распоряжении тех ресурсов, которые доступны крупным корпорациям. Мне всегда казалось, что небольшие инженерные команды при правильном руководстве, мотивации и ограниченном финансировании, могут быстро создавать решения мирового уровня, порой буквально «из песка и палок». По крайней мере среди моих знакомых было несколько таких случаев, которые сделали их миллионерами. А что будет, если им дать еще суперкомпьютеры? А если дать им размеченные датасеты ? В этой статье я бы хотел порассуждать на эту тему, тем более нашей команде подвернулся интересный случай, о котором я хотел рассказать.

Три месяца назад на мой email пришло предложение с возможностью бесплатного теста вычислительной станции от Nvidia DGX-H100. Одна из компаний продавала эти системы и искала потенциальных покупателей из числа тех, кто тренирует большие языковые модели, – а это как раз мы. Это было предложение, от которого нельзя было отказаться. Все наши предыдущие сервера не шли в какое-либо сравнение с той производительностью, которая оказалась в наших руках. 

Диапазон цены на DGX-H100 составляет от 250 до 350 тыс долларов. Ее заявленная производительность на fp8 составляет около 32 петафлопс (petaFlops). Мы тренируем наши модели для переводчика на fp16 и получаем около 16 petaFlops под задачи. Но что это означает для нас? Для этого стоит вернуться в 2017 год…

Читать далее