NVIDIA повысила производительность Llama 3.1 в 1,9 раза благодаря алгоритму декодирования Medusa

10.09.2024 03:00

Overclockers.ru

Для обслуживания Llama 3.1 с очень низкой задержкой облачные сервисы могут использовать полноценный сервер NVIDIA HGX H200, каждый из которых включает восемь графических процессоров H200 Tensor Core и четыре чипа NVLink Switch