NVIDIA повысила производительность Llama 3.1 в 1,9 раза благодаря алгоритму декодирования Medusa
Для обслуживания Llama 3.1 с очень низкой задержкой облачные сервисы могут использовать полноценный сервер NVIDIA HGX H200, каждый из которых включает восемь графических процессоров H200 Tensor Core и четыре чипа NVLink Switch