[Перевод] Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review
Многие из наиболее известных тестов для оценки работы моделей искусственного интеллекта устарели или недостаточно продуманы.
Когда появляется новая модель искусственного интеллекта, её обычно рекламируют как лучшую по результатам тестов. Например, модель GPT-4o от OpenAI была представлена в мае с результатами, которые показали, что её производительность превосходит другие модели искусственного интеллекта в нескольких тестах.
Однако проблема в том, что эти тесты плохо продуманы, их результаты сложно воспроизвести, а используемые в них метрики часто не имеют чёткого определения. Это было отмечено в новом исследовании. Это важно, потому что оценки моделей искусственного интеллекта по этим показателям будут определять уровень их проверки и регулирования.
Читать далее