«Смышленость» ИИ научились проверять на легендарной игре Super Mario Bros.
Исследователи из Hao AI Lab (Калифорнийский университет в Сан-Диего) предложили необычный тест для искусственного интеллекта — прохождение Super Mario Bros.
Оказалось, что Claude 3.7 от Anthropic справился лучше остальных, следом идет Claude 3.5, а вот Google Gemini 1.5 Pro и OpenAI GPT-4o показали слабые результаты.
ИИ играл в модифицированную версию игры через эмулятор и фреймворк GamingAgent, который передавал модели команды («Если рядом препятствие — прыгни»), а затем ИИ управлял Марио, генерируя Python-код.
Любопытно, что модели, использующие «логическое» мышление, работали хуже, чем интуитивные. Причина — их более медленные реакции: в динамичной игре даже секунда задержки может стоить победы.
Хотя игры давно используются для тестирования ИИ, эксперты сомневаются в их объективности. Например, Андрей Карпати, один из основателей OpenAI, назвал это «кризисом оценки».