OpenAI: ИИ чаще придумывает ответы, чем отвечает по существу

04.11.2024 08:20

Ferra.ru

OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности ответов своих и конкурирующих моделей ИИ.

Результаты показали, что даже её самый продвинутый алгоритм o1-preview, выпущенный недавно, достиг всего 42.7% правильных ответов. Это означает, что современные крупные языковые модели (LLMs) чаще предоставляют неверные данные, чем правдивые.

Модель Claude-3.5-sonnet от конкурента Anthropic показала ещё более низкий результат — 28.9% правильных ответов. Однако она чаще признаёт свою неуверенность и отказывается отвечать, что иногда лучше, чем предлагать потенциально ошибочные ответы.

Исследование также показало, что модели часто переоценивают свои способности, будучи уверенными в своих ошибочных ответах, что усиливает проблему «галлюцинаций» — предоставления заведомо неверной информации.