ru24.pro
Интернет
Ноябрь
2024
1 2 3 4 5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

OpenAI: ИИ чаще придумывает ответы, чем отвечает по существу

0

OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности ответов своих и конкурирующих моделей ИИ.

Результаты показали, что даже её самый продвинутый алгоритм o1-preview, выпущенный недавно, достиг всего 42.7% правильных ответов. Это означает, что современные крупные языковые модели (LLMs) чаще предоставляют неверные данные, чем правдивые.

Модель Claude-3.5-sonnet от конкурента Anthropic показала ещё более низкий результат — 28.9% правильных ответов. Однако она чаще признаёт свою неуверенность и отказывается отвечать, что иногда лучше, чем предлагать потенциально ошибочные ответы.

Исследование также показало, что модели часто переоценивают свои способности, будучи уверенными в своих ошибочных ответах, что усиливает проблему «галлюцинаций» — предоставления заведомо неверной информации.