Эксперты выявили склонность крупных ИИ-моделей к «вранью»
ИИ-модели скорее солгут, нежели признаются в незнании чего-либо. Такое поведение становится все более очевидным по мере роста языковой модели, говорится в исследовании, опубликованном в Nature.
Искусственный интеллект склонен отвечать с уверенностью, даже если ответ фактически неверен, потому что его научили верить в эту информацию. Модели не осознают собственного невежества, отметили авторы.
Более крупные модели обычно демонстрируют улучшенную производительность в ходе выполнения сложных задач, но это не гарантирует постоянную точность, особенно при выполнении простых заданий.
Они заметно реже избегают сложных вопросов, стараясь их решать и иногда давая неверные ответы. На приведенном ниже графике видно, как модели выдают неправильные результаты (красный цвет) вместо того, чтобы уклониться от решения задачи (светло-голубой цвет).
Исследователи отметили, что данный феномен не связан со способностью крупных языковых моделей справляться с простыми задачами. Просто их тренируют лучше решать сложные проблемы. Нейросети, обученные на огромных, сложных массивах данных, более склонны упускать фундаментальные навыки.
Проблема усугубляется уверенностью ИИ. Пользователям зачастую сложно определить, когда он предоставляет точную информацию, а когда дезинформацию.
Эксперты также обнаружили, что в ходе улучшения производительности модели в одной области она может ухудшаться в другой.
«Процент избегающих ответов редко растет быстрее, чем процент неправильных. Вывод очевиден: ошибки по-прежнему встречаются чаще. Это представляет собой инволюцию надежности», — пишут они.
Исследователи подчеркнули минусы современных методов обучения искусственного интеллекта. Настройка с подкреплением и человеческой обратной связью усугубляет проблему, поскольку модель не старается избежать задачи, с которой она не справится.
Напомним, в сентябре OpenAI представила новую большую языковую модель o1, обученную методом с подкреплением для выполнения сложных рассуждений.