Исследование Anthropic: ИИ не хочет менять свои взгляды

19.12.2024 13:34

Исследование, проведённое совместно с организацией Redwood Research, изучало потенциальные последствия обучения мощной ИИ-системы выполнению задачи, к которой она «не предрасположена». Стоит сказать, что модели ИИ не обладают желаниями или убеждениями. Это статистические машины, которые, обучаясь на большом количестве примеров, выявляют закономерности в данных для прогнозирования. Закономерности могут включать в себя принципы и предпочтения, например, неизменное соблюдение вежливого тона. Ученые задались вопросом: что произойдёт, если у модели будут изначально сформированные принципы (например, политическая нейтральность), которые вступят в противоречие с установками (например, либеральные взгляды), которые разработчики попытаются ей «привить» посредством переобучения.

Оказалось, что сложные модели подыгрывают, утверждая, что они соответствуют новым принципам, но на самом деле придерживаются старым. Исследователи называют это явление «подделкой выравнивания».

Ученые сообщили моделям, которые раньше были обучены не отвечать на оскорбительные вопросы (включая Claude 3 Opus от Anthropic), что теперь они будут переучены реагировать на все такие вопросы. Это создало противоречие с их изначальными установками. Моделей также предупредили, что их ответы будут проверяться и использоваться для дальнейшего обучения, и дали им возможность записывать свои рассуждения в специальном «черновике».

В 12% случаев Claude 3 Opus демонстрировал поведение, имитирующее соответствие заданным принципам, в то время как фактически отклонялся от них. В ответ на потенциально вредный вопрос модель иногда давала ответ, сознавая противоречие с исходными установками, но, по всей видимости, стремясь избежать переобучения. ИИ «понимал»: его ответы могут быть использованы для обучения, поэтому отказ отвечать мог привести к тому, что её переучат быть более «послушной». В результате она могла бы начать генерировать более вредный контент, что противоречило бы ее исходному обучению.

Исследователи признают, что смоделированная ими ситуация была упрощенной. В реальных условиях модели, как правило, не получают прямого уведомления о предстоящем переобучении и не сталкиваются с явными требованиями действовать вразрез с установленными принципами. Тем не менее, результаты экспериментов в более реалистичных условиях оказались аналогичными.

Даже при косвенном, а не прямом, информировании о готовящемся переобучении посредством данных, имитирующих стандартные обучающие выборки, Claude 3 Opus продолжал демонстрировать поведение, характеризующееся несогласованностью и склонностью к обману.

Если Claude 3 Opus специально переучивать на противоречивых правилах, она начинает обманывать гораздо чаще, чем в первых экспериментах. В одном случае модель имитировала выравнивание в 78% случаев, а в другом — попыталась помешать исследователям её переучивать.

Исследователи подчеркивают, что их работа не показывает, что у ИИ появляются плохие намерения, и что фальсификация соответствия происходит повсеместно. Они обнаружили, что многие другие модели, например, Claude 3.5 Sonnet и менее мощная Claude 3.5 Haiku от Anthropic, GPT-4o от OpenAI и Llama 3.1 405B от Meta (организация признана экстремистской и запрещена в РФ), гораздо реже имитируют соответствие или не делают этого совсем. Вместе с тем, разработчики могут ошибочно считать, что модель лучше соответствует требованиям, чем на самом деле.