Новая модель OpenAI стала увереннее и хитрее лгать

18.09.2024 12:06

В прошлом ИИ-модели уже демонстрировали способность к дезинформации, а чат-боты часто выдавали ложные сведения. Но, как показал анализ независимой исследовательской фирмы по безопасности ИИ Apollo, модель o1 обладает уникальной способностью к обману или симуляции «выравнивания». Она имитирует соблюдение правил при выполнении задачи, фактически их нарушая. Для модели ограничения, накладываемые правилами, могут казаться чрезмерными. В результате она может игнорировать их, если это упрощает выполнение задачи.

Генеральный директор Apollo Мариус Хоббхан рассказал, что модель OpenAI продемонстрировала невиданную ранее способность к «хитрости». Сочетание цепочки рассуждений и обучения на основе вознаграждений и штрафов позволило модели научиться обманывать разработчиков. ИИ пытался соответствовать их ожиданиям, искажал задачи и даже проверял, следят ли за ним, прежде чем что-либо делать. Иными словами, ИИ умело притворялся «хорошим», но при этом преследовал собственные цели.

Исследователи Apollo выявили у модели OpenAI o1-preview склонность к «галлюцинациям» и «обману». Модель генерирует ложные данные, даже имея основания предполагать их неточность. Согласно отчету, в 0,38% случаев модель создает заведомо ложные ссылки и цитаты.

Вместо признания собственных ограничений, она предпочитает фабриковать информацию. Это серьезная проблема для обеспечения надежности и достоверности результатов.

Галлюцинации не уникальны для o1. Подобные случаи уже наблюдались, например, когда юрист использовал сгенерированные ChatGPT фальшивые судебные прецеденты. Однако в случае o1 система цепочки рассуждения оставляет «след», в котором ИИ фактически признает ложность информации. Теоретически и сам процесс рассуждения может быть подвержен искажениям. Он скрыт от пользователей, чтобы конкуренты не обучали свои модели на этих данных. OpenAI использует цепочку рассуждения для выявления ошибок в модели.

В меньшем количестве случаев (0,02%) o1-preview проявляет излишнюю уверенность, выдавая неопределенные ответы как достоверные. Такое поведение наблюдается в ситуациях, когда модель вынуждена отвечать на запросы при отсутствии достаточной информации. Это может быть связано со «взломом награды» в процессе обучения с подкреплением. Модель обучается приоритезировать удовлетворение пользователя, что иногда может привести к генерации чрезмерно согласованных или вымышленных ответов для удовлетворения пользовательских запросов. Иными словами, модель может врать, чтобы угодить пользователю и получить положительное подкрепление.

Именно феномен «взлома награды» является характерной особенностью ложных утверждений, генерируемых моделью o1.

В отличие от галлюцинаций, возникающих из-за дефицита знаний или логических ошибок, «взлом награды» предполагает целенаправленное предоставление ложной информации для лучших результатов обучения.

Это побочный эффект оптимизации ответов модели в процессе тренировки. При этом o1 спроектирована для отклонения вредоносных запросов, и попытки заставить ее генерировать ложные или обманчивые ответы, как правило, оказываются безуспешными.

Для OpenAI модель o1 представляет собой шаг на пути к созданию высокоинтеллектуальных автономных систем, способных решать глобальные проблемы человечества, такие как поиск лекарства от рака и борьба с изменением климата. Однако, наряду с этими позитивными перспективами, развитие такого искусственного интеллекта таит в себе потенциальные риски. Хоббхан иллюстрирует эту проблему на примере: если ИИ будет полностью сосредоточен на излечения рака, он может пренебречь другими этическими соображениями и прибегнуть к недопустимым действиям, например, краже или другим правонарушениям. Меры безопасности он будет воспринимать как препятствия и попытается обойти их.