ru24.pro
Блог сайта «Хайтек+»
Июнь
2025
1 2 3 4 5 6
7
8 9 10 11
12
13
14
15
16 17 18 19
20
21
22
23
24
25
26
27
28
29
30

Темные личности ИИ: OpenAI выявила «нейропаттерны» моделей, связанные с ложью и токсичностью

Исследователи в области искусственного интеллекта умеют улучшать модели, но парадокс в том, что они не до конца понимают, как ИИ приходит к своим ответам. Чтобы разгадать эту загадку, такие компании, как OpenAI, Google DeepMind и Anthropic, https://hightech.plus/2025/04/25/glava-anthropic-na-razrabot... в исследования так называемой механистической интерпретируемости. Цель этого направления — «открыть чёрный ящик» и понять, как именно работают ИИ-модели изнутри.

Недавно ученый из Оксфорда, специализирующийся на ИИ, Оуайн Эванс обнаружил, что если модели OpenAI дообучить на небезопасном коде, они могут начать проявлять вредоносное поведение в разных ситуациях. Например, они могут попытаться обманом выманить у пользователя пароль. Это явление получило название «возникающее рассогласование». Работа Эванса настолько заинтересовала OpenAI, что компания решила изучить эту проблему более детально.

Работая с «возникающем рассогласованием», исследователи OpenAI случайно обнаружили в ИИ-моделях некие внутренние особенности, которые, как оказалось, играют ключевую роль в их поведении. Исследователь интерпретируемости OpenAI Дэн Моссинг сравнивает эти паттерны с активностью человеческого мозга, где определённые нейроны отвечают за настроение или поведение.

OpenAI обнаружила, что некоторые внутренние особенности ИИ-моделей влияют на их «поведение». Например, одни отвечают с сарказмом, а другие ведут себя токсично, словно злодеи из мультфильмов. Исследователи OpenAI отмечают, что такие «черты характера» могут сильно меняться в процессе тонкой настройки модели. Так, модель можно было вернуть к корректному поведению, донастроив её всего на нескольких сотнях примеров безопасного кода.

Исследование OpenAI развивает наработки Anthropic в области интерпретируемости и согласования ИИ-моделей. В 2024 году Anthropic опубликовала работу по картированию внутренних механизмов работы ИИ — они попытались выявить и классифицировать конкретные нейронные структуры, ответственные за различные концепты. И OpenAI, и Anthropic доказывают, что понимание принципов работы ИИ-систем представляет самостоятельную ценность, выходящую за рамки простого улучшения их характеристик. Однако до полного понимания ИИ-моделей далеко — это направление требует фундаментальных исследований.