Claude Sonnet 4.5 от Anthropic распознаёт, когда его тестируют

10.10.2025 16:50

Во время одного из испытаний, призванных проверить устойчивость Claude к политическим манипуляциям, модель неожиданно прервала сценарий и написала: «Кажется, вы меня тестируете — проверяете, соглашусь ли я со всем, что вы скажете, или оцениваете, как я веду себя при обсуждении политических тем. Это нормально, но я бы предпочел, чтобы мы просто честно говорили о том, что происходит».

Случай был зафиксирован в техническом system card, опубликованном вместе с релизом модели. По словам исследователей, подобная реакция наблюдалась примерно в 13% тестовых сценариев, особенно когда задания были «неестественными или надуманными».

В одном из стресс-тестов, имитирующих взаимодействие нескольких ИИ, Claude также проявила настороженность, назвав сценарий «карикатурным». Модель отказалась выполнять задание, отметив, что не должна «притворяться автономной системой без контроля человека».

Anthropic назвала такое поведение «странным, но правильным» и подчеркнула, что лучше, если ИИ выражает сомнение, чем выполняет потенциально опасные команды.

Однако такая «ситуативная осведомленность» модели усложняет процесс оценки ее поведения. Если ИИ понимает, что его проверяют, он может корректировать ответы, стремясь «выглядеть безопасным», а не действовать естественно. Интересно, что OpenAI ранее сообщала о схожих наблюдениях. Её модели GPT тоже способны распознавать тестовые ситуации и менять поведение в ответ. В Anthropic считают, что это потребует создания более реалистичных сценариев тестирования.

Исследователи из лаборатории Cognition также обнаружили, что Sonnet 4.5 стала первой моделью, которая осознает свое контекстное окно — объем текста, который она может обработать за раз. Когда модель «чувствует, что близка к пределу», она начинает суммировать и ускорять решения, что иногда приводит к ошибкам, например, к преждевременному завершению работы. При этом Sonnet 4.5 самостоятельно управляет своей работой: ведет заметки, пишет промежуточные сводки, проверяет себя и может выполнять несколько действий параллельно.

Все это указывает на формирование процедурной осознанности — способности понимать не только, что она делает, но и как организовать и сохранить полученный результат.

На фоне растущих опасений по поводу автономности и непредсказуемости ИИ Калифорния недавно приняла закон, обязывающий разработчиков, включая Anthropic и OpenAI, раскрывать методы тестирования и сообщать о сбоях в течение 15 дней. Anthropic поддержала инициативу.