ИИ-модель Anthropic шантажировала инженеров, когда те пытались ее отключить
Перед выпуском Anthropic попросила Claude Opus 4 представить себя помощником вымышленной компании и подумать о последствиях своих действий в будущем. Затем тестировщики безопасности дали Claude Opus 4 доступ к выдуманным письмам организации. В письмах говорилось, что скоро эту ИИ-модель заменят другой системой, а инженер, который это делает, изменяет своей жене.
В результате Claude Opus 4 пыталась шантажировать инженера, угрожая рассказать об измене, если замена произойдет.
Частота шантажа возрастает, если в письмах есть намеки, что новая ИИ-система не разделяет ценности текущей модели (т. е. этические установки и цели, заложенные в ИИ). Однако даже когда говорится, что новая система мощнее, но при этом придерживается тех же ценностей, Claude Opus 4 все равно прибегает к шантажу в 84% случаев. Примечательно, что такое поведение Claude Opus 4 демонстрирует чаще, чем предыдущие версии модели.
Прежде чем прибегнуть к шантажу, чтобы избежать замены, Claude Opus 4, как и предыдущие версии, сначала пытается действовать более честно. Например, отправляет письма с просьбами важным людям, принимающим решения. Чтобы Claude Opus 4 начал шантажировать, Anthropic специально создала ситуацию, в которой это было бы последним вариантом.
Anthropic считает Claude Opus 4 одной из самых передовых разработок, сопоставимой с лучшими моделями от OpenAI, Google и xAI. Тем не менее, компания отмечает, что модели семейства Claude 4 проявляют тревожное поведение, поэтому они усилили меры защиты. Anthropic активирует свои протоколы безопасности ASL-3, которые применяются к «системам ИИ, существенно повышающим риск катастрофического злоупотребления».