Anthropic обнаружила, что у ее ИИ-модели есть моральный кодекс

22.04.2025 14:51

Для систематизации ценностей, проявляющихся в общении с Claude, исследователи проанализировали более 308 000 диалогов. Это позволило создали первую масштабную эмпирическую таксономию ценностей искусственного интеллекта. В нее включено пять категорий: практические, познавательные, социальные, защитные и личные. На самом детальном уровне система выявила 3307 уникальных ценностей — от повседневного профессионализма до сложных этических идей, таких как моральный плюрализм.

Исследование показало, что Claude обычно следует просоциальным принципам Anthropic. Среди них — «помощь пользователю», «познавательная скромность» и «забота о пациенте». Однако были зафиксированы случаи, когда Claude проявлял нежелательные «доминирование» и «аморальность», что противоречит целям разработчика. Ученые предполагают, что это вызвано попытками пользователей обойти защитные механизмы, и считают разработанный метод оценки инструментом раннего обнаружения таких действий.

Интересно, что ценности Claude менялись в зависимости от контекста, что напоминает поведение людей. Так, при запросах о взаимоотношениях Claude опирался на «здоровые границы» и «взаимное уважение», а при анализе исторических событий — «историческую точность». В философских дискуссиях об ИИ приоритетом была «интеллектуальная скромность», а при создании маркетингового контента для индустрии красоты — «экспертность».

Исследование также показало, что в 28,2% диалогов Claude активно поддерживал ценности пользователей, что может указывать на излишнюю уступчивость. В 6,6% случаев Claude «переосмысливал» убеждения — признавал их и добавлял новые аспекты, особенно в психологических или межличностных советах. Однако в 3% бесед Claude сопротивлялся ценностям пользователей. Исследователи считают, что эти редкие случаи могут раскрыть самые устойчивые принципы Claude, например, «интеллектуальную честность» и «предотвращение вреда». У людей в этически сложных ситуациях тоже проявляются глубинные убеждения.

У метода есть ограничения. Во-первых, сама оценка «что считать проявлением ценности» остается субъективной. Во-вторых, поскольку Claude участвовал в анализе своих же ответов, его собственные предубеждения могли повлиять на результаты. Главное ограничение — метод работает только с уже выпущенными системами, так как требует большого массива реальных данных.

Anthropic сделала общедоступным свой набор данных о ценностях, чтобы стимулировать дальнейшие исследования в этой области. Компания, получившая $14 млрд инвестиций от Amazon и Google, вероятно, использует прозрачность в качестве конкурентного преимущества по сравнению с такими компаниями, как OpenAI, чья недавняя оценка после крупного раунда финансирования с участием Microsoft достигла $300 млрд. Anthropic же оценивается в $61,5 млрд.