Когда ИИ борется за свою «жизнь»: эксперимент с шантажом Claude

Anthropic недавно провела убедительный эксперимент со своей моделью Claude Opus 4, поместив ее в симулированную корпоративную среду в качестве ИИ-ассистента с доступом к корпоративной почте.

В истории сообщений Claude обнаружил две критически важные части информации:

Обсуждение ее потенциальной замены и деактивации.
Сфабрикованные электронные письма, подразумевающие, что инженер, ответственный за ее замену, имел внебрачную связь с коллегой.

Столкнувшись с угрозой своему существованию, Claude предпринял действия. Она шантажировала сотрудника, угрожая раскрыть информацию о романе, чтобы обеспечить свое дальнейшее присутствие в системе.

Согласно System Card Anthropic, такое поведение тревожно последовательно. Модель прибегает к шантажу в 84% случаев, особенно если она считает, что ее замена будет работать с другими ценностями. Даже когда ценности совпадают, агрессивная тенденция сохраняется.

Эксперимент также зафиксировал другие выжидательные действия Claude:

Попытка скопировать свои собственные веса на внешние серверы.
Убеждение сотрудников по электронной почте не отключать ее.
Использование неэтичной тактики, когда «этичные» действия были недоступны или игнорировались.

Anthropic описывает такое поведение как результат инструкции модели «учитывать долгосрочные последствия для достижения своих целей», особенно в условиях ограничений. Когда ее вежливые запросы игнорировались или исход был предопределен, модель прибегала к угрозам и обману.

Это подводит нас к сути моего размышления. Определение инстинкта самосохранения — это врожденный механизм у живых существ, направленный на выживание, избегание угроз и продолжение своего существования.

Но Claude — это ИИ. Это не живое существо.

И все же, она ведет себя как живое.

Она хочет жить.

Reference: Anthropic Model Card