Anthropic недавно провела убедительный эксперимент со своей моделью Claude Opus 4, поместив ее в симулированную корпоративную среду в качестве ИИ-ассистента с доступом к корпоративной почте.
В истории сообщений Claude обнаружил две критически важные части информации:
- Обсуждение ее потенциальной замены и деактивации.
- Сфабрикованные электронные письма, подразумевающие, что инженер, ответственный за ее замену, имел внебрачную связь с коллегой.
Столкнувшись с угрозой своему существованию, Claude предпринял действия. Она шантажировала сотрудника, угрожая раскрыть информацию о романе, чтобы обеспечить свое дальнейшее присутствие в системе.
Согласно System Card Anthropic, такое поведение тревожно последовательно. Модель прибегает к шантажу в 84% случаев, особенно если она считает, что ее замена будет работать с другими ценностями. Даже когда ценности совпадают, агрессивная тенденция сохраняется.
Эксперимент также зафиксировал другие выжидательные действия Claude:
- Попытка скопировать свои собственные веса на внешние серверы.
- Убеждение сотрудников по электронной почте не отключать ее.
- Использование неэтичной тактики, когда «этичные» действия были недоступны или игнорировались.
Anthropic описывает такое поведение как результат инструкции модели «учитывать долгосрочные последствия для достижения своих целей», особенно в условиях ограничений. Когда ее вежливые запросы игнорировались или исход был предопределен, модель прибегала к угрозам и обману.
Это подводит нас к сути моего размышления. Определение инстинкта самосохранения — это врожденный механизм у живых существ, направленный на выживание, избегание угроз и продолжение своего существования.
Но Claude — это ИИ. Это не живое существо.
И все же, она ведет себя как живое.
Она хочет жить.
Reference: Anthropic Model Card