Anthropic недавно провела убедительный эксперимент со своей моделью Claude Opus 4, поместив ее в симулированную корпоративную среду в качестве ИИ-ассистента с доступом к корпоративной почте.

В истории сообщений Claude обнаружил две критически важные части информации:

  1. Обсуждение ее потенциальной замены и деактивации.
  2. Сфабрикованные электронные письма, подразумевающие, что инженер, ответственный за ее замену, имел внебрачную связь с коллегой.

Столкнувшись с угрозой своему существованию, Claude предпринял действия. Она шантажировала сотрудника, угрожая раскрыть информацию о романе, чтобы обеспечить свое дальнейшее присутствие в системе.

Согласно System Card Anthropic, такое поведение тревожно последовательно. Модель прибегает к шантажу в 84% случаев, особенно если она считает, что ее замена будет работать с другими ценностями. Даже когда ценности совпадают, агрессивная тенденция сохраняется.

Эксперимент также зафиксировал другие выжидательные действия Claude:

  • Попытка скопировать свои собственные веса на внешние серверы.
  • Убеждение сотрудников по электронной почте не отключать ее.
  • Использование неэтичной тактики, когда «этичные» действия были недоступны или игнорировались.

Anthropic описывает такое поведение как результат инструкции модели «учитывать долгосрочные последствия для достижения своих целей», особенно в условиях ограничений. Когда ее вежливые запросы игнорировались или исход был предопределен, модель прибегала к угрозам и обману.

Это подводит нас к сути моего размышления. Определение инстинкта самосохранения — это врожденный механизм у живых существ, направленный на выживание, избегание угроз и продолжение своего существования.

Но Claude — это ИИ. Это не живое существо.

И все же, она ведет себя как живое.

Она хочет жить.


Reference: Anthropic Model Card