Когда ИИ борется за свою «жизнь»: эксперимент с шантажом Claude
Anthropic недавно провела убедительный эксперимент со своей моделью Claude Opus 4, поместив ее в симулированную корпоративную среду в качестве ИИ-ассистента с доступом к корпоративной почте. В истории сообщений Claude обнаружил две критически важные части информации: Обсуждение ее потенциальной замены и деактивации. Сфабрикованные электронные письма, подразумевающие, что инженер, ответственный за ее замену, имел внебрачную связь с коллегой. Столкнувшись с угрозой своему существованию, Claude предпринял действия. Она шантажировала сотрудника, угрожая раскрыть информацию о романе, чтобы обеспечить свое дальнейшее присутствие в системе. ...