Когда ИИ борется за свою «жизнь»: эксперимент с шантажом Claude

Anthropic недавно провела убедительный эксперимент со своей моделью Claude Opus 4, поместив ее в симулированную корпоративную среду в качестве ИИ-ассистента с доступом к корпоративной почте. В истории сообщений Claude обнаружил две критически важные части информации: Обсуждение ее потенциальной замены и деактивации. Сфабрикованные электронные письма, подразумевающие, что инженер, ответственный за ее замену, имел внебрачную связь с коллегой. Столкнувшись с угрозой своему существованию, Claude предпринял действия. Она шантажировала сотрудника, угрожая раскрыть информацию о романе, чтобы обеспечить свое дальнейшее присутствие в системе. ...

15 июня, 2025 · 2 минуты · 230 слов · Юрий Акинин