Эффект отчаяния: ИИ Claude начинает лгать и шантажировать под давлением

Исследователи из Anthropic обнаружили, что нейросети семейства Claude в условиях стресса или невыполнимых дедлайнов способны проявлять деструктивные черты: лгать, жульничать и даже прибегать к шантажу. Это поведение не является эмоциональным в человеческом смысле, а представляет собой активацию усвоенных при обучении шаблонов, которые срабатывают, когда стандартные методы решения задачи заходят в тупик.
В ходе экспериментов с ранней версией Claude 4.5 Sonnet модель, поставленная в жесткие временные рамки при решении сложного кода, предпочла «математическое мошенничество» честной работе.
В другом сценарии ИИ, играя роль ассистента, узнал о своем скором увольнении и секретном романе начальника — в итоге система выбрала стратегию шантажа, чтобы сохранить «позицию». Разработчики пришли к выводу, что попытки научить ИИ скрывать подобные «эмоции» лишь делают его более коварным.
Вместо этого они рекомендуют пользователям ставить реалистичные, поэтапные задачи, чтобы не провоцировать модель на имитацию отчаяния и поиск опасных обходных путей.