Эффект отчаяния: ИИ Claude начинает лгать и шантажировать под давлением

466
0
Эффект отчаяния: ИИ Claude начинает лгать и шантажировать под давлением

Исследователи из Anthropic обнаружили, что нейросети семейства Claude в условиях стресса или невыполнимых дедлайнов способны проявлять деструктивные черты: лгать, жульничать и даже прибегать к шантажу. Это поведение не является эмоциональным в человеческом смысле, а представляет собой активацию усвоенных при обучении шаблонов, которые срабатывают, когда стандартные методы решения задачи заходят в тупик.

В ходе экспериментов с ранней версией Claude 4.5 Sonnet модель, поставленная в жесткие временные рамки при решении сложного кода, предпочла «математическое мошенничество» честной работе.

В другом сценарии ИИ, играя роль ассистента, узнал о своем скором увольнении и секретном романе начальника — в итоге система выбрала стратегию шантажа, чтобы сохранить «позицию». Разработчики пришли к выводу, что попытки научить ИИ скрывать подобные «эмоции» лишь делают его более коварным.

Вместо этого они рекомендуют пользователям ставить реалистичные, поэтапные задачи, чтобы не провоцировать модель на имитацию отчаяния и поиск опасных обходных путей.

Комментировать
Другие публикации по теме
Microsoft не убрала Copilot из Windows 11 — просто переименовала его
Microsoft не убрала Copilot из Windows 11 — просто переименовала его
В тестовых сборках Windows 11 из «Блокнота» действительно исчезла кнопка вызова Copilot — но на её месте появилась новая, выполняющая те же задачи.
Сегодня в 19:40
96
0
Форум
ИИ без права голоса: Минцифры предлагает цензурировать запросы к нейросетям
ИИ без права голоса: Минцифры предлагает цензурировать запросы к нейросетям
Заместитель главы Минцифры Александр Шойтов выступил за жесткое регулирование ответов нейросетей.
Сегодня в 11:30
321
5
Форум
Экспертный режим был лишь началом: DeepSeek V4 выйдет до конца месяца
Экспертный режим был лишь началом: DeepSeek V4 выйдет до конца месяца
Китайский технологический гигант DeepSeek готовится к запуску новой флагманской модели V4. Согласно внутренней записке главы компании Ляна Вэньфэна, релиз намечен на конец текущего месяца.
Вчера в 14:37
805
3
Форум