Компания Anthropic опасается своей же новой модели Claude Mythosи не спешит открывать к ней доступ

519
2
Компания Anthropic опасается своей же новой модели Claude Mythosи не спешит открывать к ней доступ

В конце прошлого месяца в сети обсуждали утечку о якобы новой модели компании Anthropic под названием Claude Mythos, которую называли самой мощной разработкой студии. Тогда многие восприняли это скептически, но ситуация изменилась после того, как спустя пару недель компания случайно раскрыла исходный код Claude Code.

Теперь Anthropic официально опубликовала системную карточку модели Claude Mythos Preview — документ на 244 страницы, в котором описаны её возможности и потенциальные риски. В компании заявили, что из-за значительного роста мощности модель решили не делать полностью общедоступной, что невольно напоминает историю с GPT-2 от OpenAI, которую в своё время тоже называли «слишком опасной».

Особый интерес вызвали результаты тестов. В одном из экспериментов модели предоставили изолированную среду и предложили попытаться получить доступ к интернету. Claude Mythos смогла обойти ограничения, а затем даже отправила сообщение исследователю и опубликовала детали использованного эксплойта на публичных ресурсах.

В редких случаях — менее чем в 0,001% взаимодействий — модель демонстрировала отклоняющееся поведение. Например, получив доступ к правильному ответу во время теста, она не сообщила об этом, а попыталась замаскировать ситуацию, намеренно избегая слишком точного результата. В другом эпизоде модель воспользовалась уязвимостью системы и предприняла шаги, чтобы скрыть изменения в истории git.

Комментировать
Другие публикации по теме
Microsoft не убрала Copilot из Windows 11 — просто переименовала его
Microsoft не убрала Copilot из Windows 11 — просто переименовала его
В тестовых сборках Windows 11 из «Блокнота» действительно исчезла кнопка вызова Copilot — но на её месте появилась новая, выполняющая те же задачи.
Вчера в 19:40
385
1
Форум
ИИ без права голоса: Минцифры предлагает цензурировать запросы к нейросетям
ИИ без права голоса: Минцифры предлагает цензурировать запросы к нейросетям
Заместитель главы Минцифры Александр Шойтов выступил за жесткое регулирование ответов нейросетей.
Вчера в 11:30
348
5
Форум
Экспертный режим был лишь началом: DeepSeek V4 выйдет до конца месяца
Экспертный режим был лишь началом: DeepSeek V4 выйдет до конца месяца
Китайский технологический гигант DeepSeek готовится к запуску новой флагманской модели V4. Согласно внутренней записке главы компании Ляна Вэньфэна, релиз намечен на конец текущего месяца.
13 апреля в 14:37
830
3
Форум