ИИ работники не смогли выполнить простую работу фрилансера

1597
6
ИИ работники не смогли выполнить простую работу фрилансера

Совместная работа некоммерческой организации Center for AI Safety (CAIS) и компании Scale AI привела к неутешительным выводам. В ходе эксперимента шесть ведущих ИИ‑агентов прошли тестирование на симулированных фриланс‑задачах. Результат оказался обескураживающим: ни один из участников не сумел выполнить более 3 % объёма работы. Если потенциальный доход от полного выполнения всех заданий оценивался в 143 991 доллар, то суммарный заработок ИИ‑агентов составил лишь 1 810 долларов.

Для объективной оценки специалисты разработали специальный бенчмарк Remote Labor Index. Он имитирует реальные удалённые проекты из самых разных сфер — от разработки игр до анализа данных. Задача теста заключалась в том, чтобы выяснить, способны ли боты выполнять работу, имеющую реальную экономическую ценность.

Наилучший результат показал ИИ‑агент китайского стартапа Manus, сумевший завершить 2,5 % назначенных проектов на уровне, приемлемом для реальной фриланс‑работы. Не намного отстали Grok 4 (проект Илона Маска) и Claude Sonnet 4.5 от Anthropic — оба продемонстрировали результат в 2,1 %. Примечательно, что Anthropic активно продвигает свою модель как «лучшую в мире для программирования» и «самую мощную для создания сложных агентов».

Новейшая модель GPT‑5 от OpenAI, которую создатели характеризуют как «интеллект уровня PhD» и важный шаг к искусственному общему интеллекту (AGI), показала результат лишь в 1,7 %. При этом OpenAI определяет AGI как «высокоавтономные системы, превосходящие людей в большинстве экономически ценных работ» — критерий, которому GPT‑5 явно не соответствует на практике.

ChatGPT Agent от OpenAI занял предпоследнюю строчку рейтинга с показателем 1,3 %. Абсолютным аутсайдером оказался Gemini 2.5 Pro от Google, сумевший выполнить лишь 0,8 % поставленных задач.

Директор CAIS Дэн Хендрикс в интервью Wired подчеркнул, что полученные результаты должны дать более точное представление о реальных возможностях ИИ. Он также обозначил ключевые недостатки, которые продолжают ограничивать эффективность ИИ‑агентов: отсутствие долгосрочной памяти, невозможность непрерывного обучения на собственном опыте и неспособность осваивать новые навыки в процессе работы — качества, естественные для любого человека.

Несмотря на очевидную ограниченность ИИ‑решений, волна увольнений из‑за внедрения искусственного интеллекта не спадает, а наоборот — набирает обороты. Многие компании, сократившие персонал в пользу автоматизированных систем, впоследствии вынуждены были вернуть сотрудников обратно, столкнувшись с низкой эффективностью ИИ‑инструментов.

Данные подтверждаются результатами других исследований. Анализ MIT показал, что 95 % компаний, запустивших пилотные ИИ‑инициативы, не зафиксировали значимого роста выручки. Другое исследование выявило, что массовое внедрение ИИ‑инструментов привело к появлению большого объёма низкокачественного контента. Это не только замедлило рабочие процессы из‑за необходимости многочисленных правок, но и породило напряжённость в коллективах, где сотрудникам приходилось исправлять ошибки, допущенные искусственным интеллектом.

Директор по исследованиям Scale AI Бинг Ли в беседе с Wired отметил, что долгие годы дискуссии об ИИ и рабочих местах носили преимущественно гипотетический характер. Теперь же практические тесты наглядно показывают: несмотря на громкие маркетинговые заявления и энтузиазм руководителей, ИИ‑агенты пока не готовы заменить человеческий труд в большинстве экономически значимых задач.

Другие публикации по теме
PlayStation Plus «Экстра» и «Премиум» 18 ноября пополнит GTA 5 и Tomb Raider: Anniversary
PlayStation Plus «Экстра» и «Премиум» 18 ноября пополнит GTA 5 и Tomb Raider: Anniversary
Sony рассказала, какие игры 18 ноября получат подписчики PlayStation Plus на планах «Экстра» и «Премиум»: как и ожидалось, флагманом стала GTA 5. Впрочем, в рамках PS Plus классику раздавали уже дважды.
Вчера в 20:25
152
0
Форум
Как CD-ROM изменил судьбу игровой индустрии: история FromSoftware и PlayStation
Как CD-ROM изменил судьбу игровой индустрии: история FromSoftware и PlayStation
Революционный шаг Sony в 90-х годах, связанный с использованием CD-ROM вместо традиционных картриджей, оказал огромное влияние на развитие игровой индустрии. Именно это решение привлекло внимание многих разработчиков, включая легендарную студию FromSoftware.
Вчера в 19:30
177
0
Форум
Левел-ап: The Game Awards будут транслировать на Amazon Prime
Левел-ап: The Game Awards будут транслировать на Amazon Prime
Церемония The Game Awards 2025 впервые будет транслироваться на Amazon Prime Video, а также на YouTube и Twitch, где зрителей ждут Drops.
Вчера в 17:30
218
2
Форум