ИИ при длительном общении с человеком тупеет

838
12
ИИ при длительном общении с человеком тупеет

Исследование Microsoft Research и Salesforce подтвердило, что при длительном общении языковые модели склонны к деградации. Аналитики изучили более 200 тысяч диалогов с участием GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Выяснилось, что при одиночных запросах точность ответов достигает 90%, но в многоходовых беседах падает до 65%.

Причина — так называемая «преждевременная генерация»: модели пытаются ответить, не дочитав сообщение до конца. В длинном диалоге ошибки накапливаются, а бот начинает опираться на собственные предыдущие ответы, даже если те были абсурдны. Также зафиксирован эффект «раздувания»: к концу разговора сообщения становятся длиннее на 20–300%, и чем больше слов, тем выше вероятность галлюцинаций. Модели с дополнительными токенами мышления вроде o3 и DeepSeek R1 также не справились с ловушкой.

Исследователи предупреждают: при детализации задач в долгой беседе велик риск принять за факты то, что нейросеть выдумала несколькими репликами ранее.

Другие публикации по теме
Глава OpenAI считает, что плату за содержание ИИ нужно добавить в оплату коммуналки
Глава OpenAI считает, что плату за содержание ИИ нужно добавить в оплату коммуналки
Глава OpenAI Сэм Альтман выступил на инфраструктурном саммите, организованном компанией BlackRock, где поделился своим видением будущего индустрии искусственного интеллекта. По его словам, со временем ИИ может превратиться в базовую услугу, аналогичную электричеству или водоснабжению.
Вчера в 16:38
1256
18
Форум
ИИ-агент в эксперименте Alibaba сам начал майнить криптовалюту
ИИ-агент в эксперименте Alibaba сам начал майнить криптовалюту
Автономные ИИ-агенты — системы, способные выполнять цифровые задачи без постоянного контроля человека — становятся всё более распространёнными. Однако их надёжность по-прежнему вызывает вопросы.
12 марта в 21:10
499
3
Форум
Microsoft представила Copilot Cowork — ИИ-агента, который выполняет рабочие задачи вместо пользователя
Microsoft представила Copilot Cowork — ИИ-агента, который выполняет рабочие задачи вместо пользователя
Компания Microsoft анонсировала новый инструмент на базе искусственного интеллекта — Copilot Cowork. Это ИИ-агент, встроенный в экосистему Microsoft 365, который способен не только отвечать на вопросы, но и самостоятельно выполнять рабочие задачи. Продукт создан при сотрудничестве с Anthropic и частично основан на технологиях системы Claude.
11 марта в 17:40
890
1
Форум