Исследование Microsoft и Salesforce выявило снижение точности ИИ в многоходовых диалогах

Машиннное обучение | Наука о данных Библиотека

Microsoft Research и Salesforce проанализировали 200 000 диалогов с ИИ и подтвердили то о чём многие догадывались Все модели деградируют в длинных диалогах GPT 4 Claude Gemini Llama без исключений Чем дольше разговор тем выше вероятность ошибок в фактах потери контекста противоречий самому себе галлюцинаций Почему это происходит Контекст переполняется шумом старые сообщения уточнения исправления Модель начинает опираться на неточные или устаревшие части диалога и качество падает Практический вывод Если задача сложная перезапускайте диалог и давайте чистый контекст Один новый чат часто работает лучше чем длинная переписка Главный тренд Контекстное окно растёт но проблема не в размере Будущее за управлением памятью и чистым контекстом а не просто за миллионами токенов Исследование http arxiv org abs 2505 06120

Технологии82 дня назад

AI Insider

Исследование показало ИИ теряется в длинных диалогах и вводит пользователей в заблуждение Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM включая GPT 4 1 Gemini 2 5 Pro Claude 3 7 Sonnet o3 DeepSeek R1 и Llama 4 и выявило серьёзные недостатки в многоходовых диалогах Как оказалось модели успешно справляются с одиночными запросами достигая 90 точности но при последовательных вопросах точность падает примерно до 65 Исследователи объясняют что модели спешат с ответом стараясь завершить решение задачи до того как пользователь закончит пояснение Это приводит к феномену ответного зацепления ИИ использует предыдущий ответ как основу для следующего даже если он был неверен

Технологии76 дней назад

LAMERLAND - overbafer1

Нейронки внезапно оказались предвзятыми MIT выпустили исследование GPT 4 Claude 3 и Llama 3 задавали одни и те же вопросы меняли только анкету пользователя Оказалось что нейронки дают ответы намного хуже россиянам и иранцам юзерам с плохим английским или без высшего образования В 4 раза чаще модели уклоняются от ответа начинают сюсюкать или имитировать ломаный язык Самое жёсткое снижение на пересечении этих факторов То есть тем кому ИИ должен помогать больше всего он помогает хуже Самый прикол что для России и Ирана фиксировались отдельные отказы по темам ядерка анатомия история при том что тем же вопросам другим пользователям отвечали корректно Исследование показывает простую вещь ИИ адаптируется не только под запрос но и под социальный ярлык overlamer1

Технологии76 дней назад

3DNews

Исследование Microsoft Research и Salesforce проанализировало более 200 000 диалогов с передовыми ИИ моделями Выяснилось что все они часто теряются в естественных многоходовых беседах с обменом репликами Для пользователя это выглядит как постепенное оглупление модели Со временем в ответах растут количество галлюцинаций и очевидных ошибок Главный посыл даже самые продвинутые ИИ сегодня плохо удерживают качество и контекст в длинном диалоге исследование искусственныйинтеллект чатбот галлюцинации Подробнее

Технологии80 дней назад

DNS_Club

Чат боты на основе ИИ глупеют при длительных диалогах с людьми исследование Microsoft Совместное исследование Microsoft Research и Salesforce показало что все протестированные популярные ИИ модели глупеют во время длительных многоходовых диалогов В ходе эксперимента аналитики изучили более 200 000 диалогов созданных с помощью чат ботов на основе GPT 4

Технологии79 дней назад

Мой Компьютер

Чат боты глупеют в длинных диалогах Эксперты Microsoft Research и Salesforce изучили более 200 000 диалогов пользователей в популярных чат ботах GPT 4 1 Gemini 2 5 Pro Claude 3 7 Sonnet o3 DeepSeek R1 и Llama 4 и как оказалось умные помощники дают 90 верных ответов на отдельные запросы Однако если общение превращается в полноценный диалог то точность ИИ падает уже до 65 В многоходовых обсуждениях нейросети начинают давать ответы даже не прочитав полностью вопрос пользователя К тому же они часто опираются на свой первый ответ даже если пользователь сказал что он неверен Кроме того новые ответы в диалогах с каждым разом становятся все длиннее ИИ начинают больше предполагать и галлюцинировать В итоге исследователи рекомендуют придерживаться старой истины краткость сестра таланта Чем короче беседа с ИИ тем лучше будет качество ответов Мой Компьютер

Технологии79 дней назад

Технопроходцы

ИИ тупеет общаясь с человеком Исследование Microsoft Research выявило тревожную тенденцию при длительном общении ведущие языковые модели начинают деградировать Анализ более 200 тысяч диалогов показал что точность ответов падает с 90 при одиночных запросах до 65 в многоходовых беседах Главная причина ошибок преждевременная генерация т е нейросети спешат ответить не дочитав сообщение до конца В ходе разговора ошибки накапливаются бот начинает опираться на свои предыдущие даже абсурдные ответы а его сообщения раздуваются на 20 300 что в итоге провоцирует галлюцинации Источник

Технологии76 дней назад

Исследование Microsoft и Salesforce выявило снижение точности ИИ в многоходовых диалогах

Источники

Опрос Gartner: Внедрение ИИ не привело к росту рентабельности у 80 компаний

Исследование: Люди с аутизмом выбирают друзей с похожими психическими особенностями

Мошенники используют поддельные CAPTCHA для кражи данных пользователей

Минздрав РФ внедряет ИИ для снижения нагрузки на медиков

Дуров анонсирует обновление опросов в Telegram для повышения достоверности результатов

Павел Дуров поддерживает Илона Маска и X в борьбе с французским расследованием