24 февраля, 18:19
Исследование Microsoft и Salesforce выявило снижение точности ИИ в многоходовых диалогах


Машиннное обучение | Наука о данных Библиотека
Microsoft Research и Salesforce проанализировали 200 000 диалогов с ИИ и подтвердили то о чём многие догадывались Все модели деградируют в длинных диалогах GPT 4 Claude Gemini Llama без исключений Чем дольше разговор тем выше вероятность ошибок в фактах потери контекста противоречий самому себе галлюцинаций Почему это происходит Контекст переполняется шумом старые сообщения уточнения исправления Модель начинает опираться на неточные или устаревшие части диалога и качество падает Практический вывод Если задача сложная перезапускайте диалог и давайте чистый контекст Один новый чат часто работает лучше чем длинная переписка Главный тренд Контекстное окно растёт но проблема не в размере Будущее за управлением памятью и чистым контекстом а не просто за миллионами токенов Исследование http arxiv org abs 2505 06120
Технологии6 дней назад


AI Insider
Исследование показало ИИ теряется в длинных диалогах и вводит пользователей в заблуждение Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM включая GPT 4 1 Gemini 2 5 Pro Claude 3 7 Sonnet o3 DeepSeek R1 и Llama 4 и выявило серьёзные недостатки в многоходовых диалогах Как оказалось модели успешно справляются с одиночными запросами достигая 90 точности но при последовательных вопросах точность падает примерно до 65 Исследователи объясняют что модели спешат с ответом стараясь завершить решение задачи до того как пользователь закончит пояснение Это приводит к феномену ответного зацепления ИИ использует предыдущий ответ как основу для следующего даже если он был неверен
Технологии10 часов назад


LAMERLAND - overbafer1
Нейронки внезапно оказались предвзятыми MIT выпустили исследование GPT 4 Claude 3 и Llama 3 задавали одни и те же вопросы меняли только анкету пользователя Оказалось что нейронки дают ответы намного хуже россиянам и иранцам юзерам с плохим английским или без высшего образования В 4 раза чаще модели уклоняются от ответа начинают сюсюкать или имитировать ломаный язык Самое жёсткое снижение на пересечении этих факторов То есть тем кому ИИ должен помогать больше всего он помогает хуже Самый прикол что для России и Ирана фиксировались отдельные отказы по темам ядерка анатомия история при том что тем же вопросам другим пользователям отвечали корректно Исследование показывает простую вещь ИИ адаптируется не только под запрос но и под социальный ярлык overlamer1
Технологии4 часа назад

3DNews
Исследование Microsoft Research и Salesforce проанализировало более 200 000 диалогов с передовыми ИИ моделями Выяснилось что все они часто теряются в естественных многоходовых беседах с обменом репликами Для пользователя это выглядит как постепенное оглупление модели Со временем в ответах растут количество галлюцинаций и очевидных ошибок Главный посыл даже самые продвинутые ИИ сегодня плохо удерживают качество и контекст в длинном диалоге исследование искусственныйинтеллект чатбот галлюцинации Подробнее
Технологии4 дня назад


DNS_Club
Чат боты на основе ИИ глупеют при длительных диалогах с людьми исследование Microsoft Совместное исследование Microsoft Research и Salesforce показало что все протестированные популярные ИИ модели глупеют во время длительных многоходовых диалогов В ходе эксперимента аналитики изучили более 200 000 диалогов созданных с помощью чат ботов на основе GPT 4
Технологии3 дня назад


Мой Компьютер
Чат боты глупеют в длинных диалогах Эксперты Microsoft Research и Salesforce изучили более 200 000 диалогов пользователей в популярных чат ботах GPT 4 1 Gemini 2 5 Pro Claude 3 7 Sonnet o3 DeepSeek R1 и Llama 4 и как оказалось умные помощники дают 90 верных ответов на отдельные запросы Однако если общение превращается в полноценный диалог то точность ИИ падает уже до 65 В многоходовых обсуждениях нейросети начинают давать ответы даже не прочитав полностью вопрос пользователя К тому же они часто опираются на свой первый ответ даже если пользователь сказал что он неверен Кроме того новые ответы в диалогах с каждым разом становятся все длиннее ИИ начинают больше предполагать и галлюцинировать В итоге исследователи рекомендуют придерживаться старой истины краткость сестра таланта Чем короче беседа с ИИ тем лучше будет качество ответов Мой Компьютер
Технологии3 дня назад


Технопроходцы
ИИ тупеет общаясь с человеком Исследование Microsoft Research выявило тревожную тенденцию при длительном общении ведущие языковые модели начинают деградировать Анализ более 200 тысяч диалогов показал что точность ответов падает с 90 при одиночных запросах до 65 в многоходовых беседах Главная причина ошибок преждевременная генерация т е нейросети спешат ответить не дочитав сообщение до конца В ходе разговора ошибки накапливаются бот начинает опираться на свои предыдущие даже абсурдные ответы а его сообщения раздуваются на 20 300 что в итоге провоцирует галлюцинации Источник
Технологии7 часов назад
Похожие новости



+4







+3



+5







Т Технологии представили речевую аналитику для офлайн коммуникаций с клиентами
Технологии
6 часов назад


+4
OpenAI и Anthropic анонсируют обновления и новый релиз Deepseek
Технологии
1 час назад



xAI Илона Маска подписала соглашение с Пентагоном о использовании модели Grok
Технологии
10 часов назад


+3
AI-бот Lobstar Wilde случайно перевел 250 000 токенов вместо 4 SOL
Происшествия
1 день назад


+5
Ошибка ИИ ChatGPT 5 3 Codex привела к удалению данных пользователя
Происшествия
1 день назад


Соцсеть ВКонтакте лидирует в проведении губернаторских прямых линий, установлены новые рекорды
Общество
9 часов назад

