24 февраля, 18:19

Исследование Microsoft и Salesforce выявило снижение точности ИИ в многоходовых диалогах

Microsoft Research и Salesforce проанализировали 200 000 диалогов с ИИ и подтвердили то о чём многие догадывались Все модели деградируют в длинных диалогах GPT 4 Claude Gemini Llama без исключений Чем дольше разговор тем выше вероятность ошибок в фактах потери контекста противоречий самому себе галлюцинаций Почему это происходит Контекст переполняется шумом старые сообщения уточнения исправления Модель начинает опираться на неточные или устаревшие части диалога и качество падает Практический вывод Если задача сложная перезапускайте диалог и давайте чистый контекст Один новый чат часто работает лучше чем длинная переписка Главный тренд Контекстное окно растёт но проблема не в размере Будущее за управлением памятью и чистым контекстом а не просто за миллионами токенов Исследование http arxiv org abs 2505 06120
Машиннное обучение | Наука о данных Библиотека
Машиннное обучение | Наука о данных Библиотека
Microsoft Research и Salesforce проанализировали 200 000 диалогов с ИИ и подтвердили то о чём многие догадывались Все модели деградируют в длинных диалогах GPT 4 Claude Gemini Llama без исключений Чем дольше разговор тем выше вероятность ошибок в фактах потери контекста противоречий самому себе галлюцинаций Почему это происходит Контекст переполняется шумом старые сообщения уточнения исправления Модель начинает опираться на неточные или устаревшие части диалога и качество падает Практический вывод Если задача сложная перезапускайте диалог и давайте чистый контекст Один новый чат часто работает лучше чем длинная переписка Главный тренд Контекстное окно растёт но проблема не в размере Будущее за управлением памятью и чистым контекстом а не просто за миллионами токенов Исследование http arxiv org abs 2505 06120
Исследование показало ИИ теряется в длинных диалогах и вводит пользователей в заблуждение Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM включая GPT 4 1 Gemini 2 5 Pro Claude 3 7 Sonnet o3 DeepSeek R1 и Llama 4 и выявило серьёзные недостатки в многоходовых диалогах Как оказалось модели успешно справляются с одиночными запросами достигая 90 точности но при последовательных вопросах точность падает примерно до 65 Исследователи объясняют что модели спешат с ответом стараясь завершить решение задачи до того как пользователь закончит пояснение Это приводит к феномену ответного зацепления ИИ использует предыдущий ответ как основу для следующего даже если он был неверен
AI Insider
AI Insider
Исследование показало ИИ теряется в длинных диалогах и вводит пользователей в заблуждение Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM включая GPT 4 1 Gemini 2 5 Pro Claude 3 7 Sonnet o3 DeepSeek R1 и Llama 4 и выявило серьёзные недостатки в многоходовых диалогах Как оказалось модели успешно справляются с одиночными запросами достигая 90 точности но при последовательных вопросах точность падает примерно до 65 Исследователи объясняют что модели спешат с ответом стараясь завершить решение задачи до того как пользователь закончит пояснение Это приводит к феномену ответного зацепления ИИ использует предыдущий ответ как основу для следующего даже если он был неверен
Нейронки внезапно оказались предвзятыми MIT выпустили исследование GPT 4 Claude 3 и Llama 3 задавали одни и те же вопросы меняли только анкету пользователя Оказалось что нейронки дают ответы намного хуже россиянам и иранцам юзерам с плохим английским или без высшего образования В 4 раза чаще модели уклоняются от ответа начинают сюсюкать или имитировать ломаный язык Самое жёсткое снижение на пересечении этих факторов То есть тем кому ИИ должен помогать больше всего он помогает хуже Самый прикол что для России и Ирана фиксировались отдельные отказы по темам ядерка анатомия история при том что тем же вопросам другим пользователям отвечали корректно Исследование показывает простую вещь ИИ адаптируется не только под запрос но и под социальный ярлык overlamer1
LAMERLAND - overbafer1
LAMERLAND - overbafer1
Нейронки внезапно оказались предвзятыми MIT выпустили исследование GPT 4 Claude 3 и Llama 3 задавали одни и те же вопросы меняли только анкету пользователя Оказалось что нейронки дают ответы намного хуже россиянам и иранцам юзерам с плохим английским или без высшего образования В 4 раза чаще модели уклоняются от ответа начинают сюсюкать или имитировать ломаный язык Самое жёсткое снижение на пересечении этих факторов То есть тем кому ИИ должен помогать больше всего он помогает хуже Самый прикол что для России и Ирана фиксировались отдельные отказы по темам ядерка анатомия история при том что тем же вопросам другим пользователям отвечали корректно Исследование показывает простую вещь ИИ адаптируется не только под запрос но и под социальный ярлык overlamer1
3DNews
3DNews
Исследование Microsoft Research и Salesforce проанализировало более 200 000 диалогов с передовыми ИИ моделями Выяснилось что все они часто теряются в естественных многоходовых беседах с обменом репликами Для пользователя это выглядит как постепенное оглупление модели Со временем в ответах растут количество галлюцинаций и очевидных ошибок Главный посыл даже самые продвинутые ИИ сегодня плохо удерживают качество и контекст в длинном диалоге исследование искусственныйинтеллект чатбот галлюцинации Подробнее
Чат боты на основе ИИ глупеют при длительных диалогах с людьми исследование Microsoft Совместное исследование Microsoft Research и Salesforce показало что все протестированные популярные ИИ модели глупеют во время длительных многоходовых диалогов В ходе эксперимента аналитики изучили более 200 000 диалогов созданных с помощью чат ботов на основе GPT 4
DNS_Club
DNS_Club
Чат боты на основе ИИ глупеют при длительных диалогах с людьми исследование Microsoft Совместное исследование Microsoft Research и Salesforce показало что все протестированные популярные ИИ модели глупеют во время длительных многоходовых диалогов В ходе эксперимента аналитики изучили более 200 000 диалогов созданных с помощью чат ботов на основе GPT 4
Чат боты глупеют в длинных диалогах Эксперты Microsoft Research и Salesforce изучили более 200 000 диалогов пользователей в популярных чат ботах GPT 4 1 Gemini 2 5 Pro Claude 3 7 Sonnet o3 DeepSeek R1 и Llama 4 и как оказалось умные помощники дают 90 верных ответов на отдельные запросы Однако если общение превращается в полноценный диалог то точность ИИ падает уже до 65 В многоходовых обсуждениях нейросети начинают давать ответы даже не прочитав полностью вопрос пользователя К тому же они часто опираются на свой первый ответ даже если пользователь сказал что он неверен Кроме того новые ответы в диалогах с каждым разом становятся все длиннее ИИ начинают больше предполагать и галлюцинировать В итоге исследователи рекомендуют придерживаться старой истины краткость сестра таланта Чем короче беседа с ИИ тем лучше будет качество ответов Мой Компьютер
Мой Компьютер
Мой Компьютер
Чат боты глупеют в длинных диалогах Эксперты Microsoft Research и Salesforce изучили более 200 000 диалогов пользователей в популярных чат ботах GPT 4 1 Gemini 2 5 Pro Claude 3 7 Sonnet o3 DeepSeek R1 и Llama 4 и как оказалось умные помощники дают 90 верных ответов на отдельные запросы Однако если общение превращается в полноценный диалог то точность ИИ падает уже до 65 В многоходовых обсуждениях нейросети начинают давать ответы даже не прочитав полностью вопрос пользователя К тому же они часто опираются на свой первый ответ даже если пользователь сказал что он неверен Кроме того новые ответы в диалогах с каждым разом становятся все длиннее ИИ начинают больше предполагать и галлюцинировать В итоге исследователи рекомендуют придерживаться старой истины краткость сестра таланта Чем короче беседа с ИИ тем лучше будет качество ответов Мой Компьютер
ИИ тупеет общаясь с человеком Исследование Microsoft Research выявило тревожную тенденцию при длительном общении ведущие языковые модели начинают деградировать Анализ более 200 тысяч диалогов показал что точность ответов падает с 90 при одиночных запросах до 65 в многоходовых беседах Главная причина ошибок преждевременная генерация т е нейросети спешат ответить не дочитав сообщение до конца В ходе разговора ошибки накапливаются бот начинает опираться на свои предыдущие даже абсурдные ответы а его сообщения раздуваются на 20 300 что в итоге провоцирует галлюцинации Источник
Технопроходцы
Технопроходцы
ИИ тупеет общаясь с человеком Исследование Microsoft Research выявило тревожную тенденцию при длительном общении ведущие языковые модели начинают деградировать Анализ более 200 тысяч диалогов показал что точность ответов падает с 90 при одиночных запросах до 65 в многоходовых беседах Главная причина ошибок преждевременная генерация т е нейросети спешат ответить не дочитав сообщение до конца В ходе разговора ошибки накапливаются бот начинает опираться на свои предыдущие даже абсурдные ответы а его сообщения раздуваются на 20 300 что в итоге провоцирует галлюцинации Источник