9 февраля, 14:04

Российские ученые разработали новый алгоритм для распознавания эмоций в голосе

Северный Телеграф
Северный Телеграф
Улучшено распознавание эмоций по голосу с помощью ИИ. Новый алгоритм, получивший название CA-SER, был разработан группой исследователей из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ
Российские ученые разработали новую модель ИИ, способную распознавать эмоции в человеческой речи с высоким уровнем точности.   Разработка исследователей значительным образом превзошла почти все существующие аналоги при работе с самыми сложными формами контента, сообщила пресс-служба Сбера.      / Наука
ТАСС / Наука
ТАСС / Наука
Российские ученые разработали новую модель ИИ, способную распознавать эмоции в человеческой речи с высоким уровнем точности. Разработка исследователей значительным образом превзошла почти все существующие аналоги при работе с самыми сложными формами контента, сообщила пресс-служба Сбера. / Наука
Кролик с Неглинной
Кролик с Неглинной
Российские ученые разработали новую модель искусственного интеллекта, способную распознавать эмоции в человеческой речи с высоким уровнем точности. Новый алгоритм, получивший название CA-SER, был разработан группой исследователей из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ.
Банковская Правда
Банковская Правда
ИИ научился лучше распознавать эмоции по голосу • Российские ученые из лаборатории искусственного интеллекта Сбера, Института AIRI и МФТИ разработали новую модель искусственного интеллекта CA-SER, которая с высокой точностью определяет эмоции в человеческой речи. • Алгоритм, основанный на парадигме самообучения SSL, объединяет несколько подходов для анализа устной речи, учитывая как общие характеристики, так и детали, такие как громкость и тональность голоса. Модель уже протестирована на базе данных IEMOCAP, содержащей аудиозаписи, видеоклипы и тексты, связанные с различными эмоциями. Результаты показали, что CA-SER превзошел почти все существующие аналоги и оказался сопоставим с нейросетью HuBERT от Meta признана экстремистской в РФ . • Исходный код модели доступен для всех, что позволяет ученым улучшать ее универсальность и применять в голосовых помощниках, контакт-центрах и других системах, где важно точное распознавание эмоций, отмечают в Сбере.
Группа исследователей из лаборатории ИИ Сбербанка, Института AIRI и МФТИ разработали ИИ, способный распознавать эмоции в человеческой речи с высоким уровнем точности  Новый алгоритм, получивший название CA-SER, построен на базе парадигмы самообучения  SSL  и объединяет в себе сразу несколько подходов, которые сегодня активно используются при анализе устной речи и для распознавания эмоций.  Система сначала выделяет ключевые особенности речи, а затем дополняет их данными о громкости и тональности звуков, учитывая восприятие человеком разных частей аудиоспектра. Эти типы информации объединяются специальным механизмом, что улучшает точность определения эмоций.   Исходный код модели доступен в открытом виде, поэтому другие ученые могут использовать инструмент в своих исследованиях, чтобы провести дополнительные эксперименты для проверки работы модели с другими языками и датасетами, повысить ее универсальность и применимость в реальных условиях. Так, модель можно обучать на русскоязычных эмоциональных корпусах и затем применять в голосовых помощниках и контакт-центрах — говорится в сообщении.  Результаты показали, что российская разработка превосходит большинство аналогов и сравнима с трансформером HuBERT от Meta  признана экстремистской и запрещена в РФ . Ученые рассчитывают, что это поможет улучшить работу голосовых помощников и других систем, распознающих эмоции.    Тест Тьюринга. События в сфере ИИ. Подписаться  #новостьдня
Тест Тьюринга
Тест Тьюринга
Группа исследователей из лаборатории ИИ Сбербанка, Института AIRI и МФТИ разработали ИИ, способный распознавать эмоции в человеческой речи с высоким уровнем точности Новый алгоритм, получивший название CA-SER, построен на базе парадигмы самообучения SSL и объединяет в себе сразу несколько подходов, которые сегодня активно используются при анализе устной речи и для распознавания эмоций. Система сначала выделяет ключевые особенности речи, а затем дополняет их данными о громкости и тональности звуков, учитывая восприятие человеком разных частей аудиоспектра. Эти типы информации объединяются специальным механизмом, что улучшает точность определения эмоций. Исходный код модели доступен в открытом виде, поэтому другие ученые могут использовать инструмент в своих исследованиях, чтобы провести дополнительные эксперименты для проверки работы модели с другими языками и датасетами, повысить ее универсальность и применимость в реальных условиях. Так, модель можно обучать на русскоязычных эмоциональных корпусах и затем применять в голосовых помощниках и контакт-центрах — говорится в сообщении. Результаты показали, что российская разработка превосходит большинство аналогов и сравнима с трансформером HuBERT от Meta признана экстремистской и запрещена в РФ . Ученые рассчитывают, что это поможет улучшить работу голосовых помощников и других систем, распознающих эмоции. Тест Тьюринга. События в сфере ИИ. Подписаться #новостьдня
Исследователи из России улучшили распознавание эмоций по голосу с помощью ИИ    Исследователи лаборатории искусственного интеллекта «Сбербанка», Института AIRI и МФТИ представили ИИ-модель Cross-Attention Feature Fusion for Speech Emotion Recognition  CA-SER  для распознавания эмоций человеческой речи. Модель при проверке при помощи образцов из базы данных IEMOCAP достигла высокой взвешенной точности 74,6%.    CA-SER позволяет эффективно комбинировать высокоуровневые представления от SSL-моделей  Self-Supervised Learning, самообучающихся  с низкоуровневыми спектральными признаками. Сначала система детектирует важные характеристики речи, а затем добавляет к ним данные о звуках голоса  например, их громкость и тональность . Эти два типа информации объединяются с помощью специального механизма, что помогает точнее определять эмоции говорящего.    Исходный код модели есть в открытом доступе, что позволит другим ученым использовать инструмент в своих исследованиях, чтобы провести дополнительные эксперименты для проверки работы модели с другими языками и датасетами.
CDO2Day
CDO2Day
Исследователи из России улучшили распознавание эмоций по голосу с помощью ИИ Исследователи лаборатории искусственного интеллекта «Сбербанка», Института AIRI и МФТИ представили ИИ-модель Cross-Attention Feature Fusion for Speech Emotion Recognition CA-SER для распознавания эмоций человеческой речи. Модель при проверке при помощи образцов из базы данных IEMOCAP достигла высокой взвешенной точности 74,6%. CA-SER позволяет эффективно комбинировать высокоуровневые представления от SSL-моделей Self-Supervised Learning, самообучающихся с низкоуровневыми спектральными признаками. Сначала система детектирует важные характеристики речи, а затем добавляет к ним данные о звуках голоса например, их громкость и тональность . Эти два типа информации объединяются с помощью специального механизма, что помогает точнее определять эмоции говорящего. Исходный код модели есть в открытом доступе, что позволит другим ученым использовать инструмент в своих исследованиях, чтобы провести дополнительные эксперименты для проверки работы модели с другими языками и датасетами.
Loading indicator gif
Хватит искать: обнаружен лучший подарок 2025 года!
₿tc-card.com
₿tc-card.com
Хватит искать: обнаружен лучший подарок 2025 года!
Российские учёные создали модель определения эмоций в речи    В своей разработке CA-SER исследователи из AI-лаборатории Сбера, института AIRI и МФТИ объединили самообучение с использованием предобученной wav2vec 2.0 и акустических признаков  MFCC  через механизм перекрёстного внимания.   К характеристикам речи добавляются данные о голосе, что и помогает выявлять эмоции    Ещё подробности: ⏱ работает в режиме реального времени   открыта для использования, можно адаптировать для голосовых ассистентов, call-центров, здравоохранения    CA-SER показала точность 74,6% на сложном датасете IEMOCAP, опередив многие аналоги  ‍  статью взяли в сборник крутой европейской конференции ECAI 2024  Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Душа Питона
Душа Питона
Российские учёные создали модель определения эмоций в речи В своей разработке CA-SER исследователи из AI-лаборатории Сбера, института AIRI и МФТИ объединили самообучение с использованием предобученной wav2vec 2.0 и акустических признаков MFCC через механизм перекрёстного внимания. К характеристикам речи добавляются данные о голосе, что и помогает выявлять эмоции Ещё подробности: ⏱ работает в режиме реального времени открыта для использования, можно адаптировать для голосовых ассистентов, call-центров, здравоохранения CA-SER показала точность 74,6% на сложном датасете IEMOCAP, опередив многие аналоги ‍ статью взяли в сборник крутой европейской конференции ECAI 2024 Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
В России совершен прорыв в развитии искусственного интеллекта     Исследователи лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ представили AI-модель Cross-Attention Feature Fusion for Speech Emotion Recognition  CA-SER  для распознавания эмоций человеческой речи. Об этом сообщили в пресс-службе Сбера.  ↗  Прислать новость   Подписаться
Орловские новости
Орловские новости
В России совершен прорыв в развитии искусственного интеллекта Исследователи лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ представили AI-модель Cross-Attention Feature Fusion for Speech Emotion Recognition CA-SER для распознавания эмоций человеческой речи. Об этом сообщили в пресс-службе Сбера. ↗ Прислать новость Подписаться
Цифровая экономика  Telegram    Группа исследователей из лаборатории искусственного интеллекта «Сбера», Института AIRI и МФТИ разработали «самообучающуюся» ИИ-модель CA-SER, способную распознавать эмоции в человеческой речи с высоким уровнем точности. Модель детектирует важные характеристики речи, после чего добавляет к ним данные о звуках голоса, в том числе их громкость и тональность, с учетом того, какую часть аудиоспектра лучше всего воспринимает человек. Модуль учитывает оба эти типа информации, что помогает точнее определять эмоции говорящего человека.   В Института инновационного развития Самарского государственного медицинского университета  СамГМУ  разработали отечественные VR-симуляторы для подготовки будущих медработников. Тренажеры позволяют отрабатывать медицинские навыки, такие как, например,оведение исследования слуха и постановка диагноза, оказание экстренной помощии анафилактическом шоке, гипогликемии, судорожном синдроме, оказание неотложной помощиииступном...  Перейти на оригинальный пост
Сила Народа
Сила Народа
Цифровая экономика Telegram Группа исследователей из лаборатории искусственного интеллекта «Сбера», Института AIRI и МФТИ разработали «самообучающуюся» ИИ-модель CA-SER, способную распознавать эмоции в человеческой речи с высоким уровнем точности. Модель детектирует важные характеристики речи, после чего добавляет к ним данные о звуках голоса, в том числе их громкость и тональность, с учетом того, какую часть аудиоспектра лучше всего воспринимает человек. Модуль учитывает оба эти типа информации, что помогает точнее определять эмоции говорящего человека. В Института инновационного развития Самарского государственного медицинского университета СамГМУ разработали отечественные VR-симуляторы для подготовки будущих медработников. Тренажеры позволяют отрабатывать медицинские навыки, такие как, например,оведение исследования слуха и постановка диагноза, оказание экстренной помощии анафилактическом шоке, гипогликемии, судорожном синдроме, оказание неотложной помощиииступном... Перейти на оригинальный пост
Клиентский опыт и качество
Клиентский опыт и качество
Новость: Учёные улучшили распознавание эмоций по голосу с помощью ИИ Исследователи из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ разработали AI-модель Cross-Attention Feature Fusion for Speech Emotion Recognition CA-SER для распознавания эмоций в речи. Она продемонстрировала высокую взвешенную точность 74,6% на одном из самых сложных датасетов для данной задачи - IEMOCAP Interactive Emotional Dyadic Motion Capture . По качеству работы модель превосходит большинство существующих методов. Сначала система выделяет ключевые характеристики речи, а затем дополняет их данными о голосовых особенностях громкость и тональность . Эти два типа информации объединяются с помощью специального механизма, который эффективно сочетает общие речевые признаки с детальными акустическими нюансами. Такой подход позволяет точнее распознавать эмоции говорящего. Этот инструмент решает проблему несоответствия между чистыми аудиоданными, на которых обучаются SSL-модели, и эмоциональными датасетами, содержащими разнообразные интонации и уровни интенсивности. Он находит применение в системах автоматического взаимодействия с человеком, таких как голосовые чат-боты, кол-центры, а также в цифровых сервисах мониторинга психологического состояния и других областях, где важно анализировать эмоции в режиме реального времени. Исходный код модели открыт, что позволяет исследователям и разработчикам проводить дополнительные эксперименты, тестировать её на разных языках и датасетах, а также повышать её универсальность. Модель можно обучать на русскоязычных эмоциональных корпусах и использовать в голосовых помощниках и контакт-центрах. Источник
Loading indicator gif