23 августа, 10:09

Сбер представил новую модель GigaAM для улучшения распознавания речи ИИ на конференции Interspeech 2025

Банковское обозрение
Банковское обозрение
Исследователи Сбера повысили точность распознавания речи ИИ моделями Новый метод HuBERT CTC снижает число ошибок распознавания и позволяет моделям обучаться на неразмеченных данных БО новости Подписаться на Б О
База знаний AI
База знаний AI
Утренняя подборка В Сбере создали метод предобучения ИИ моделей HuBERT CTC для повышения точности распознавания русского языка В НИУ ВШЭ разработали подход к оптимизации обучения обратной модели в генеративной потоковой сети GFlowNets Алроса создала ИИ систему для поиска новых месторождений алмазов на территориях со сложным геологическим строением Беркут запустил корпоративную интеграционную платформу Bercut ESB с поддержкой ИИ Она объединяет разрозненные ИТ системы и автоматизирует обмен данными Банк ПСБ внедрил в чат бота Катюша метод RAG для работы с языковыми моделями Рексофт использовал ИИ для оценки ИТ ландшафта оманского банка BankDhofar в рамках работы по его переводу на новую ИТ инфраструктуру Cloud ru и Raft стали стратегическими партнерами в вопросе внедрения ГенИИ в бизнес процессы За рубежом Евросоюз намерен купить американские ИИ чипы на сумму от 40 млрд Китай внедрил в свою космическую станцию Тяньгун чат бота с ИИ Wukong AI для поддержки работы экипажа и обеспечения безопасности Японский SoftBank разработал новую ИИ архитектуру которая использует модель трансформер для обработки беспроводных сигналов Утверждается что пропускная способность 5G увеличивается примерно на 30 Google внедрила в режим AI Mode функцию бронирования столиков в ресторанах с помощью ИИ агента В OpenAI не исключают в будущем продажу мощностей своих дата центров другим компаниям Meta признана экстремистской и запрещена в России заморозила программу найма сотрудников в сфере ИИ NVIDIA вошла в группу инвесторов по финансированию разработчика ПО для беспилотных автомобилей Nuro Аналитика Опрос платформы Учи ру показал что 32 учителей используют ИИ для подготовки к урокам По данным опроса Билайна 55 клиентов оператора задействуют ИИ для поиска авиабилетов 49 для поиска необычных мест и развлечений По данным Google один текстовый запрос к Gemini расходует 0 24 Вт 0 26 мл воды и выбрасывает 0 03 эквивалента CO2 Материалы Колонка в Forbes генерального директора университета Зерокодер Кирилла Пшинника о разрыве между ожиданиями и результатами в сфере ИИ Заметка в Telegram канале HCAI Регулирование ИИ о национальной стратегии Сингапура в области ИИ до 2030 года и других регламентирующих документах Разработчикам Бенчмарк FutureX от исследователей ByteDance китайского Университета Фудань Стэнфордского и Принстонского университетов для проверки ИИ агентов на способность к прогнозированию
База знаний AI
База знаний AI
В Сбере разработали метод предобучения HuBERT CTC для улучшения распознавания русской речи В решении используются целевые переменные из CTC модели Connectionist Temporal Classification распознавания речи Это по словам разработчиков позволяет формировать более семантические представления данных чем в таких моделях как wav2vec2 0 HuBERT и BEST RQ В HuBERT CTC применяется метод Self Supervised Learning благодаря которому модели учатся на массивах неразмеченных данных Также используется динамическое маскирование Self Attention чтобы модель могла работать в онлайн и офлайн режиме без необходимости переобучения Метод предназначен для повышения качества работы с различными языками Утверждается что количество ошибок распознавания русской речи снижается на 50 по сравнению с моделью Whisper Large v3 от OpenAI В Сбере предполагают что решение будет полезным для сервисов автоматического распознавания речи голосовых помощников контакт центров и систем аналитики телефонных звонков Метод также может быть востребован в мультимедийных системах например в чат ботах с аудиопотоком Источник www sberbank ru ru sberpress tekhnologii article newsID c6d589ef d888 430f babf 0b9e01174247 blockID 69b149cd 6db4 45aa ade1 b6920d771b11 regionID 77 lang ru type NEWS Т Технологии в июле выпустили в открытый доступ модель автоматического распознавания речи T one Пайплайн включает предобученную потоковую акустическую CTC модель модуль разделения на фразы и декодер для распознавания в реальном времени
Теперь ИИ гораздо точнее распознаёт русский язык Технический директор GigaChat Федор Минькин рассказал Инженеры Сбера придумали абсолютно новый подход к предобучению моделей который делает ИИ системы распознавания русского языка более продвинутыми В основе усовершенствованный трансформер HuBERT но главное акцент на семантических представлениях а не просто на низкоуровневых акустических признаках Новая схема позволяет обучать модели на огромных массивах неразмеченных аудиозаписей используя уже натренированную нейросеть как учителя Сбер обучил систему на 100 тысяч часов неразмеченного русского аудио и нейросети Conformer Хотите прикол По качеству распознавания русской речи новая модель ошибается на 50 реже чем продвинутый Whisper от OpenAI Ставь лайк российским ИИ разработкам
Neural Brain - Нейросети
Neural Brain - Нейросети
Теперь ИИ гораздо точнее распознаёт русский язык Технический директор GigaChat Федор Минькин рассказал Инженеры Сбера придумали абсолютно новый подход к предобучению моделей который делает ИИ системы распознавания русского языка более продвинутыми В основе усовершенствованный трансформер HuBERT но главное акцент на семантических представлениях а не просто на низкоуровневых акустических признаках Новая схема позволяет обучать модели на огромных массивах неразмеченных аудиозаписей используя уже натренированную нейросеть как учителя Сбер обучил систему на 100 тысяч часов неразмеченного русского аудио и нейросети Conformer Хотите прикол По качеству распознавания русской речи новая модель ошибается на 50 реже чем продвинутый Whisper от OpenAI Ставь лайк российским ИИ разработкам
Исследователи Сбера разработали метод повышения точности автоматического распознавания русского языка ИИ моделями Новый метод получивший название HuBERT CTC позволяет формировать более семантические представления данных Решение предназначено для сервисов автоматического распознавания речи и голосовых помощников контакт центров и систем аналитики телефонных звонков а также может быть востребовано в мультимодальных системах например в чат ботах с аудиопотоком  В университете ИТМО разработали способ увеличения пропускной способности и надежности передачи данных в космосе Специалисты научились создавать набор вихревых пучков лазера где каждый пучок работает как отдельный канал передачи информации Новый метод позволит более надежно кодировать и передавать информацию увеличивая пропускную способность и стабильность оптических каналов связи  Курчатовский институт ведет разработку вакцин против вируса возбудителя лихорадки денге коронавируса болезни Лайма и африканской чумы свиней используя технологии искусственного интеллекта Ученые применяют сочетание методов структурной биологии с данными прогнозирования на основе алгоритмов машинного обучения и искусственного интеллекта для расчета структуры вакцины кандидата Новая методика позволит заменить традиционный этап поискового синтеза что поможет сократить время и ресурсы
Цифровая экономика
Цифровая экономика
Исследователи Сбера разработали метод повышения точности автоматического распознавания русского языка ИИ моделями Новый метод получивший название HuBERT CTC позволяет формировать более семантические представления данных Решение предназначено для сервисов автоматического распознавания речи и голосовых помощников контакт центров и систем аналитики телефонных звонков а также может быть востребовано в мультимодальных системах например в чат ботах с аудиопотоком В университете ИТМО разработали способ увеличения пропускной способности и надежности передачи данных в космосе Специалисты научились создавать набор вихревых пучков лазера где каждый пучок работает как отдельный канал передачи информации Новый метод позволит более надежно кодировать и передавать информацию увеличивая пропускную способность и стабильность оптических каналов связи Курчатовский институт ведет разработку вакцин против вируса возбудителя лихорадки денге коронавируса болезни Лайма и африканской чумы свиней используя технологии искусственного интеллекта Ученые применяют сочетание методов структурной биологии с данными прогнозирования на основе алгоритмов машинного обучения и искусственного интеллекта для расчета структуры вакцины кандидата Новая методика позволит заменить традиционный этап поискового синтеза что поможет сократить время и ресурсы
concertzaal
concertzaal
Сбер придумал как научить ИИ точнее понимать речь на русском языке Новая модель GigaAM обгоняет все открытые модели и работает даже с небольшим количеством размеченных данных В итоге голосовые помощники будут слышать вас чётче колл центры лучше работать а расшифровка звонков и аудио станет точнее Технологию уже признали в мире её представили на главной конференции по речевым технологиям Interspeech 2025 Фёдор Минькин технический директор GigaChat Сбербанка SSL Self supervised learning самостоятельное обучение без дорогостоящей ручной разметки данных подходы лежат в основе всех современных моделей ИИ Когда получается фундаментально их улучшить это приводит к скачку качества по всем фронтам Метод HuBERT CTC позволит нам и всей индустрии ускорить прогресс в области речевых технологий concertzaal
эйай ньюз
эйай ньюз
GigaAM эффективный метод предобучения для распознавания речи Исследователи из Сбера представили новый подход к обучению моделей распознавания речи который показывает хорошие результаты даже без большого объема размеченных данных Работа была принята на Interspeech 2025 главной конференции года в области речевых технологий Как работает Вместо классического метода с акустическими переменными как в wav2vec 2 0 или HuBERT GigaAM использует сигналы из CTC модели CTC Connectionist Temporal Classification это подход который умеет получать текст прямо из аудио не требуя точной разметки где какой звук В отличие от низкоуровневых акустических признаков CTC модель уже понимает семантику речи Self supervised подход работает в два этапа сначала они обучили свою CTC модель на базе Conformer на 50k часах русской речи Потом берут её выходы делают K means кластеризацию для создания меток и учат новую модель угадывать эти метки на замаскированных кусках аудио Используется последний слой CTC модели а не промежуточные так получаются более осмысленные цели Итоговое обучение идёт на 50k часов русской речи а чтобы модель работала и в онлайн режиме и с полным контекстом во время обучения случайно меняют размер чанков от 200мс до 8с Результаты минус 50 WER по сравнению с Whisper large v3 лучшая точность среди open source решений для русского одна модель для онлайн и оффлайн режимов масштабируется по данным и параметрам работает даже на 0 1 размеченных данных На мой взгляд это заметно облегчает одну из главных болей сферы зависимость от размеченных датасетов Для русского языка это особенно критично собрать хороший корпус долго дорого и часто невозможно А тут self supervised подход который работает даже в условиях дефицита данных Практически это означает более доступную разработку голосовых интерфейсов помощников систем распознавания звонков ASR в чат ботах Модель и код выложены в открытый доступ можно адаптировать под другие языки и задачи Статья Код ai newz