23 августа, 10:09

Сбер представил новую модель GigaAM для улучшения распознавания речи ИИ на конференции Interspeech 2025

Подготовлено редакцией Tek.fmДайджест Telegram-каналов

Исследователи Сбера повысили точность распознавания речи ИИ моделями Новый метод HuBERT CTC снижает число ошибок распознавания и позволяет моделям обучаться на неразмеченных данных БО новости Подписаться на Б О

Технологии264 дня назад

База знаний AI

Утренняя подборка В Сбере создали метод предобучения ИИ моделей HuBERT CTC для повышения точности распознавания русского языка В НИУ ВШЭ разработали подход к оптимизации обучения обратной модели в генеративной потоковой сети GFlowNets Алроса создала ИИ систему для поиска новых месторождений алмазов на территориях со сложным геологическим строением Беркут запустил корпоративную интеграционную платформу Bercut ESB с поддержкой ИИ Она объединяет разрозненные ИТ системы и автоматизирует обмен данными Банк ПСБ внедрил в чат бота Катюша метод RAG для работы с языковыми моделями Рексофт использовал ИИ для оценки ИТ ландшафта оманского банка BankDhofar в рамках работы по его переводу на новую ИТ инфраструктуру Cloud ru и Raft стали стратегическими партнерами в вопросе внедрения ГенИИ в бизнес процессы За рубежом Евросоюз намерен купить американские ИИ чипы на сумму от 40 млрд Китай внедрил в свою космическую станцию Тяньгун чат бота с ИИ Wukong AI для поддержки работы экипажа и обеспечения безопасности Японский SoftBank разработал новую ИИ архитектуру которая использует модель трансформер для обработки беспроводных сигналов Утверждается что пропускная способность 5G увеличивается примерно на 30 Google внедрила в режим AI Mode функцию бронирования столиков в ресторанах с помощью ИИ агента В OpenAI не исключают в будущем продажу мощностей своих дата центров другим компаниям Meta признана экстремистской и запрещена в России заморозила программу найма сотрудников в сфере ИИ NVIDIA вошла в группу инвесторов по финансированию разработчика ПО для беспилотных автомобилей Nuro Аналитика Опрос платформы Учи ру показал что 32 учителей используют ИИ для подготовки к урокам По данным опроса Билайна 55 клиентов оператора задействуют ИИ для поиска авиабилетов 49 для поиска необычных мест и развлечений По данным Google один текстовый запрос к Gemini расходует 0 24 Вт 0 26 мл воды и выбрасывает 0 03 эквивалента CO2 Материалы Колонка в Forbes генерального директора университета Зерокодер Кирилла Пшинника о разрыве между ожиданиями и результатами в сфере ИИ Заметка в Telegram канале HCAI Регулирование ИИ о национальной стратегии Сингапура в области ИИ до 2030 года и других регламентирующих документах Разработчикам Бенчмарк FutureX от исследователей ByteDance китайского Университета Фудань Стэнфордского и Принстонского университетов для проверки ИИ агентов на способность к прогнозированию

Технологии263 дня назад

База знаний AI

В Сбере разработали метод предобучения HuBERT CTC для улучшения распознавания русской речи В решении используются целевые переменные из CTC модели Connectionist Temporal Classification распознавания речи Это по словам разработчиков позволяет формировать более семантические представления данных чем в таких моделях как wav2vec2 0 HuBERT и BEST RQ В HuBERT CTC применяется метод Self Supervised Learning благодаря которому модели учатся на массивах неразмеченных данных Также используется динамическое маскирование Self Attention чтобы модель могла работать в онлайн и офлайн режиме без необходимости переобучения Метод предназначен для повышения качества работы с различными языками Утверждается что количество ошибок распознавания русской речи снижается на 50 по сравнению с моделью Whisper Large v3 от OpenAI В Сбере предполагают что решение будет полезным для сервисов автоматического распознавания речи голосовых помощников контакт центров и систем аналитики телефонных звонков Метод также может быть востребован в мультимедийных системах например в чат ботах с аудиопотоком Источник www sberbank ru ru sberpress tekhnologii article newsID c6d589ef d888 430f babf 0b9e01174247 blockID 69b149cd 6db4 45aa ade1 b6920d771b11 regionID 77 lang ru type NEWS Т Технологии в июле выпустили в открытый доступ модель автоматического распознавания речи T one Пайплайн включает предобученную потоковую акустическую CTC модель модуль разделения на фразы и декодер для распознавания в реальном времени

Технологии263 дня назад

Neural Brain - Нейросети

Теперь ИИ гораздо точнее распознаёт русский язык Технический директор GigaChat Федор Минькин рассказал Инженеры Сбера придумали абсолютно новый подход к предобучению моделей который делает ИИ системы распознавания русского языка более продвинутыми В основе усовершенствованный трансформер HuBERT но главное акцент на семантических представлениях а не просто на низкоуровневых акустических признаках Новая схема позволяет обучать модели на огромных массивах неразмеченных аудиозаписей используя уже натренированную нейросеть как учителя Сбер обучил систему на 100 тысяч часов неразмеченного русского аудио и нейросети Conformer Хотите прикол По качеству распознавания русской речи новая модель ошибается на 50 реже чем продвинутый Whisper от OpenAI Ставь лайк российским ИИ разработкам

Технологии262 дня назад

Цифровая экономика

Исследователи Сбера разработали метод повышения точности автоматического распознавания русского языка ИИ моделями Новый метод получивший название HuBERT CTC позволяет формировать более семантические представления данных Решение предназначено для сервисов автоматического распознавания речи и голосовых помощников контакт центров и систем аналитики телефонных звонков а также может быть востребовано в мультимодальных системах например в чат ботах с аудиопотоком В университете ИТМО разработали способ увеличения пропускной способности и надежности передачи данных в космосе Специалисты научились создавать набор вихревых пучков лазера где каждый пучок работает как отдельный канал передачи информации Новый метод позволит более надежно кодировать и передавать информацию увеличивая пропускную способность и стабильность оптических каналов связи Курчатовский институт ведет разработку вакцин против вируса возбудителя лихорадки денге коронавируса болезни Лайма и африканской чумы свиней используя технологии искусственного интеллекта Ученые применяют сочетание методов структурной биологии с данными прогнозирования на основе алгоритмов машинного обучения и искусственного интеллекта для расчета структуры вакцины кандидата Новая методика позволит заменить традиционный этап поискового синтеза что поможет сократить время и ресурсы

Технологии264 дня назад

concertzaal

Сбер придумал как научить ИИ точнее понимать речь на русском языке Новая модель GigaAM обгоняет все открытые модели и работает даже с небольшим количеством размеченных данных В итоге голосовые помощники будут слышать вас чётче колл центры лучше работать а расшифровка звонков и аудио станет точнее Технологию уже признали в мире её представили на главной конференции по речевым технологиям Interspeech 2025 Фёдор Минькин технический директор GigaChat Сбербанка SSL Self supervised learning самостоятельное обучение без дорогостоящей ручной разметки данных подходы лежат в основе всех современных моделей ИИ Когда получается фундаментально их улучшить это приводит к скачку качества по всем фронтам Метод HuBERT CTC позволит нам и всей индустрии ускорить прогресс в области речевых технологий concertzaal

Технологии263 дня назад

эйай ньюз

GigaAM эффективный метод предобучения для распознавания речи Исследователи из Сбера представили новый подход к обучению моделей распознавания речи который показывает хорошие результаты даже без большого объема размеченных данных Работа была принята на Interspeech 2025 главной конференции года в области речевых технологий Как работает Вместо классического метода с акустическими переменными как в wav2vec 2 0 или HuBERT GigaAM использует сигналы из CTC модели CTC Connectionist Temporal Classification это подход который умеет получать текст прямо из аудио не требуя точной разметки где какой звук В отличие от низкоуровневых акустических признаков CTC модель уже понимает семантику речи Self supervised подход работает в два этапа сначала они обучили свою CTC модель на базе Conformer на 50k часах русской речи Потом берут её выходы делают K means кластеризацию для создания меток и учат новую модель угадывать эти метки на замаскированных кусках аудио Используется последний слой CTC модели а не промежуточные так получаются более осмысленные цели Итоговое обучение идёт на 50k часов русской речи а чтобы модель работала и в онлайн режиме и с полным контекстом во время обучения случайно меняют размер чанков от 200мс до 8с Результаты минус 50 WER по сравнению с Whisper large v3 лучшая точность среди open source решений для русского одна модель для онлайн и оффлайн режимов масштабируется по данным и параметрам работает даже на 0 1 размеченных данных На мой взгляд это заметно облегчает одну из главных болей сферы зависимость от размеченных датасетов Для русского языка это особенно критично собрать хороший корпус долго дорого и часто невозможно А тут self supervised подход который работает даже в условиях дефицита данных Практически это означает более доступную разработку голосовых интерфейсов помощников систем распознавания звонков ASR в чат ботах Модель и код выложены в открытый доступ можно адаптировать под другие языки и задачи Статья Код ai newz

Технологии263 дня назад

OMG GPT: Midjourney, DeepSeek, IT

Сбер представил HuBERT CTC для точного распознавания русской речи Инженеры Сбера разработали метод предобучения HuBERT CTC который снижает ошибки распознавания русской речи на 50 по сравнению с Whisper Large v3 от OpenAI Используются целевые переменные из CTC модели что даёт более семантические представления данных чем wav2vec2 0 HuBERT и BEST RQ Применяется Self Supervised Learning позволяющий обучаться на неразмеченных массивах речи Встроено динамическое маскирование Self Attention модель работает и онлайн и офлайн без переобучения Решение рассчитано на автоматическое распознавание речи голосовых ассистентов контакт центры и аналитику звонков а также может использоваться в мультимедийных системах и чат ботах с аудиопотоком Фактически это шаг к более надёжным и гибким русскоязычным голосовым сервисам

Технологии261 день назад