21 ноября, 13:22
Сбер представляет GigaAM v3: Революция в распознавании речи с использованием 700 000 часов аудио


Милорд
GigaAM v3 Сбер выводит ASR на орбиту Сбер представил GigaAM v3 это большой скачок в их стеке ASR Случился кардинально новый подход к пониманию реальной живой русской речи Вместо прежних 50 тысяч часов модель обучалась на колоссальных 700 000 Весь корпус прошел ювелирную обработку через GigaChat Max Audio который восстановил идеальную пунктуацию и нормализацию во всех данных Модели научились понимать то что раньше было самым сложным Спонтанную быструю речь Сложные диалоги в колл центрах Речь с особенностями Именно на этих проблемных доменах улучшения просто ошеломительные ошибка распознавания снижена на 30 40 Главная новинка линейка e2e end to end моделей По качеству это решение значительно превосходит даже продвинутые методы вроде Whisper Forced Decoding Модели уже доступны для разработчиков Исходники и демо GitHub HuggingFace GitVerse Бот для теста smartspeech sber bot Милорд
Технологии23 часа назад


Машиннное обучение | Наука о данных Библиотека
ГигаЧат представил обновлённое семейство GigaAM v3 Giga Acoustic Model это класс open source моделей для обработки речи и эмоций В третьей версии опубликовали базовый аудиоэнкодер GigaAM v3 улучшенные CTC и RNNT модели а также E2E распознавание с поддержкой пунктуации и нормализации Масштаб предобучения значительно вырос с 50 до 700 тысяч часов аудио на русском языке Появились новые домены в обучении ASR от колл центров до разговорной речи Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio Линейка CTC RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии Что по метрикам Открытые датасеты Golos OpenSTT Common Voice LibriSpeech паритет с GigaAM v2 Новые домены WER v2 RNNT v3 RNNT речь с особенностями 27 19 колл центр 13 10 спонтанная речь 10 3 7 Пунктуация v3 e2e RNNT vs reference Whisper Forced Decoding F1 score по запятой 84 vs 62 остальные знаки паритет Side by Side Gemini 2 5 Pro as a judge v3 e2e RNNT vs Whisper large v3 70 30 колл центр 64 36 Common Voice Больше про язык речь и искусственный интеллект в gigadev channel Подписывайтесь на канал чтобы не пропустить всё самое интересное
Технологии4 часа назад
Похожие новости







+1







+99






Сбер анонсирует открытие флагманских ИИ моделей GigaChat в рамках крупнейшего open source проекта Европы
Технологии
8 часов назад



GigaChat представляет универсального ИИ помощника с новыми функциями
Технологии
5 часов назад


+1
Cloud ru запускает Evolution AI Factory для коммерческого использования AI решений
Технологии
23 часа назад



Президент ознакомился с инновациями в сфере ИИ от российских компаний
Технологии
1 день назад


+99
Институт AIRI представил GigaEvo для автоматизации исследований в ИИ на конференции AI Journey
Технологии
1 час назад


Meta представляет новый генератор 3D моделей SAM 3D для игр и анимации
Технологии
23 часа назад
