21 ноября, 13:22

Сбер представляет GigaAM v3: Революция в распознавании речи с использованием 700 000 часов аудио

GigaAM v3 Сбер выводит ASR на орбиту Сбер представил GigaAM v3 это большой скачок в их стеке ASR Случился кардинально новый подход к пониманию реальной живой русской речи Вместо прежних 50 тысяч часов модель обучалась на колоссальных 700 000 Весь корпус прошел ювелирную обработку через GigaChat Max Audio который восстановил идеальную пунктуацию и нормализацию во всех данных Модели научились понимать то что раньше было самым сложным Спонтанную быструю речь Сложные диалоги в колл центрах Речь с особенностями Именно на этих проблемных доменах улучшения просто ошеломительные ошибка распознавания снижена на 30 40 Главная новинка линейка e2e end to end моделей По качеству это решение значительно превосходит даже продвинутые методы вроде Whisper Forced Decoding Модели уже доступны для разработчиков Исходники и демо GitHub HuggingFace GitVerse Бот для теста smartspeech sber bot Милорд
Милорд
Милорд
GigaAM v3 Сбер выводит ASR на орбиту Сбер представил GigaAM v3 это большой скачок в их стеке ASR Случился кардинально новый подход к пониманию реальной живой русской речи Вместо прежних 50 тысяч часов модель обучалась на колоссальных 700 000 Весь корпус прошел ювелирную обработку через GigaChat Max Audio который восстановил идеальную пунктуацию и нормализацию во всех данных Модели научились понимать то что раньше было самым сложным Спонтанную быструю речь Сложные диалоги в колл центрах Речь с особенностями Именно на этих проблемных доменах улучшения просто ошеломительные ошибка распознавания снижена на 30 40 Главная новинка линейка e2e end to end моделей По качеству это решение значительно превосходит даже продвинутые методы вроде Whisper Forced Decoding Модели уже доступны для разработчиков Исходники и демо GitHub HuggingFace GitVerse Бот для теста smartspeech sber bot Милорд
ГигаЧат представил обновлённое семейство GigaAM v3 Giga Acoustic Model это класс open source моделей для обработки речи и эмоций В третьей версии опубликовали базовый аудиоэнкодер GigaAM v3 улучшенные CTC и RNNT модели а также E2E распознавание с поддержкой пунктуации и нормализации Масштаб предобучения значительно вырос с 50 до 700 тысяч часов аудио на русском языке Появились новые домены в обучении ASR от колл центров до разговорной речи Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio Линейка CTC RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии Что по метрикам Открытые датасеты Golos OpenSTT Common Voice LibriSpeech паритет с GigaAM v2 Новые домены WER v2 RNNT v3 RNNT речь с особенностями 27 19 колл центр 13 10 спонтанная речь 10 3 7 Пунктуация v3 e2e RNNT vs reference Whisper Forced Decoding F1 score по запятой 84 vs 62 остальные знаки паритет Side by Side Gemini 2 5 Pro as a judge v3 e2e RNNT vs Whisper large v3 70 30 колл центр 64 36 Common Voice Больше про язык речь и искусственный интеллект в gigadev channel Подписывайтесь на канал чтобы не пропустить всё самое интересное
Машиннное обучение | Наука о данных Библиотека
Машиннное обучение | Наука о данных Библиотека
ГигаЧат представил обновлённое семейство GigaAM v3 Giga Acoustic Model это класс open source моделей для обработки речи и эмоций В третьей версии опубликовали базовый аудиоэнкодер GigaAM v3 улучшенные CTC и RNNT модели а также E2E распознавание с поддержкой пунктуации и нормализации Масштаб предобучения значительно вырос с 50 до 700 тысяч часов аудио на русском языке Появились новые домены в обучении ASR от колл центров до разговорной речи Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio Линейка CTC RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии Что по метрикам Открытые датасеты Golos OpenSTT Common Voice LibriSpeech паритет с GigaAM v2 Новые домены WER v2 RNNT v3 RNNT речь с особенностями 27 19 колл центр 13 10 спонтанная речь 10 3 7 Пунктуация v3 e2e RNNT vs reference Whisper Forced Decoding F1 score по запятой 84 vs 62 остальные знаки паритет Side by Side Gemini 2 5 Pro as a judge v3 e2e RNNT vs Whisper large v3 70 30 колл центр 64 36 Common Voice Больше про язык речь и искусственный интеллект в gigadev channel Подписывайтесь на канал чтобы не пропустить всё самое интересное