21 ноября, 13:22

Сбер представляет GigaAM v3: Революция в распознавании речи с использованием 700 000 часов аудио

GigaAM v3 Сбер выводит ASR на орбиту Сбер представил GigaAM v3 это большой скачок в их стеке ASR Случился кардинально новый подход к пониманию реальной живой русской речи Вместо прежних 50 тысяч часов модель обучалась на колоссальных 700 000 Весь корпус прошел ювелирную обработку через GigaChat Max Audio который восстановил идеальную пунктуацию и нормализацию во всех данных Модели научились понимать то что раньше было самым сложным Спонтанную быструю речь Сложные диалоги в колл центрах Речь с особенностями Именно на этих проблемных доменах улучшения просто ошеломительные ошибка распознавания снижена на 30 40 Главная новинка линейка e2e end to end моделей По качеству это решение значительно превосходит даже продвинутые методы вроде Whisper Forced Decoding Модели уже доступны для разработчиков Исходники и демо GitHub HuggingFace GitVerse Бот для теста smartspeech sber bot Милорд
Милорд
Милорд
GigaAM v3 Сбер выводит ASR на орбиту Сбер представил GigaAM v3 это большой скачок в их стеке ASR Случился кардинально новый подход к пониманию реальной живой русской речи Вместо прежних 50 тысяч часов модель обучалась на колоссальных 700 000 Весь корпус прошел ювелирную обработку через GigaChat Max Audio который восстановил идеальную пунктуацию и нормализацию во всех данных Модели научились понимать то что раньше было самым сложным Спонтанную быструю речь Сложные диалоги в колл центрах Речь с особенностями Именно на этих проблемных доменах улучшения просто ошеломительные ошибка распознавания снижена на 30 40 Главная новинка линейка e2e end to end моделей По качеству это решение значительно превосходит даже продвинутые методы вроде Whisper Forced Decoding Модели уже доступны для разработчиков Исходники и демо GitHub HuggingFace GitVerse Бот для теста smartspeech sber bot Милорд
ГигаЧат выпустил модель для синтеза речи GigaTTS Она звучит почти как реальный человек И нравится слушателям в 2 4 раза чаще чем старая версия Под капотом GigaChat 3b токенизатор адаптер к LLM и 30 тысяч часов данных GigaTTS использует уникальные голоса телефонных операторов и инструктивный синтез разных эмоций Она умеет клонировать голоса а также озвучивать тексты любой длины в multi turn режиме Новый синтез речи можно оценить в голосовом общении с ГигаЧат А узнать больше новостей от команды разработки в канале gigadev channel Подписывайтесь Это партнёрский пост
Нейроканал
Нейроканал
ГигаЧат выпустил модель для синтеза речи GigaTTS Она звучит почти как реальный человек И нравится слушателям в 2 4 раза чаще чем старая версия Под капотом GigaChat 3b токенизатор адаптер к LLM и 30 тысяч часов данных GigaTTS использует уникальные голоса телефонных операторов и инструктивный синтез разных эмоций Она умеет клонировать голоса а также озвучивать тексты любой длины в multi turn режиме Новый синтез речи можно оценить в голосовом общении с ГигаЧат А узнать больше новостей от команды разработки в канале gigadev channel Подписывайтесь Это партнёрский пост
ГигаЧат заговорил как живой человек Команда ГигаЧата представила новое поколение собственной системы синтеза речи Главное отличие модель больше не звучит как универсальный диктор   Новый естественный Freespeech голос и несколько специализированных стилей подкастный операторский и классический дикторский И это не пресеты а разные речевые модели с собственными паттернами   В основе обновления архитектура GigaChat 3b кастомный токенизатор звука и авторегрессионная генерация которая предсказывает не только текст но и акустические токены естественные паузы смены темпа и эмоции Голос лучше подстраивается под контекст от спокойного объяснения до дружелюбного диалога Его можно слушать действительно долго без ощущения зловещей долины Новый синтез уже работает в голосовом режиме ГигаЧата Подпишитесь на Hi AI
Hi, AI! | Нейросети и технологии
Hi, AI! | Нейросети и технологии
ГигаЧат заговорил как живой человек Команда ГигаЧата представила новое поколение собственной системы синтеза речи Главное отличие модель больше не звучит как универсальный диктор Новый естественный Freespeech голос и несколько специализированных стилей подкастный операторский и классический дикторский И это не пресеты а разные речевые модели с собственными паттернами В основе обновления архитектура GigaChat 3b кастомный токенизатор звука и авторегрессионная генерация которая предсказывает не только текст но и акустические токены естественные паузы смены темпа и эмоции Голос лучше подстраивается под контекст от спокойного объяснения до дружелюбного диалога Его можно слушать действительно долго без ощущения зловещей долины Новый синтез уже работает в голосовом режиме ГигаЧата Подпишитесь на Hi AI
ГигаЧат представил обновлённое семейство GigaAM v3 Giga Acoustic Model это класс open source моделей для обработки речи и эмоций В третьей версии опубликовали базовый аудиоэнкодер GigaAM v3 улучшенные CTC и RNNT модели а также E2E распознавание с поддержкой пунктуации и нормализации Масштаб предобучения значительно вырос с 50 до 700 тысяч часов аудио на русском языке Появились новые домены в обучении ASR от колл центров до разговорной речи Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio Линейка CTC RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии Что по метрикам Открытые датасеты Golos OpenSTT Common Voice LibriSpeech паритет с GigaAM v2 Новые домены WER v2 RNNT v3 RNNT речь с особенностями 27 19 колл центр 13 10 спонтанная речь 10 3 7 Пунктуация v3 e2e RNNT vs reference Whisper Forced Decoding F1 score по запятой 84 vs 62 остальные знаки паритет Side by Side Gemini 2 5 Pro as a judge v3 e2e RNNT vs Whisper large v3 70 30 колл центр 64 36 Common Voice Больше про язык речь и искусственный интеллект в gigadev channel Подписывайтесь на канал чтобы не пропустить всё самое интересное
Машиннное обучение | Наука о данных Библиотека
Машиннное обучение | Наука о данных Библиотека
ГигаЧат представил обновлённое семейство GigaAM v3 Giga Acoustic Model это класс open source моделей для обработки речи и эмоций В третьей версии опубликовали базовый аудиоэнкодер GigaAM v3 улучшенные CTC и RNNT модели а также E2E распознавание с поддержкой пунктуации и нормализации Масштаб предобучения значительно вырос с 50 до 700 тысяч часов аудио на русском языке Появились новые домены в обучении ASR от колл центров до разговорной речи Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio Линейка CTC RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии Что по метрикам Открытые датасеты Golos OpenSTT Common Voice LibriSpeech паритет с GigaAM v2 Новые домены WER v2 RNNT v3 RNNT речь с особенностями 27 19 колл центр 13 10 спонтанная речь 10 3 7 Пунктуация v3 e2e RNNT vs reference Whisper Forced Decoding F1 score по запятой 84 vs 62 остальные знаки паритет Side by Side Gemini 2 5 Pro as a judge v3 e2e RNNT vs Whisper large v3 70 30 колл центр 64 36 Common Voice Больше про язык речь и искусственный интеллект в gigadev channel Подписывайтесь на канал чтобы не пропустить всё самое интересное
Machinelearning
Machinelearning
Сбер представил новую систему синтеза речи для ГигаЧата в одной модели используются сразу несколько разных уникальных голосов под разные задачи Обновление позволяет генерировать речь в различных манерах от естественного Freespeech для общения до подкастного формата интонаций операторов и традиционного дикторского стиля Звучание стало более органичным и приближенным к человеческому Что умеет новый синтез для разных кейсов применения синтеза сделаны отдельные голоса воспроизводит паузы смысловые акценты и эмоциональную окраску построен на собственной разработке GigaChat 3b как основа специализированный токенизатор и адаптер к LLM умеет озвучивать тексты бесконечной длины с учетом контекста а также клонировать голоса внутренние замеры демонстрируют прогресс в качестве и натуральности звука Зачем это нужно помогает создавать более органичные голосовые интерфейсы оптимален для разговорных ассистентов озвучки подкастов или аудиокниг а также в автоматизированных колл центрах Основные преимущества есть возможность выбора голоса которые подходят под разные задачи управление стилистикой и эмоциями на естественном языке самый живой синтез речи ни у Алисы ни у OpenAI ничего похожего нет Новый синтез уже доступен в Voice Mode Гигачата ai machinelearning big data ai ml speech llm
эйай ньюз
эйай ньюз
Новое поколение синтеза речи в ГигаЧате Разрабочики команды синтеза речи в Сбере запустили новое поколение голосового режима Гигачата Голоса теперь собираются не из универсального диктора а из специализированных моделей Freespeech для живого общения голоса операторов колл центров подкастная и классическая дикторская подача В результате ассистент говорит ближе к человеку а не к автоответчику со вздохами и с более естественной интонацией Технически это полностью свой стек GigaChat 3b в роли языковой модели кастомный токенизатор звука и авторегрессионный синтез вместо диффузий Команда отдельно поработала над токенизацией речи системными промптами для стиля голоса учетом длинного контекста и клонированием за счёт этого новый синтез сильно обгоняет прошлое поколение по внутренним метрикам качества и естественности На фоне конкурентов типа Алисы упор идёт не на дикторский голос а на живость и выразительность речи Статья на хабре ai newz
Стабильный быстрый и доступный синтез для 20 языков России Дружба народов здорового человека вышла на новый технический уровень Представлен масштабный релиз синтеза речи который покрывает 20 языков СНГ и включает целых 95 голосов Никаких шумов из публичных датасетов на этот раз работа велась с живыми дикторами на студийном оборудовании а скорость генерации выросла на четверть модель выдаёт 100 секунд аудио в секунду даже на обычном CPU Кроме качества подтянули и матчасть добавили поддержку SSML и выложили словари ударений для правильного произношения Слушаем примеры и забираем модели в свои проекты
Хабр
Хабр
Стабильный быстрый и доступный синтез для 20 языков России Дружба народов здорового человека вышла на новый технический уровень Представлен масштабный релиз синтеза речи который покрывает 20 языков СНГ и включает целых 95 голосов Никаких шумов из публичных датасетов на этот раз работа велась с живыми дикторами на студийном оборудовании а скорость генерации выросла на четверть модель выдаёт 100 секунд аудио в секунду даже на обычном CPU Кроме качества подтянули и матчасть добавили поддержку SSML и выложили словари ударений для правильного произношения Слушаем примеры и забираем модели в свои проекты