16 января, 12:59
Alibaba представила CosyVoice 3: новая модель синтеза речи с возможностью клонирования голоса

Чёрный Треугольник
Alibaba выпустила CosyVoice 3 модель синтеза речи с клонированием голоса всего за 3 секунды аудио Модель при размере всего 0 5B параметров обходит по качеству модели в три раза крупнее и распространяется с открытым кодом ИИ обучена на миллионе часов аудиоданных и поддерживает 9 языков включая русский английский китайский японский корейский немецкий испанский французский и итальянский Помимо этого поддерживается более 18 китайских диалектов Главная фишка zero shot клонирование голоса достаточно загрузить 3 10 секунд записи любого человека и модель воспроизведёт его тембр без дополнительного обучения При этом работает кросс языковой перенос можно взять образец голоса на китайском и заставить его говорить на английском или русском сохраняя характерные особенности Новый токенизатор речи обучался сразу на нескольких задачах распознавание речи определение эмоций идентификация языка анализ звуковых событий Это позволяет модели захватывать не только что говорится но и как говорится с паузами интонациями и эмоциональной окраской Модель поддерживает стриминг с задержкой всего 150 мс практически в реальном времени Есть функция Pronunciation Inpainting для ручной корректировки произношения отдельных слов что критично для специфической терминологии Также можно управлять эмоциями темпом и громкостью через инструкции Код доступен на GitHub модели на HuggingFace и ModelScope Лицензия позволяет коммерческое использование мMм Soft Gear Links
Технологии2 дня назад

Digital-полезности
Вышла CosyVoice 3 опенсорс модель для озвучки и клонирования голоса от Alibaba Её главная фича zero shot клонирование Достаточно 3 10 секунд аудио чтобы модель полностью воспроизвела тембр манеру речи и интонации Есть и стриминг в реальном времени с задержкой около 150 мс CosyVoice 3 поддерживает 9 языков включая русский умеет распознавать эмоции и звуки а также позволяет вручную править произношение отдельных слов У модели всего 0 5B параметров так что её потянет даже слабое железо GitHub HuggingFace нейросети neural aiaiai
Технологии1 день назад

Нейро (Midjourney)
Alibaba выкатили МОНСТРА для озвучки и клонирования голоса CosyVoice 3 сразу вышел в опенсорс и доступен всем У модели всего 0 5 млрд параметров но по качеству она обходит даже более тяжёлых конкурентов Получилась настоящая пушка Поддерживает 9 языков русский английский китайский японский корейский немецкий испанский французский и итальянский Нейронке хватает 3 секунд чтобы точно склонировать любой голос с акцентом тембром скоростью речи ударениями и даже речевыми дефектами Понимает эмоции и особенности речи чавканье шипение картавость всхлипы и прочие нюансы Может клонировать голос в реальном времени с задержкой около 150 мс Позволяет вручную править произношение отдельных слов чтобы не ошибаться в сложных терминах При этом всего 0 5 млрд параметров и огромный набор возможностей Разработчики сразу выложили лицензию на коммерческое использование CosyVoice 3 можно применять в любых проектах Тестируем монстра тут
Технологии2 дня назад

OMG GPT: Midjourney, DeepSeek, IT
Китайцы выкатили CosyVoice 3 одну из самых мощных нейронок для озвучки и клонирования голоса Что умеет CosyVoice 3 всего 0 5B параметров запускается локально даже на слабом железе по качеству обходит модели в 3 раза больше 9 языков включая русский Zero shot клонирование 3 10 секунд аудио и голос скопирован полностью стриминг в реальном времени с задержкой 150 мс Pronunciation Inpainting ручная настройка произношения слов коммерческая лицензия Минимальный размер максимальный эффект голосовой ИИ стал ещё ближе к продакшену
Технологии1 день назад

Ринат Шакиров | Промпты для Midjourney | ChatGPT
Alibaba выпустил модель для генерации озвучки и клонирования голоса CosyVoice 3 CosyVoice 3 демонстрирует быструю и выразительную генерацию речи из текста с естественной просодией подходящей для повествования аватаров и рабочих процессов авторов Это отличный выбор если вам нужен контролируемый и качественный голосовой вывод Детали Компактная модель на 0 5B параметров легко запускается локально даже на слабом железе Поддерживает русский язык Клонирует голос по 3 10 секундам аудио точно передавая тембр и манеру речи Работает в стриминге с задержкой 150 мс Позволяет вручную настраивать произношение слов Подробнее Демо новости dailyprompts
Технологии7 часов назад
Похожие новости







+18







+13

Google анонсировала три бесплатные модели TranslateGemma для перевода на 55 языков
Технологии
8 часов назад



OpenAI запускает новый инструмент перевода ChatGPT Translate
Технологии
1 день назад


+18
Новое приложение для борьбы с думскроллингом запускает рикролл при отвлечении
Технологии
23 часа назад

Запущена аудиотека кетского языка на платформе Акта даскавет при поддержке ВСНК и Роснефти
Общество
1 день назад


OpenAI подписывает 10-миллиардный контракт с Cerebras для улучшения вычислительных мощностей
Технологии
20 часов назад


+13
Метод скорочтения на Reddit позволяет читать до 900 слов в минуту
Технологии
1 день назад