16 января, 12:59

Alibaba представила CosyVoice 3: новая модель синтеза речи с возможностью клонирования голоса

Video is not supported
Чёрный Треугольник
Чёрный Треугольник
Alibaba выпустила CosyVoice 3 модель синтеза речи с клонированием голоса всего за 3 секунды аудио Модель при размере всего 0 5B параметров обходит по качеству модели в три раза крупнее и распространяется с открытым кодом ИИ обучена на миллионе часов аудиоданных и поддерживает 9 языков включая русский английский китайский японский корейский немецкий испанский французский и итальянский Помимо этого поддерживается более 18 китайских диалектов Главная фишка zero shot клонирование голоса достаточно загрузить 3 10 секунд записи любого человека и модель воспроизведёт его тембр без дополнительного обучения При этом работает кросс языковой перенос можно взять образец голоса на китайском и заставить его говорить на английском или русском сохраняя характерные особенности Новый токенизатор речи обучался сразу на нескольких задачах распознавание речи определение эмоций идентификация языка анализ звуковых событий Это позволяет модели захватывать не только что говорится но и как говорится с паузами интонациями и эмоциональной окраской Модель поддерживает стриминг с задержкой всего 150 мс практически в реальном времени Есть функция Pronunciation Inpainting для ручной корректировки произношения отдельных слов что критично для специфической терминологии Также можно управлять эмоциями темпом и громкостью через инструкции Код доступен на GitHub модели на HuggingFace и ModelScope Лицензия позволяет коммерческое использование мMм Soft Gear Links
Video is not supported
Digital-полезности
Digital-полезности
Вышла CosyVoice 3 опенсорс модель для озвучки и клонирования голоса от Alibaba Её главная фича zero shot клонирование Достаточно 3 10 секунд аудио чтобы модель полностью воспроизвела тембр манеру речи и интонации Есть и стриминг в реальном времени с задержкой около 150 мс CosyVoice 3 поддерживает 9 языков включая русский умеет распознавать эмоции и звуки а также позволяет вручную править произношение отдельных слов У модели всего 0 5B параметров так что её потянет даже слабое железо GitHub HuggingFace нейросети neural aiaiai
Video is not supported
Нейро (Midjourney)
Нейро (Midjourney)
Alibaba выкатили МОНСТРА для озвучки и клонирования голоса CosyVoice 3 сразу вышел в опенсорс и доступен всем У модели всего 0 5 млрд параметров но по качеству она обходит даже более тяжёлых конкурентов Получилась настоящая пушка Поддерживает 9 языков русский английский китайский японский корейский немецкий испанский французский и итальянский Нейронке хватает 3 секунд чтобы точно склонировать любой голос с акцентом тембром скоростью речи ударениями и даже речевыми дефектами Понимает эмоции и особенности речи чавканье шипение картавость всхлипы и прочие нюансы Может клонировать голос в реальном времени с задержкой около 150 мс Позволяет вручную править произношение отдельных слов чтобы не ошибаться в сложных терминах При этом всего 0 5 млрд параметров и огромный набор возможностей Разработчики сразу выложили лицензию на коммерческое использование CosyVoice 3 можно применять в любых проектах Тестируем монстра тут
Video is not supported
OMG GPT: Midjourney, DeepSeek, IT
OMG GPT: Midjourney, DeepSeek, IT
Китайцы выкатили CosyVoice 3 одну из самых мощных нейронок для озвучки и клонирования голоса Что умеет CosyVoice 3 всего 0 5B параметров запускается локально даже на слабом железе по качеству обходит модели в 3 раза больше 9 языков включая русский Zero shot клонирование 3 10 секунд аудио и голос скопирован полностью стриминг в реальном времени с задержкой 150 мс Pronunciation Inpainting ручная настройка произношения слов коммерческая лицензия Минимальный размер максимальный эффект голосовой ИИ стал ещё ближе к продакшену
Video is not supported
Ринат Шакиров | Промпты для Midjourney | ChatGPT
Ринат Шакиров | Промпты для Midjourney | ChatGPT
Alibaba выпустил модель для генерации озвучки и клонирования голоса CosyVoice 3 CosyVoice 3 демонстрирует быструю и выразительную генерацию речи из текста с естественной просодией подходящей для повествования аватаров и рабочих процессов авторов Это отличный выбор если вам нужен контролируемый и качественный голосовой вывод Детали Компактная модель на 0 5B параметров легко запускается локально даже на слабом железе Поддерживает русский язык Клонирует голос по 3 10 секундам аудио точно передавая тембр и манеру речи Работает в стриминге с задержкой 150 мс Позволяет вручную настраивать произношение слов Подробнее Демо новости dailyprompts