Alibaba представила CosyVoice 3: новая модель синтеза речи с возможностью клонирования голоса

Video is not supported

Alibaba выпустила CosyVoice 3 модель синтеза речи с клонированием голоса всего за 3 секунды аудио Модель при размере всего 0 5B параметров обходит по качеству модели в три раза крупнее и распространяется с открытым кодом ИИ обучена на миллионе часов аудиоданных и поддерживает 9 языков включая русский английский китайский японский корейский немецкий испанский французский и итальянский Помимо этого поддерживается более 18 китайских диалектов Главная фишка zero shot клонирование голоса достаточно загрузить 3 10 секунд записи любого человека и модель воспроизведёт его тембр без дополнительного обучения При этом работает кросс языковой перенос можно взять образец голоса на китайском и заставить его говорить на английском или русском сохраняя характерные особенности Новый токенизатор речи обучался сразу на нескольких задачах распознавание речи определение эмоций идентификация языка анализ звуковых событий Это позволяет модели захватывать не только что говорится но и как говорится с паузами интонациями и эмоциональной окраской Модель поддерживает стриминг с задержкой всего 150 мс практически в реальном времени Есть функция Pronunciation Inpainting для ручной корректировки произношения отдельных слов что критично для специфической терминологии Также можно управлять эмоциями темпом и громкостью через инструкции Код доступен на GitHub модели на HuggingFace и ModelScope Лицензия позволяет коммерческое использование мMм Soft Gear Links

Технологии113 дня назад

Video is not supported

Digital-полезности

Вышла CosyVoice 3 опенсорс модель для озвучки и клонирования голоса от Alibaba Её главная фича zero shot клонирование Достаточно 3 10 секунд аудио чтобы модель полностью воспроизвела тембр манеру речи и интонации Есть и стриминг в реальном времени с задержкой около 150 мс CosyVoice 3 поддерживает 9 языков включая русский умеет распознавать эмоции и звуки а также позволяет вручную править произношение отдельных слов У модели всего 0 5B параметров так что её потянет даже слабое железо GitHub HuggingFace нейросети neural aiaiai

Технологии112 дня назад

Video is not supported

AI Journal

Alibaba выкатили МОНСТРА для озвучки и клонирования голоса CosyVoice 3 сразу вышел в опенсорс и доступен всем У модели всего 0 5 млрд параметров но по качеству она обходит даже более тяжёлых конкурентов Получилась настоящая пушка Поддерживает 9 языков русский английский китайский японский корейский немецкий испанский французский и итальянский Нейронке хватает 3 секунд чтобы точно склонировать любой голос с акцентом тембром скоростью речи ударениями и даже речевыми дефектами Понимает эмоции и особенности речи чавканье шипение картавость всхлипы и прочие нюансы Может клонировать голос в реальном времени с задержкой около 150 мс Позволяет вручную править произношение отдельных слов чтобы не ошибаться в сложных терминах При этом всего 0 5 млрд параметров и огромный набор возможностей Разработчики сразу выложили лицензию на коммерческое использование CosyVoice 3 можно применять в любых проектах Тестируем монстра тут

Технологии110 дней назад

Video is not supported

Нейро (Midjourney)

Технологии113 дня назад

Video is not supported

OMG GPT: Midjourney, DeepSeek, IT

Китайцы выкатили CosyVoice 3 одну из самых мощных нейронок для озвучки и клонирования голоса Что умеет CosyVoice 3 всего 0 5B параметров запускается локально даже на слабом железе по качеству обходит модели в 3 раза больше 9 языков включая русский Zero shot клонирование 3 10 секунд аудио и голос скопирован полностью стриминг в реальном времени с задержкой 150 мс Pronunciation Inpainting ручная настройка произношения слов коммерческая лицензия Минимальный размер максимальный эффект голосовой ИИ стал ещё ближе к продакшену

Технологии112 дня назад

Video is not supported

Ринат Шакиров | Промпты для Midjourney | ChatGPT

Alibaba выпустил модель для генерации озвучки и клонирования голоса CosyVoice 3 CosyVoice 3 демонстрирует быструю и выразительную генерацию речи из текста с естественной просодией подходящей для повествования аватаров и рабочих процессов авторов Это отличный выбор если вам нужен контролируемый и качественный голосовой вывод Детали Компактная модель на 0 5B параметров легко запускается локально даже на слабом железе Поддерживает русский язык Клонирует голос по 3 10 секундам аудио точно передавая тембр и манеру речи Работает в стриминге с задержкой 150 мс Позволяет вручную настраивать произношение слов Подробнее Демо новости dailyprompts

Технологии111 день назад

Alibaba представила CosyVoice 3: новая модель синтеза речи с возможностью клонирования голоса

Источники

OpenAI представила новые голосовые модели для улучшения диалогов и перевода в реальном времени

OpenAI анонсировала новую модель GPT 5 5 Instant для всех пользователей ChatGPT

Telegram обновляет функции для улучшения работы с ботами и кастомизации контента

Apple внедряет поддержку сторонних ИИ ассистентов в iOS 27

Anthropic запускает режим Сновидений для самообучения ИИ агентов

Российские продажи умных колонок достигли 1 млн единиц в I квартале 2026 года