ElevenLabs и Hume представляют новые технологии преобразования речи в текст и генерации аудио

ElevenLabs, который стал известен благодаря функции «нейродубляжа» видео на разные языки, представил модель для преобразования речи из аудио или видео в текст. Она поддерживает 99 языков, в том числе русский vc.ru/ai/1835588

Технологии444 дня назад

КиберХаб - IT и Нейросети

ElevenLabs научился генерировать аудиокниги. Сервис ElevenReader преобразует ваши текстовые файлы в аудио. Поддерживает EPUB, PDF и TXT. Достаточно закинуть файл, а система автоматически создаст его аудиоверсию без необходимости сложного редактирования. Поддерживает 32 языка, включая русский. Ещё и бесплатно. КиберХаб БотGPT

Технологии443 дня назад

Нейродвиж

ElevenLabs выпустили фичу для преобразования аудио в текст и она выглядит круто! На 36,9% точнее OpenAI Whisper V3 и на 5,6% точнее Gemini 2.0 Flash. Поддерживает 99 языков, среди которых и русский. Плюсы: очень круто различает разные голоса спикеров. Есть экспорт во все известные форматы текста, включая SRT субтитры для ютуба . Самое главное — бесплатно до 9 апреля. Пользуемся с VPN — тут.

Технологии443 дня назад

PROJECT+ | Нейросети

Hume представили первую LLM для генерации аудио и голосов. Ранее стартап захайпил с нейросетью-психологом, а теперь выходит на рынок text-to-speech. Можно бесплатно создавать неограниченное количество голосов. Тестируем тут. #Service Подписаться

Технологии443 дня назад

Код Шрёдингера | IT

Технологии442 дня назад

Нейродвиж

ElevenLabs не нужен — стартап Hume создал ПЕРВУЮ LLM для генерации аудио и голосов. Стартап захайпил с нейронкой-психологом, которую многие использовали для изучения английского — настолько хороша она была. И теперь они официально выходят на рынок text2speach! Генерация БЕСПЛАТНАЯ, при этом можно иметь неограниченное количество голосов. Пробуем — здесь.

Технологии443 дня назад

GPT/ChatGPT/AI Central Александра Горного

ElevenLabs выпустил AI для перевода речи в текст Scribe поддерживает 99 языков, в числе которых есть русский, распознает интонации и размечает спикеров. Модель доступна в вебе и через API. Час транскрибации стоит 40 центов.

Технологии443 дня назад

БлоGнот

ElevenLabs представили модель Scribe — по их заявлению, самую точную в мире модель Speech-To-Text. Она поддерживает 99 языков и выдает детальные транскрипты с метками времени для каждого слова, распознаванием говорящих и тегами аудиособытий например, смеха . В бенчмарках FLEURS и Common Voice Scribe превосходит ведущие модели, включая Gemini 2.0 Flash, Whisper Large V3 и Deepgram Nova-3. Точность транскрибирования высокая: 98,7% для итальянского, 96,7% для английского и высокие показатели для других языков. Особенно заметны улучшения для традиционно "недообслуживаемых" языков, таких как сербский, кантонский и малаялам, где у конкурирующих моделей часто бывает более 40% ошибок. Разработчики могут интегрировать Scribe через API Speech to Text и получать структурированные JSON-транскрипты. Версия с низкой задержкой для приложений реального времени выйдет в ближайшее время. Обычные пользователи могут загружать аудио- или видеофайлы прямо в панель управления ElevenLabs для создания отформатированных транскриптов. Причем до 9 апреля эта функция в веб-приложении бесплатна. Я попробовал прогнать ролик на украинском — распознало точно правда, почему-то разбило меня на двух спикеров , правда, вычитывать все равно надо, а то оно и все мои междометия поймало. С чем точно не справлялся Whisper и прекрасно получилось у Scribe — это использование английских слов, все упоминания Bolt, Lyft, Jira и так далее приведены корректно. На чем сломался Scribe — стоило мне в середине ролика привести цитату на русском и модель прекрасно следующие минут 5 записала в переводе на русский и потом вернулась на украинский. Never mess with mother freaking Ukrainians, как говорил один мафиозный персонаж в относительно старом триллере.

Технологии443 дня назад

ElevenLabs выпустила Scribe, новую модель преобразования речи в текст, которая претендует на звание самой точной в мире, превосходя лидеров отрасли, таких как Gemini 2.0 Flash от Google и Whisper v3 от OpenAI Scribe поддерживает 99 языков, при этом заявленный уровень точности превышает 95% для более чем 25 языков, включая английский, итальянский и испанский. Цена Scribe составляет $0,40 за час транскрибированного аудио для предварительно записанного звука, а версия с низкой задержкой для приложений реального времени появится в ближайшее время. PRO AI ПОЛЕЗНЫЙ СОФТ НОВОСТИ

PRO AI | ПОЛЕЗНЫЙ СОФТ | НОВОСТИ

ElevenLabs выпустила Scribe, новую модель преобразования речи в текст, которая претендует на звание самой точной в мире, превосходя лидеров отрасли, таких как Gemini 2.0 Flash от Google и Whisper v3 от OpenAI Scribe поддерживает 99 языков, при этом заявленный уровень точности превышает 95% для более чем 25 языков, включая английский, итальянский и испанский. Цена Scribe составляет $0,40 за час транскрибированного аудио для предварительно записанного звука, а версия с низкой задержкой для приложений реального времени появится в ближайшее время. PRO AI ПОЛЕЗНЫЙ СОФТ НОВОСТИ

Технологии443 дня назад

ElevenLabs и Hume представляют новые технологии преобразования речи в текст и генерации аудио

Источники

Программист создал ИИ-клона для борьбы с одиночеством и улучшения психического здоровья

OpenAI интегрировала Codex в мобильное приложение ChatGPT

Исследование показывает растущее применение ИИ в России среди специалистов и ученых

Сотрудники крупных компаний используют ИИ для накрутки внутренних метрик

Глобальный диктант по осетинскому языку пройдет 14 мая в прямом эфире

Россияне обсуждают замену чиновников на ИИ, результаты опроса SuperJob

ElevenLabs и Hume представляют новые технологии преобразования речи в текст и генерации аудио

Ещё по теме

Источники

Программист создал ИИ-клона для борьбы с одиночеством и улучшения психического здоровья

OpenAI интегрировала Codex в мобильное приложение ChatGPT

Исследование показывает растущее применение ИИ в России среди специалистов и ученых

Сотрудники крупных компаний используют ИИ для накрутки внутренних метрик

Глобальный диктант по осетинскому языку пройдет 14 мая в прямом эфире

Россияне обсуждают замену чиновников на ИИ, результаты опроса SuperJob