27 февраля, 12:08
ElevenLabs и Hume представляют новые технологии преобразования речи в текст и генерации аудио


vc.ru
ElevenLabs, который стал известен благодаря функции «нейродубляжа» видео на разные языки, представил модель для преобразования речи из аудио или видео в текст. Она поддерживает 99 языков, в том числе русский vc.ru/ai/1835588
Технологии23 часа назад

КиберХаб - IT и Нейросети
ElevenLabs научился генерировать аудиокниги. Сервис ElevenReader преобразует ваши текстовые файлы в аудио. Поддерживает EPUB, PDF и TXT. Достаточно закинуть файл, а система автоматически создаст его аудиоверсию без необходимости сложного редактирования. Поддерживает 32 языка, включая русский. Ещё и бесплатно. КиберХаб БотGPT
Технологии13 часов назад

Нейродвиж
ElevenLabs выпустили фичу для преобразования аудио в текст и она выглядит круто! На 36,9% точнее OpenAI Whisper V3 и на 5,6% точнее Gemini 2.0 Flash. Поддерживает 99 языков, среди которых и русский. Плюсы: очень круто различает разные голоса спикеров. Есть экспорт во все известные форматы текста, включая SRT субтитры для ютуба . Самое главное — бесплатно до 9 апреля. Пользуемся с VPN — тут.
Технологии9 часов назад

PROJECT+ | Нейросети
Hume представили первую LLM для генерации аудио и голосов. Ранее стартап захайпил с нейросетью-психологом, а теперь выходит на рынок text-to-speech. Можно бесплатно создавать неограниченное количество голосов. Тестируем тут. #Service Подписаться
Технологии7 часов назад


Нейродвиж
ElevenLabs не нужен — стартап Hume создал ПЕРВУЮ LLM для генерации аудио и голосов. Стартап захайпил с нейронкой-психологом, которую многие использовали для изучения английского — настолько хороша она была. И теперь они официально выходят на рынок text2speach! Генерация БЕСПЛАТНАЯ, при этом можно иметь неограниченное количество голосов. Пробуем — здесь.
Технологии20 часов назад

GPT/ChatGPT/AI Central Александра Горного
ElevenLabs выпустил AI для перевода речи в текст Scribe поддерживает 99 языков, в числе которых есть русский, распознает интонации и размечает спикеров. Модель доступна в вебе и через API. Час транскрибации стоит 40 центов.
Технологии9 часов назад

БлоGнот
ElevenLabs представили модель Scribe — по их заявлению, самую точную в мире модель Speech-To-Text. Она поддерживает 99 языков и выдает детальные транскрипты с метками времени для каждого слова, распознаванием говорящих и тегами аудиособытий например, смеха . В бенчмарках FLEURS и Common Voice Scribe превосходит ведущие модели, включая Gemini 2.0 Flash, Whisper Large V3 и Deepgram Nova-3. Точность транскрибирования высокая: 98,7% для итальянского, 96,7% для английского и высокие показатели для других языков. Особенно заметны улучшения для традиционно "недообслуживаемых" языков, таких как сербский, кантонский и малаялам, где у конкурирующих моделей часто бывает более 40% ошибок. Разработчики могут интегрировать Scribe через API Speech to Text и получать структурированные JSON-транскрипты. Версия с низкой задержкой для приложений реального времени выйдет в ближайшее время. Обычные пользователи могут загружать аудио- или видеофайлы прямо в панель управления ElevenLabs для создания отформатированных транскриптов. Причем до 9 апреля эта функция в веб-приложении бесплатна. Я попробовал прогнать ролик на украинском — распознало точно правда, почему-то разбило меня на двух спикеров , правда, вычитывать все равно надо, а то оно и все мои междометия поймало. С чем точно не справлялся Whisper и прекрасно получилось у Scribe — это использование английских слов, все упоминания Bolt, Lyft, Jira и так далее приведены корректно. На чем сломался Scribe — стоило мне в середине ролика привести цитату на русском и модель прекрасно следующие минут 5 записала в переводе на русский и потом вернулась на украинский. Never mess with mother freaking Ukrainians, как говорил один мафиозный персонаж в относительно старом триллере.
Технологии8 часов назад
Похожие новости



+12



+2



+5



+17



+8



+2

Microsoft объявила о бесплатном и безлимитном доступе к Copilot с новыми функциями
Технологии
1 день назад




40% учеников в Китае используют ИИ для учебы: вызовы и возможности
Общество
54 минуты назад




Amazon представляет обновленную Alexa+ с ИИ для управления умным домом
Технологии
13 часов назад




Apple и Google обновляют ИИ-платформы: Gemini станет альтернативой ChatGPT
Технологии
1 день назад




Alibaba представила новую опенсорс модель Wan 2.1 для генерации видео
Технологии
1 день назад




DeepSeek ускоряет запуск модели ИИ R2 на фоне конкуренции и эмбарго
Технологии
18 часов назад


