27 февраля, 12:08
ElevenLabs и Hume представляют новые технологии преобразования речи в текст и генерации аудио


vc.ru
ElevenLabs, который стал известен благодаря функции «нейродубляжа» видео на разные языки, представил модель для преобразования речи из аудио или видео в текст. Она поддерживает 99 языков, в том числе русский vc.ru/ai/1835588
Технологии93 дня назад

Нейродвиж
ElevenLabs не нужен — стартап Hume создал ПЕРВУЮ LLM для генерации аудио и голосов. Стартап захайпил с нейронкой-психологом, которую многие использовали для изучения английского — настолько хороша она была. И теперь они официально выходят на рынок text2speach! Генерация БЕСПЛАТНАЯ, при этом можно иметь неограниченное количество голосов. Пробуем — здесь.
Технологии93 дня назад

Нейродвиж
ElevenLabs выпустили фичу для преобразования аудио в текст и она выглядит круто! На 36,9% точнее OpenAI Whisper V3 и на 5,6% точнее Gemini 2.0 Flash. Поддерживает 99 языков, среди которых и русский. Плюсы: очень круто различает разные голоса спикеров. Есть экспорт во все известные форматы текста, включая SRT субтитры для ютуба . Самое главное — бесплатно до 9 апреля. Пользуемся с VPN — тут.
Технологии92 дня назад

PROJECT+ | Нейросети
Hume представили первую LLM для генерации аудио и голосов. Ранее стартап захайпил с нейросетью-психологом, а теперь выходит на рынок text-to-speech. Можно бесплатно создавать неограниченное количество голосов. Тестируем тут. #Service Подписаться
Технологии92 дня назад


PRO AI | ПОЛЕЗНЫЙ СОФТ | НОВОСТИ
ElevenLabs выпустила Scribe, новую модель преобразования речи в текст, которая претендует на звание самой точной в мире, превосходя лидеров отрасли, таких как Gemini 2.0 Flash от Google и Whisper v3 от OpenAI Scribe поддерживает 99 языков, при этом заявленный уровень точности превышает 95% для более чем 25 языков, включая английский, итальянский и испанский. Цена Scribe составляет $0,40 за час транскрибированного аудио для предварительно записанного звука, а версия с низкой задержкой для приложений реального времени появится в ближайшее время. PRO AI ПОЛЕЗНЫЙ СОФТ НОВОСТИ
Технологии92 дня назад


КиберХаб - IT и Нейросети
ElevenLabs научился генерировать аудиокниги. Сервис ElevenReader преобразует ваши текстовые файлы в аудио. Поддерживает EPUB, PDF и TXT. Достаточно закинуть файл, а система автоматически создаст его аудиоверсию без необходимости сложного редактирования. Поддерживает 32 языка, включая русский. Ещё и бесплатно. КиберХаб БотGPT
Технологии93 дня назад

GPT/ChatGPT/AI Central Александра Горного
ElevenLabs выпустил AI для перевода речи в текст Scribe поддерживает 99 языков, в числе которых есть русский, распознает интонации и размечает спикеров. Модель доступна в вебе и через API. Час транскрибации стоит 40 центов.
Технологии92 дня назад

БлоGнот
ElevenLabs представили модель Scribe — по их заявлению, самую точную в мире модель Speech-To-Text. Она поддерживает 99 языков и выдает детальные транскрипты с метками времени для каждого слова, распознаванием говорящих и тегами аудиособытий например, смеха . В бенчмарках FLEURS и Common Voice Scribe превосходит ведущие модели, включая Gemini 2.0 Flash, Whisper Large V3 и Deepgram Nova-3. Точность транскрибирования высокая: 98,7% для итальянского, 96,7% для английского и высокие показатели для других языков. Особенно заметны улучшения для традиционно "недообслуживаемых" языков, таких как сербский, кантонский и малаялам, где у конкурирующих моделей часто бывает более 40% ошибок. Разработчики могут интегрировать Scribe через API Speech to Text и получать структурированные JSON-транскрипты. Версия с низкой задержкой для приложений реального времени выйдет в ближайшее время. Обычные пользователи могут загружать аудио- или видеофайлы прямо в панель управления ElevenLabs для создания отформатированных транскриптов. Причем до 9 апреля эта функция в веб-приложении бесплатна. Я попробовал прогнать ролик на украинском — распознало точно правда, почему-то разбило меня на двух спикеров , правда, вычитывать все равно надо, а то оно и все мои междометия поймало. С чем точно не справлялся Whisper и прекрасно получилось у Scribe — это использование английских слов, все упоминания Bolt, Lyft, Jira и так далее приведены корректно. На чем сломался Scribe — стоило мне в середине ролика привести цитату на русском и модель прекрасно следующие минут 5 записала в переводе на русский и потом вернулась на украинский. Never mess with mother freaking Ukrainians, как говорил один мафиозный персонаж в относительно старом триллере.
Технологии92 дня назад

Код Шрёдингера | IT
ElevenLabs выпустили фичу для преобразования аудио в текст и она выглядит круто! На 36,9% точнее OpenAI Whisper V3 и на 5,6% точнее Gemini 2.0 Flash. Поддерживает 99 языков, среди которых и русский. Плюсы: очень круто различает разные голоса спикеров. Есть экспорт во все известные форматы текста, включая SRT субтитры для ютуба . Самое главное — бесплатно до 9 апреля. Пользуемся с VPN — тут.
Технологии91 день назад
Похожие новости



+5



+6



+7



+36



+4



+99

Anthropic запускает голосовой режим для ИИ-ассистента Claude в бета-версии
Технологии
1 день назад




DeepSeek анонсирует обновление нейросети R1 с улучшениями в анализе и написании кода
Технологии
11 часов назад




Исследование: 90% молодежи России активно используют технологии искусственного интеллекта
Общество
8 часов назад




Стартап BuilderAI подал на банкротство после разоблачения махинаций с ИИ
Технологии
9 часов назад




TON растет после анонса ИИ в Telegram от Илона Маска и Павла Дурова
Технологии
1 день назад




Telegram интегрирует нейросеть Grok благодаря партнерству с Илоном Маском
Технологии
1 день назад


