27 февраля, 12:08

ElevenLabs и Hume представляют новые технологии преобразования речи в текст и генерации аудио

ElevenLabs, который стал известен благодаря функции «нейродубляжа» видео на разные языки, представил модель для преобразования речи из аудио или видео в текст.  Она поддерживает 99 языков, в том числе русский  vc.ru/ai/1835588
vc.ru
vc.ru
ElevenLabs, который стал известен благодаря функции «нейродубляжа» видео на разные языки, представил модель для преобразования речи из аудио или видео в текст. Она поддерживает 99 языков, в том числе русский vc.ru/ai/1835588
Нейродвиж
Нейродвиж
ElevenLabs не нужен — стартап Hume создал ПЕРВУЮ LLM для генерации аудио и голосов. Стартап захайпил с нейронкой-психологом, которую многие использовали для изучения английского — настолько хороша она была. И теперь они официально выходят на рынок text2speach! Генерация БЕСПЛАТНАЯ, при этом можно иметь неограниченное количество голосов. Пробуем — здесь.
Нейродвиж
Нейродвиж
ElevenLabs выпустили фичу для преобразования аудио в текст и она выглядит круто! На 36,9% точнее OpenAI Whisper V3 и на 5,6% точнее Gemini 2.0 Flash. Поддерживает 99 языков, среди которых и русский. Плюсы: очень круто различает разные голоса спикеров. Есть экспорт во все известные форматы текста, включая SRT субтитры для ютуба . Самое главное — бесплатно до 9 апреля. Пользуемся с VPN — тут.
PROJECT+ | Нейросети
PROJECT+ | Нейросети
Hume представили первую LLM для генерации аудио и голосов. Ранее стартап захайпил с нейросетью-психологом, а теперь выходит на рынок text-to-speech. Можно бесплатно создавать неограниченное количество голосов. Тестируем тут. #Service Подписаться
ElevenLabs выпустила Scribe, новую модель преобразования речи в текст, которая претендует на звание самой точной в мире, превосходя лидеров отрасли, таких как Gemini 2.0 Flash от Google и Whisper v3 от OpenAI  Scribe поддерживает 99 языков, при этом заявленный уровень точности превышает 95% для более чем 25 языков, включая английский, итальянский и испанский.  Цена Scribe составляет $0,40 за час транскрибированного аудио для предварительно записанного звука, а версия с низкой задержкой для приложений реального времени появится в ближайшее время.    PRO AI   ПОЛЕЗНЫЙ СОФТ   НОВОСТИ
PRO AI | ПОЛЕЗНЫЙ СОФТ | НОВОСТИ
PRO AI | ПОЛЕЗНЫЙ СОФТ | НОВОСТИ
ElevenLabs выпустила Scribe, новую модель преобразования речи в текст, которая претендует на звание самой точной в мире, превосходя лидеров отрасли, таких как Gemini 2.0 Flash от Google и Whisper v3 от OpenAI Scribe поддерживает 99 языков, при этом заявленный уровень точности превышает 95% для более чем 25 языков, включая английский, итальянский и испанский. Цена Scribe составляет $0,40 за час транскрибированного аудио для предварительно записанного звука, а версия с низкой задержкой для приложений реального времени появится в ближайшее время. PRO AI ПОЛЕЗНЫЙ СОФТ НОВОСТИ
Твой личный ИИ — отвечает, объясняет, помогает
1chatgpt.ru
1chatgpt.ru
Твой личный ИИ — отвечает, объясняет, помогает
КиберХаб - IT и Нейросети
КиберХаб - IT и Нейросети
ElevenLabs научился генерировать аудиокниги. Сервис ElevenReader преобразует ваши текстовые файлы в аудио. Поддерживает EPUB, PDF и TXT. Достаточно закинуть файл, а система автоматически создаст его аудиоверсию без необходимости сложного редактирования. Поддерживает 32 языка, включая русский. Ещё и бесплатно. КиберХаб БотGPT
GPT/ChatGPT/AI Central Александра Горного
GPT/ChatGPT/AI Central Александра Горного
ElevenLabs выпустил AI для перевода речи в текст Scribe поддерживает 99 языков, в числе которых есть русский, распознает интонации и размечает спикеров. Модель доступна в вебе и через API. Час транскрибации стоит 40 центов.
БлоGнот
БлоGнот
ElevenLabs представили модель Scribe — по их заявлению, самую точную в мире модель Speech-To-Text. Она поддерживает 99 языков и выдает детальные транскрипты с метками времени для каждого слова, распознаванием говорящих и тегами аудиособытий например, смеха . В бенчмарках FLEURS и Common Voice Scribe превосходит ведущие модели, включая Gemini 2.0 Flash, Whisper Large V3 и Deepgram Nova-3. Точность транскрибирования высокая: 98,7% для итальянского, 96,7% для английского и высокие показатели для других языков. Особенно заметны улучшения для традиционно "недообслуживаемых" языков, таких как сербский, кантонский и малаялам, где у конкурирующих моделей часто бывает более 40% ошибок. Разработчики могут интегрировать Scribe через API Speech to Text и получать структурированные JSON-транскрипты. Версия с низкой задержкой для приложений реального времени выйдет в ближайшее время. Обычные пользователи могут загружать аудио- или видеофайлы прямо в панель управления ElevenLabs для создания отформатированных транскриптов. Причем до 9 апреля эта функция в веб-приложении бесплатна. Я попробовал прогнать ролик на украинском — распознало точно правда, почему-то разбило меня на двух спикеров , правда, вычитывать все равно надо, а то оно и все мои междометия поймало. С чем точно не справлялся Whisper и прекрасно получилось у Scribe — это использование английских слов, все упоминания Bolt, Lyft, Jira и так далее приведены корректно. На чем сломался Scribe — стоило мне в середине ролика привести цитату на русском и модель прекрасно следующие минут 5 записала в переводе на русский и потом вернулась на украинский. Never mess with mother freaking Ukrainians, как говорил один мафиозный персонаж в относительно старом триллере.
Код Шрёдингера | IT
Код Шрёдингера | IT
ElevenLabs выпустили фичу для преобразования аудио в текст и она выглядит круто! На 36,9% точнее OpenAI Whisper V3 и на 5,6% точнее Gemini 2.0 Flash. Поддерживает 99 языков, среди которых и русский. Плюсы: очень круто различает разные голоса спикеров. Есть экспорт во все известные форматы текста, включая SRT субтитры для ютуба . Самое главное — бесплатно до 9 апреля. Пользуемся с VPN — тут.