12 ноября, 06:59

ElevenLabs представили Scribe v2 Realtime для точной расшифровки речи

Video is not supported
AI и точка.
AI и точка.
ElevenLabs выпустили новую модель для расшифровки текста в реальном времени Scribe v2 Realtime Модель обходит всех конкурентов в точности и в скорости Помогает предиктивная расшифровка модель угадывает следующие слова говорящего исходя из контекста Поддерживает более 90 языков включая русский Уже доступна для разработчиков по API протестировать бесплатно можно здесь
Video is not supported
Not Boring Tech
Not Boring Tech
ElevenLabs только что выпустили Scribe v2 Realtime самую точную нейронку для преобразования речи в текст Выдаёт транскрипцию речи в реальном времени пока вы говорите Автоматически распознаёт и маркирует все голоса без ошибок Превосходит Gemini 2 5 Flash GPT 4o MiniTranscribe и Deepgram Nova 3 Поддерживает 90 языков включая русский API подключается всего за три строчки кода Пользуемся тут notboring tech
Video is not supported
Machinelearning
Machinelearning
ElevenLabs Scribe v2 Realtime STT модель с задержкой менее 150 мс ElevenLabs представила Scribe v2 Realtime новую модель Speech to Text разработанную для задач требующих минимальной задержки голосовых агентов ассистентов для совещаний и создания субтитров в реальном времени Система обрабатывает речь с задержкой менее 150 мс поддерживает более 90 языков и демонстрирует точность 93 5 по 30 популярным языкам Особое внимание уделено работе с аудиозаписями содержащими фоновый шум Фишкой модели стала отрицательная задержка функция предсказывания следующего слова и знака препинания Также есть автоматическое определение языка обнаружение голоса и полный контроль над фиксацией сегментов транскрипции Сервис готов к корпоративному использованию SOC 2 GDPR и уже доступен через API elevenlabs io Backboard установила рекорд в тесте долговременной памяти для ИИ Платформа для ИИ агентов Backboard достигла рекордного показателя в 90 1 в бенчмарке LoCoMo предназначенном для оценки долговременной диалоговой памяти Это лучше предыдущих показателей популярных библиотек которые находились в диапазоне 67 69 LoCoMo тестирует способность системы запоминать обновлять и извлекать факты о пользователе и контекст диалога на протяжении многих сессий Высокий балл означает что ассистенты будут лучше следовать инструкциям реже переспрашивать и требовать более коротких промптов что снижает расход токенов Backboard предоставляет API для долгосрочной памяти мультимодельный API для роутинга между 2200 LLM и RAG слой Все результаты теста воспроизводимы скрипты логи и промпты опубликованы на GitHub backboard io Две трети топовых ИИ компаний допустили утечку секретов на GitHub Компания по облачной безопасности Wiz обнаружила что 65 компаний из списка Forbes AI 50 допустили утечку API ключей токенов и других учетных данных на GitHub По словам исследователей это могло привести к раскрытию приватных моделей данных обучения или внутренней структуры организаций Чаще всего секреты находили в файлах Jupyter Notebook и Python скриптах Среди утечек были токены Hugging Face Azure и W B В одном из случаев скомпрометированный токен Hugging Face мог открыть доступ к тысяче приватных моделей Wiz публично назвала только ElevenLabs и LangChain отметив их быструю реакцию При этом почти половина всех уведомлений об утечках отправленных другим компаниям осталась без ответа wiz io Cloudflare запустила поддержку Python в сервисе Workflows Cloudflare объявила о поддержке Python в своем сервисе Workflows предназначенном для создания и управления многоэтапными процессами на платформе Workers Раньше инструмент был доступен только для TypeScript Новшество открывает сервис для сообщества Python разработчиков специализирующихся на AI ML и обработке данных В качестве примеров использования компания приводит оркестрацию конвейеров данных обучение ML моделей и создание сложных ИИ агентов архитектура которых упрощается за счет встроенной обработке ошибок и сохранению состояния Технически часть реализована через Pyodide порт CPython в WebAssembly blog cloudflare com OpenAI тратит на Sora около 15 млн долларов в день По оценкам аналитиков затраты на видеогенератор Sora обходятся OpenAI в 15 млн в день что в годовом выражении превышает 5 млрд Расчеты основаны на стоимости генерации одного 10 секундного ролика которая составляет для компании около 1 3 и предполагаемом объеме в 11 млн видео ежедневно Несмотря на убыточность OpenAI вероятно следует классической стратегии захвата рынка стремясь сначала сформировать аудиторию а уже потом искать пути монетизации Бесплатный доступ также насыщает компанию огромным количеством данных для дальнейшего обучения моделей Впрочем Сэм Альтман уже подтвердил что компания планирует сокращать объемы бесплатной генерации По его словам ни одна рекламная модель не сможет покрыть расходы на создание забавных мемов для трех друзей forbes com ai machinelearning big data news ai ml