ElevenLabs представили Scribe v2 Realtime для точной расшифровки речи

ElevenLabs выпускает Scribe V2 Realtime ElevenLabs выпустила Scribe V2 Realtime модель транскрипции с низкой задержкой которая поддерживает более 90 языков Транскрипция в реальном времени с почти нулевой задержкой Многоязычная поддержка более чем 90 языков мира Улучшена точность и пунктуация в шумной обстановке Оптимизирован для звонков в режиме реального времени встреч и потоковых приложений новости dailyprompts

ElevenLabs Scribe v2 Realtime STT модель с задержкой менее 150 мс ElevenLabs представила Scribe v2 Realtime новую модель Speech to Text разработанную для задач требующих минимальной задержки голосовых агентов ассистентов для совещаний и создания субтитров в реальном времени Система обрабатывает речь с задержкой менее 150 мс поддерживает более 90 языков и демонстрирует точность 93 5 по 30 популярным языкам Особое внимание уделено работе с аудиозаписями содержащими фоновый шум Фишкой модели стала отрицательная задержка функция предсказывания следующего слова и знака препинания Также есть автоматическое определение языка обнаружение голоса и полный контроль над фиксацией сегментов транскрипции Сервис готов к корпоративному использованию SOC 2 GDPR и уже доступен через API elevenlabs io Backboard установила рекорд в тесте долговременной памяти для ИИ Платформа для ИИ агентов Backboard достигла рекордного показателя в 90 1 в бенчмарке LoCoMo предназначенном для оценки долговременной диалоговой памяти Это лучше предыдущих показателей популярных библиотек которые находились в диапазоне 67 69 LoCoMo тестирует способность системы запоминать обновлять и извлекать факты о пользователе и контекст диалога на протяжении многих сессий Высокий балл означает что ассистенты будут лучше следовать инструкциям реже переспрашивать и требовать более коротких промптов что снижает расход токенов Backboard предоставляет API для долгосрочной памяти мультимодельный API для роутинга между 2200 LLM и RAG слой Все результаты теста воспроизводимы скрипты логи и промпты опубликованы на GitHub backboard io Две трети топовых ИИ компаний допустили утечку секретов на GitHub Компания по облачной безопасности Wiz обнаружила что 65 компаний из списка Forbes AI 50 допустили утечку API ключей токенов и других учетных данных на GitHub По словам исследователей это могло привести к раскрытию приватных моделей данных обучения или внутренней структуры организаций Чаще всего секреты находили в файлах Jupyter Notebook и Python скриптах Среди утечек были токены Hugging Face Azure и W B В одном из случаев скомпрометированный токен Hugging Face мог открыть доступ к тысяче приватных моделей Wiz публично назвала только ElevenLabs и LangChain отметив их быструю реакцию При этом почти половина всех уведомлений об утечках отправленных другим компаниям осталась без ответа wiz io Cloudflare запустила поддержку Python в сервисе Workflows Cloudflare объявила о поддержке Python в своем сервисе Workflows предназначенном для создания и управления многоэтапными процессами на платформе Workers Раньше инструмент был доступен только для TypeScript Новшество открывает сервис для сообщества Python разработчиков специализирующихся на AI ML и обработке данных В качестве примеров использования компания приводит оркестрацию конвейеров данных обучение ML моделей и создание сложных ИИ агентов архитектура которых упрощается за счет встроенной обработке ошибок и сохранению состояния Технически часть реализована через Pyodide порт CPython в WebAssembly blog cloudflare com OpenAI тратит на Sora около 15 млн долларов в день По оценкам аналитиков затраты на видеогенератор Sora обходятся OpenAI в 15 млн в день что в годовом выражении превышает 5 млрд Расчеты основаны на стоимости генерации одного 10 секундного ролика которая составляет для компании около 1 3 и предполагаемом объеме в 11 млн видео ежедневно Несмотря на убыточность OpenAI вероятно следует классической стратегии захвата рынка стремясь сначала сформировать аудиторию а уже потом искать пути монетизации Бесплатный доступ также насыщает компанию огромным количеством данных для дальнейшего обучения моделей Впрочем Сэм Альтман уже подтвердил что компания планирует сокращать объемы бесплатной генерации По его словам ни одна рекламная модель не сможет покрыть расходы на создание забавных мемов для трех друзей forbes com ai machinelearning big data news ai ml

ElevenLabs представили Scribe v2 Realtime для точной расшифровки речи

Источники

Минздрав РФ внедряет ИИ для снижения нагрузки на медиков

Исследование: Мозг продолжает воспринимать речь под наркозом

Запуск Lazyweb: новый инструмент для дизайнеров и вайбкодеров

Дуров анонсирует обновление опросов в Telegram для повышения достоверности результатов

Завершение производства Tesla Model S и X: последние автомобили сошли с конвейера

Мошенники используют поддельные CAPTCHA для кражи данных пользователей