Microsoft представила новые бесплатные модели для распознавания речи и генерации изображений

Студенты для вас Microsoft выпустили бесплатную модель для расшифровки речи MAI 1 В бенчмарке FLEUR для голосовых нейронок обходит даже Gemini Можно закидывать файлы или включать запись из браузера Работает быстро и поддерживает русский Подойдет для расшифровки интервью или лекций Забираем тут

Технологии35 дней назад

Machinelearning

Microsoft представила 3 модели семейства MAI Microsoft выпустила сразу 3 модели под брендом MAI MAI Transcribe 1 для распознавания речи MAI Voice 1 для синтеза голоса и MAI Image 2 для генерации изображений по текстовому описанию Все они позиционируются как решение для тех кому нужны решения продакшен уровня с конкурентной стоимостью инференса MAI Transcribe 1 Модель speech to text с высокоскоростной транскрибацией для 25 языков включая русский На бенчмарке FLEURS показывает лучший Word Error Rate среди конкурентов среднее значение составляет 3 86 Модель обходит Whisper во всех 25 языках Gemini 3 1 Flash в 22 из 25 Принимает форматы WAV MP3 и FLAC Real time транскрибация диаризация и context biasing пока недоступны эти функции заявлены на будущее Стоимость 0 36 за час аудио MAI Voice 1 TTS модель генерирующая реалистичную речь с эмоциональной окраской естественной интонацией и возможностью клонированием голоса по референсу Доступ к клонированию требует одобрения Microsoft и загрузки записанного согласия владельца голоса Заявленная скорость генерации 1 минута аудио за одну секунду Модель поддерживает управление эмоциями на уровне отдельных фраз через SSML и рассчитана на длинный контент аудиокниги подкасты лекции Пока работает только с английским поддержка более 10 языков заявлена в перспективе Доступна в 3 х регионах Azure Central US Japan West и Sweden Central Стоимость 22 за 1 млн символов MAI Image 2 Диффузионная модель для генерации изображений по текстовому промпту которую Microsoft обкатывала в бета тестировании с 20 марта Модель содержит от 10 до 50 млрд параметров без учета эмбеддингов принимает контекст до 32K токенов и генерирует изображения с максимальным разрешением 1024 1024 пикселя По внутренним оценкам через Elo рейтинг MAI Image 2 набирает 1190 8 баллов против 1093 4 у предшественницы MAI Image 1 особенно сильно выступая в фотореалистичных и портретных категориях 1201 балл На лидерборде ArenaAI модель вошла в топ 3 Стоимость 5 за 1 млн токенов текстового ввода 33 за 1 млн токенов на выходе изображения Все модели доступны через Microsoft Foundry Попробовать их в интерактивной среде MAI Playground пока можно только из США ai machinelearning big data news ai ml

Технологии34 дня назад

vc.ru

Microsoft выпустила обновлённый генератор изображений MAI Image 2 генератор речи MAI Voice 1 и модель для перевода речи в текст MAI Transcribe 1 Доступ к ним платный vc ru ai 2846329

Технологии34 дня назад

ARKA News Agency

Microsoft AI выкатила сразу три новые мультимодальные ИИ модели для текста голоса и изображений MAI Transcribe 1 переводит речь в текст на 25 языках и работает в 2 5 раза быстрее Azure Fast MAI Voice 1 генерирует минутную аудиодорожку всего за секунду а MAI Image 2 создает изображения по текстовому запросу В Microsoft делают ставку на собственную ИИ инфраструктуру и более низкую стоимость вычислений по сравнению с решениями Google и OpenAI Все модели уже доступны на платформе Microsoft Foundry а инструменты для транскрипции и синтеза речи еще и в MAI Playground Подписывайтесь на arkanewsagency

Технологии34 дня назад

OMG GPT: Midjourney, DeepSeek, IT

Microsoft запускает линейку MAI сразу три модели под продакшен Microsoft представила семейство MAI и это не эксперимент а готовые решения под реальные задачи Сразу три направления речь голос и изображения Что внутри MAI Transcribe 1 распознавание речи на 25 языках есть русский WER 3 86 лучше Whisper и Gemini в большинстве языков поддержка WAV MP3 FLAC цена 0 36 за час аудио MAI Voice 1 реалистичный синтез речи с эмоциями клонирование голоса с подтверждением скорость 1 минута аудио за 1 секунду пока только английский цена 22 за 1 млн символов MAI Image 2 генерация изображений до 1024 1024 до 50B параметров топ 3 на ArenaAI сильный фотореализм цена 5 за вход 33 за выход 1 млн токенов Все модели доступны через Microsoft Foundry Главный момент ставка на баланс качество стоимость готовность к продакшену

Технологии32 дня назад

Microsoft представила новые бесплатные модели для распознавания речи и генерации изображений

Редакционное саммари

Источники

Apple внедряет поддержку сторонних ИИ ассистентов в iOS 27

OpenAI анонсировала новую модель GPT 5 5 Instant для всех пользователей ChatGPT

Telegram обновляет функции для улучшения работы с ботами и кастомизации контента

Apple анонсирует возможность выбора сторонних ИИ моделей в iOS 27

Российские продажи умных колонок достигли 1 млн единиц в I квартале 2026 года

56 российских компаний переходят на унифицированные коммуникационные платформы для цифровой трансформации