2 апреля, 21:06
Microsoft представила новые бесплатные модели для распознавания речи и генерации изображений
Редакционное саммари
Microsoft анонсировала запуск бесплатной модели для распознавания речи под названием MAI 1, которая предназначена для студентов. Эта модель демонстрирует высокую эффективность, обгоняя в бенчмарке FLEUR такие решения, как Gemini, и поддерживает русский язык, что делает её полезной для транскрибирования лекций и интервью.
MAI 1 позволяет пользователям загружать аудиофайлы или записывать речь непосредственно через браузер. Это упрощает процесс работы с аудиоматериалами и делает его более доступным для студентов и преподавателей. В дополнение к MAI 1, Microsoft также представила другие обновления, включая генератор изображений MAI Image 2 и модель для перевода речи в текст MAI Transcribe 1, однако доступ к последним является платным.
Внедрение MAI 1 может значительно повлиять на образовательный процесс, предоставляя студентам и преподавателям инструменты для более эффективного усвоения информации. Возможность быстро и точно транскрибировать лекции и интервью может улучшить качество обучения и сделать его более интерактивным. Кроме того, бесплатный доступ к такой технологии может способствовать более широкому распространению и использованию искусственного интеллекта в образовательной среде, что в свою очередь может повлиять на развитие навыков работы с новыми технологиями у студентов.
NN
Студенты для вас Microsoft выпустили бесплатную модель для расшифровки речи MAI 1 В бенчмарке FLEUR для голосовых нейронок обходит даже Gemini Можно закидывать файлы или включать запись из браузера Работает быстро и поддерживает русский Подойдет для расшифровки интервью или лекций Забираем тут
Machinelearning
Microsoft представила 3 модели семейства MAI Microsoft выпустила сразу 3 модели под брендом MAI MAI Transcribe 1 для распознавания речи MAI Voice 1 для синтеза голоса и MAI Image 2 для генерации изображений по текстовому описанию Все они позиционируются как решение для тех кому нужны решения продакшен уровня с конкурентной стоимостью инференса MAI Transcribe 1 Модель speech to text с высокоскоростной транскрибацией для 25 языков включая русский На бенчмарке FLEURS показывает лучший Word Error Rate среди конкурентов среднее значение составляет 3 86 Модель обходит Whisper во всех 25 языках Gemini 3 1 Flash в 22 из 25 Принимает форматы WAV MP3 и FLAC Real time транскрибация диаризация и context biasing пока недоступны эти функции заявлены на будущее Стоимость 0 36 за час аудио MAI Voice 1 TTS модель генерирующая реалистичную речь с эмоциональной окраской естественной интонацией и возможностью клонированием голоса по референсу Доступ к клонированию требует одобрения Microsoft и загрузки записанного согласия владельца голоса Заявленная скорость генерации 1 минута аудио за одну секунду Модель поддерживает управление эмоциями на уровне отдельных фраз через SSML и рассчитана на длинный контент аудиокниги подкасты лекции Пока работает только с английским поддержка более 10 языков заявлена в перспективе Доступна в 3 х регионах Azure Central US Japan West и Sweden Central Стоимость 22 за 1 млн символов MAI Image 2 Диффузионная модель для генерации изображений по текстовому промпту которую Microsoft обкатывала в бета тестировании с 20 марта Модель содержит от 10 до 50 млрд параметров без учета эмбеддингов принимает контекст до 32K токенов и генерирует изображения с максимальным разрешением 1024 1024 пикселя По внутренним оценкам через Elo рейтинг MAI Image 2 набирает 1190 8 баллов против 1093 4 у предшественницы MAI Image 1 особенно сильно выступая в фотореалистичных и портретных категориях 1201 балл На лидерборде ArenaAI модель вошла в топ 3 Стоимость 5 за 1 млн токенов текстового ввода 33 за 1 млн токенов на выходе изображения Все модели доступны через Microsoft Foundry Попробовать их в интерактивной среде MAI Playground пока можно только из США ai machinelearning big data news ai ml
vc.ru
Microsoft выпустила обновлённый генератор изображений MAI Image 2 генератор речи MAI Voice 1 и модель для перевода речи в текст MAI Transcribe 1 Доступ к ним платный vc ru ai 2846329
ARKA News Agency
Microsoft AI выкатила сразу три новые мультимодальные ИИ модели для текста голоса и изображений MAI Transcribe 1 переводит речь в текст на 25 языках и работает в 2 5 раза быстрее Azure Fast MAI Voice 1 генерирует минутную аудиодорожку всего за секунду а MAI Image 2 создает изображения по текстовому запросу В Microsoft делают ставку на собственную ИИ инфраструктуру и более низкую стоимость вычислений по сравнению с решениями Google и OpenAI Все модели уже доступны на платформе Microsoft Foundry а инструменты для транскрипции и синтеза речи еще и в MAI Playground Подписывайтесь на arkanewsagency
OMG GPT: Midjourney, DeepSeek, IT
Microsoft запускает линейку MAI сразу три модели под продакшен Microsoft представила семейство MAI и это не эксперимент а готовые решения под реальные задачи Сразу три направления речь голос и изображения Что внутри MAI Transcribe 1 распознавание речи на 25 языках есть русский WER 3 86 лучше Whisper и Gemini в большинстве языков поддержка WAV MP3 FLAC цена 0 36 за час аудио MAI Voice 1 реалистичный синтез речи с эмоциями клонирование голоса с подтверждением скорость 1 минута аудио за 1 секунду пока только английский цена 22 за 1 млн символов MAI Image 2 генерация изображений до 1024 1024 до 50B параметров топ 3 на ArenaAI сильный фотореализм цена 5 за вход 33 за выход 1 млн токенов Все модели доступны через Microsoft Foundry Главный момент ставка на баланс качество стоимость готовность к продакшену
Похожие новости +8 +12 +4
Apple внедряет поддержку сторонних ИИ ассистентов в iOS 27
Технологии
1 день назадOpenAI анонсировала новую модель GPT 5 5 Instant для всех пользователей ChatGPT
Технологии
1 день назадTelegram обновляет функции для улучшения работы с ботами и кастомизации контента
Технологии
15 часов назадApple анонсирует возможность выбора сторонних ИИ моделей в iOS 27
Технологии
1 день назадРоссийские продажи умных колонок достигли 1 млн единиц в I квартале 2026 года
Экономика
1 час назад56 российских компаний переходят на унифицированные коммуникационные платформы для цифровой трансформации
Технологии
22 часа назад