10 октября, 11:43

MWS AI представляет мультимодальную модель Cotype VL и бенчмарк MWS Vision Bench

Подготовлено редакцией Tek.fmДайджест Telegram-каналов

#Alibaba #Финополис 2025 #Денис Филиппов #MWS AI

MWS AI выпустила мультимодальную модель Cotype VL и бенчмарк MWS Vision Bench Cotype VL основана на Qwen 2 5 VL от китайской Alibaba и предназначена для работы с текстом и изображениями Модель обучили на наборе данных на русском языке из различных областей включая финансы промышленность ИТ телеком и здравоохранение В датасет вошло больше 150 тыс документов с визуальными данными а также сканированные изображения и скриншоты Мультимодальная модель распознает изображения с печатным рукописным и смешанным текстом учитывает визуальный контекст при переводе с одного языка на другой Она создает краткое и развернутое описание изображений и отвечает на вопросы по их содержанию которые требуют рассуждений сравнений и выводов Cotype VL содержит 32 млрд параметров Поддерживаются русский английский китайский и другие языки Открытый бенчмарк MWS Vision Bench предназначен для оценки мультимодальных моделей которые способны одновременно анализировать изображения и текст Как отмечают разработчики существующие аналоги не охватывают работу решений в продуктовых задачах где необходимо взаимодействие с документами на русском языке MWS Vision Bench проверяет эффективность считывания текста с изображений понимания структуры документа поиска информации распознавания расположения элементов и ответов на сложные вопросы по содержимому В набор входит 800 изображений и около 2 6 тыс заданий В открытом доступе опубликована валидационная часть 400 изображений и 1 3 тыс заданий Источник 1 пресс служба MWS AI Источник 2 www forbes ru tekhnologii 547479 doobucenie svet mts vypustila mul timodal nuu ii model i novyj bencmark

Технологии210 дней назад

MWS AI выпустила первый в своем роде бенчмарк для оценки мультимодальных способностей моделей на русском языке В какой то мере это аналог таких международных бенчей как OCRBench или MMMU К сожалению хороших подобных тестов в принципе немного а существующие крайне плохо покрывают русский язык Так что эвал моделей для работы с русскоязычными мультимодальными документами а таких задач в бизнесе львиная доля проводился в основном методом проб и ошибок Про объективность молчим MWS AI входит в МТС Web Services эту проблему заметили и выпустили MWS Vision Bench Бенчмарк получился довольно объемный и разнообразный 800 изображений и 2580 заданий среди которых анализ офисных и личных документов схем рукописных записей таблиц чертежей диаграмм графиков Словом всего что в принципе может встретиться в реальных сценариях Валидационная часть бенчмарка опубликована в открытом доступе HuggingFace Код тоже выложили найти его можно здесь В том же репозитории есть уже готовый скрипт для того чтобы протестировать любую в том числе собственную модель В данный момент лучшие результаты показывают Gemini 2 5 Pro Claude Sonnet 4 5 и ChatGPT 4 1 mini GPT 5 как ни удивительно заняла только седьмое место

Data Secrets

MWS AI выпустила первый в своем роде бенчмарк для оценки мультимодальных способностей моделей на русском языке В какой то мере это аналог таких международных бенчей как OCRBench или MMMU К сожалению хороших подобных тестов в принципе немного а существующие крайне плохо покрывают русский язык Так что эвал моделей для работы с русскоязычными мультимодальными документами а таких задач в бизнесе львиная доля проводился в основном методом проб и ошибок Про объективность молчим MWS AI входит в МТС Web Services эту проблему заметили и выпустили MWS Vision Bench Бенчмарк получился довольно объемный и разнообразный 800 изображений и 2580 заданий среди которых анализ офисных и личных документов схем рукописных записей таблиц чертежей диаграмм графиков Словом всего что в принципе может встретиться в реальных сценариях Валидационная часть бенчмарка опубликована в открытом доступе HuggingFace Код тоже выложили найти его можно здесь В том же репозитории есть уже готовый скрипт для того чтобы протестировать любую в том числе собственную модель В данный момент лучшие результаты показывают Gemini 2 5 Pro Claude Sonnet 4 5 и ChatGPT 4 1 mini GPT 5 как ни удивительно заняла только седьмое место

Технологии209 дней назад

Data Secrets

MWS AI запускают свою первую мультимодальную модель Cotype VL Об этом рассказал генеральный директор MWS AI Денис Филиппов на форуме Финополис 2025 Вот первая информация о релизе В модели 32B параметров она умеет работать с любыми видами изображений и поддерживает много языков в том числе русский английский и китайский Cotype VL будут поставлять как в виде отдельного продукта так и в составе ИИ агентов MWS AI заточенных под разные специальные сценарии например техподдержка Можно развернуть в закрытом контуре компании и даже совместно с MWS AI дообучить на данных заказчика Для обучения собирали огромный датасет из более чем 50 тыс документов с визуальными данными даже обучили отдельный инструмент для генерации синтетики Модель видела контракты письма диаграммы таблицы схемы карты чертежи рукописи чеки и прочее Тюнили создавать краткое и развернутое описание изображений и отвечать на сложные и логические вопросы по их содержанию Отмечают к слову что добавили в данные много скриншотов ПО и интерфейсов Так что модель помимо прочего может служить даже как основа для computer use

Технологии208 дней назад

MWS Vision Bench На Финополис 2025 CEO MWS AI Денис Филиппов рассказал что их команда запустила первый открытый бенчмарк для мультимодальных моделей Инструмент предназначен для оценки моделей которые работают с документами содержащими изображения и текст на русском До сих пор подходящих бенчмарков для русского языка не существовало международные наборы вроде OCRBench или AI2D ограничены английским и китайским Внутри 800 изображений 2580 заданий договоры схемы таблицы рукописные записи и чертежи Валидационная часть выложена в открытый доступ Можно тестировать свои модели и сравнивать результаты CEO MWS AI отметил что без единых инструментов оценки сложно сравнивать мультимодальные модели и определять какие из них действительно подходят для применения в бизнесе Согласно первым результатам в бенчмарке лидируют Gemini 2 5 Pro Claude Sonnet 4 5 и ChatGPT 4 1 mini В сравнении также участвовали ChatGPT 5 и Qwen3 VL Исходники тут GitHub github com mts ai MWS Vision Bench Hugging Face huggingface co datasets MTSAIR MWS Vision Bench

Open Source

MWS Vision Bench На Финополис 2025 CEO MWS AI Денис Филиппов рассказал что их команда запустила первый открытый бенчмарк для мультимодальных моделей Инструмент предназначен для оценки моделей которые работают с документами содержащими изображения и текст на русском До сих пор подходящих бенчмарков для русского языка не существовало международные наборы вроде OCRBench или AI2D ограничены английским и китайским Внутри 800 изображений 2580 заданий договоры схемы таблицы рукописные записи и чертежи Валидационная часть выложена в открытый доступ Можно тестировать свои модели и сравнивать результаты CEO MWS AI отметил что без единых инструментов оценки сложно сравнивать мультимодальные модели и определять какие из них действительно подходят для применения в бизнесе Согласно первым результатам в бенчмарке лидируют Gemini 2 5 Pro Claude Sonnet 4 5 и ChatGPT 4 1 mini В сравнении также участвовали ChatGPT 5 и Qwen3 VL Исходники тут GitHub github com mts ai MWS Vision Bench Hugging Face huggingface co datasets MTSAIR MWS Vision Bench

Технологии205 дней назад

Раньше всех. Ну почти.

MWS AI выпустила свою первую мультимодальную модель Cotype VL способную одновременно анализировать и интерпретировать изображения и текст рассказал Forbes генеральный директор MWS AI Денис Филиппов в ходе форума Финополис 2025

Технологии210 дней назад

Бэкдор

На форуме Финополис 2025 вскрыли важную проблему компаний как оценить модели в работе с документами и выбрать лучшую Гендир MWS AI Денис Филиппов предложил решение проблемы Компания создала MWS Vision Bench мультимодальный бенчмарк для оценки моделей на русском языке Он проверяет ИИ на реальных задачах распознавании текста понимании контекста и структуры а также извлечении нужной инфы Основа 800 обезличенных изображений и 2580 заданий отражающих работу российских компаний Половину датасета и исходный код бенчмарка выкатили в открытый доступ Оцениваем на GitHub и Hugging Face Бэкдор

Технологии209 дней назад

MWS AI представила мультимодальную нейросеть На Финополисе генеральный директор MWS AI Денис Филиппов представил новую мультимодальную нейронную сеть Cotype VL Эта разработка ориентирована на бизнес задачи она способна обрабатывать текст и изображения одновременно Модель может сравнивать чертежи обнаруживать ошибки распознавать товары и документы по фото а также составлять отчеты используя скриншоты и визуальные данные Нейросеть поддерживает английский русский и китайский языки TechGPTNews

TechGPT [🅽 🅴 🆆 🆂] 🤖

MWS AI представила мультимодальную нейросеть На Финополисе генеральный директор MWS AI Денис Филиппов представил новую мультимодальную нейронную сеть Cotype VL Эта разработка ориентирована на бизнес задачи она способна обрабатывать текст и изображения одновременно Модель может сравнивать чертежи обнаруживать ошибки распознавать товары и документы по фото а также составлять отчеты используя скриншоты и визуальные данные Нейросеть поддерживает английский русский и китайский языки TechGPTNews

Технологии209 дней назад

эйай ньюз

MWS AI выпустила первый бенчмарк для тестирования мультимодальных моделей на русскоязычных документах MWS Vision Bench До этого момента разработчики могли полагаться только на OCRBench или MMMU которые работают исключительно с английским и китайским языками что делало невозможной адекватную оценку моделей для российского рынка Это решает реальную боль компаний теперь можно объективно сравнить насколько хорошо разные VLM модели справляются с типовыми задачами Что проверяет бенчмарк Распознавание текста на сканах договоров и официальных документов Извлечение структурированных данных из таблиц и форм Понимание рукописных заметок и аннотаций Работа со схемами чертежами и диаграммами Ответы на сложные вопросы по содержимому документов Бенчмарк включает 800 реальных изображений и 2580 заданий полностью обезличенных и максимально приближенных к реальным рабочим сценариям Команда MWS AI сделала бенчмарк полностью открытым код выложен на GitHub валидационный датасет доступен на HuggingFace Любой желающий может скачать запустить тесты на своих моделях и сравнить результаты с лидерами сейчас это Gemini 2 5 Pro Claude Sonnet 4 5 и ChatGPT 4 1 mini Архитектура позволяет добавлять новые типы задач и адаптировать бенчмарк под специфические кейсы То есть он может служить фундаментом для развития экосистемы русскоязычных мультимодальных моделей которые наконец то можно сравнивать по единым прозрачным метрикам ai newz

Технологии209 дней назад

Больше отечественного ИИ Глава MWS AI дочка МТС Денис Филиппов анонсировал мультимодальную ИИ модель Cotype VL способную одновременно анализировать и интерпретировать изображения и текст Для её обучения использовался набор данных на русском языке из различных доменов включая финансы промышленность IT и телеком всего более 150 000 документов с визуальными данными Подробнее о том что она умеет kod ru mts mws ai cotype vl

Код Дурова

Больше отечественного ИИ Глава MWS AI дочка МТС Денис Филиппов анонсировал мультимодальную ИИ модель Cotype VL способную одновременно анализировать и интерпретировать изображения и текст Для её обучения использовался набор данных на русском языке из различных доменов включая финансы промышленность IT и телеком всего более 150 000 документов с визуальными данными Подробнее о том что она умеет kod ru mts mws ai cotype vl

Технологии209 дней назад