
Forbes Russia
Распознавание с умом: в России разработана первая мультимодальная модель ИИ Как сообщили Forbes в научно-исследовательском Институте искусственного интеллекта AIRI, OmniFusion — мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных: например, изображений, а в перспективе — аудио, 3D- и видеоконтента. Ее обучением занимается научная группа FusionBrain Института AIRI при участии ученых из Sber AI и SberDevices. Мультимодальные модели открывают новые возможности для анализа информации и выводов, но для обучения и корректной работы продуктов на их основе нужен гигантский объем качественно размещенного контента, предупреждают аналитики. Такие модели могут найти свое применение в ретейле, контент-мейкинге, дизайне, на маркетплейсах для оптимизации рутины, размышляет руководитель направления Data Science в «Битрикс24» Александр Сербул. «Или, предположим, пользователь говорит: «Дай мне текст из этого образа». Далее текст добавляют в базу данных и по нему ищут, например, роликовые коньки. И она тебе отдает все эти картинки, которые последний раз появлялись», — приводит пример эксперт. Подробнее на сайте Forbes : Getty Images

Эксплойт
На HuggingFace хайпует нейросеть OmniFusion — технический отчет про нее сейчас на первом месте в разделе Daily trending papers. Связано это с релизом в открытый доступ OmniFusion 1.1 — это первая из России мультимодальная нейросеть, разработкой которой занимаются исследователи FusionBrain института AIRI вместе с учеными из Sber AI и SberDevices. OmniFusion интересна тем, что расширяет языковые возможности нейросетей с помощью обработки изображений — нейронка может отвечать на запросы в виде фотографий, а в будущем и в формате видео, аудио и 3D.

NN
Первую мультимодальную ИИ-модель OmniFusion 1.1. в России выложили в открытый доступ. Статья про архитектуру нейросети уже на первом месте в разделе Daily trending papers на HuggingFace. Модель работает с картинками. Она умеет объяснять, что изображено на фото, может рассказать рецепт блюда по снимку ингридиентов и проанализировать карту помещения. А еще — решить логическую задачу или написанный от руки пример. Обучением нейросети занимаются ученые из Sber AI и SberDevices. Проект опубликован на GitHub и Technical Report на arXiv.

в IT и выйти
Статья об архитектуре российской мультимодальной модели OmniFusion заняла первое место в списке daily papers на HuggingFace. Модель умеет поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам. В будущем получит также поддержку аудио, 3D- и видеоконтента. Что примечательно, искусственный интеллект обучает научная группа FusionBrain Института AIRI при участии учёных из Sber AI и SberDevices. Модель уже добавили в общий доступ, ей можно пользоваться в коммерческих и некоммерческих целях.

Нейроскептик
Институт искусственного интеллекта AIRI представил открытую версию модели OmniFusion OmniFusion — это продвинутая мультимодальная модель ИИ, разработанная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, таких как изображения, и, возможно, аудио, 3D и видеоконтента. Архитектура модели имеет два варианта — с одним визуальный кодировщик CLIP ViT-L/14 и с двумя CLIP ViT-L/14 и DINO v2 . OmniFusion может давать подробные ответы в различных областях: медицина, распознавание рукописных и отсканированных уравнений, культура и т.д. Модель создана на базе Mistral — это решение с открытым исходным кодом с весами и сценариями обучения. Эксперименты с 8 визуальными языковыми тестами показывают наивысшую оценку лучшей настройки модели. OmniFusion превзошла генеративные показатели и классификационные тесты, такие как TextVQA, по сравнению с новейшими мультимодальными моделями SOTA.


СМИныч
Распознавание с умом: в России разработана первая мультимодальная модель ИИ Как сообщили Forbes в научно-исследовательском Институте искусственного интеллекта AIRI, OmniFusion — мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных: например, изображений, а в перспективе — аудио, 3D- и видеоконтента. Ее обучением занимается научная группа FusionBrain Института AIRI при участии ученых из Sber AI и SberDevices. Мультимодальные модели открывают новые возможности для анализа информации и выводов, но для обучения и корректной работы продуктов на их основе нужен гигантский объем качественно размещенного контента, предупреждают аналитики. Такие модели могут найти свое применение в ретейле, контент-мейкинге, дизайне, на маркетплейсах для оптимизации рутины, размышляет руководитель направления Data Science в «Битрикс24» Александр Сербул. «Или, предположим, пользователь говорит: «Дай мне текст из этого образа». Далее текст добавляют в базу данных и по нему ищут, например, роликовые коньки. И она тебе отдает все эти картинки, которые последний раз появлялись», — приводит пример эксперт. Подробнее на сайте Forbes : Getty Images

ИИшница: IT, ChatGPT, Midjourney
OmniFusion 1.1 — первая российская мультимодальная модель искусственного интеллекта, которая расширяет возможности традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений. Сегодня OmniFusion появилась в открытом доступе, а на портале HuggingFace вышел техрепорт от разработчиков, который уже занял первое место в списке Daily trending papers. За обучение AI-инструмента отвечает научная группа FusionBrain Института AIRI при участии ученых Sber AI и SberDevices. В перспективе у разработчиков есть желание и дальше развивать возможности модели, но уже за счет восприятия аудио, 3D- и видеоконтента. → Подписаться

Нейросети & Технологии | DeepTech
OmniFusion 1.1 – Первая Российская Всемодальная ИИ-Модель Теперь Доступна Всем В России создали и опубликовали OmniFusion 1.1, уникальную всемодальную ИИ-модель, способную работать с изображениями и текстом, обученную командами Sber AI и SberDevices. Модель прославилась на HuggingFace и доступна для изучения и использования через ссылку, также проект можно найти на GitHub и в отчете на arXiv. ———————————————— - Канал про тренды из мира IT, технологий, нейросетей и бизнеса.

GeekNeural: IT & Нейросети
На HuggingFace хайпует нейросеть OmniFusion. Это первая мультимодальная нейросеть из России, разработкой которой занимаются исследователи FusionBrain института AIRI вместе с учеными из Sber AI и SberDevices. Она интересна тем, что расширяет языковые возможности нейросетей с помощью обработки изображений — ИИ сможет отвечать на запросы в виде фотографий, а в будущем и в формате видео, аудио и 3D. GeekNeural #Useful

Нейродвиж
В России появилась первая мультимодальная модель ИИ — OmniFusion 1.1. Она распознает изображения и отвечает на вопросы по картинкам, в планах — научить нейронку понимать аудио, 3D-контент и видеоролики. Разработкой занимались ученые Института искусственного интеллекта AIRI.

Похожие новости



+3



+3



+3



+5


![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/2972f683-eab7-4e0a-9c08-d11cb3f2e57d.jpg)


+1

Thinking Machines анонсирует новые модели взаимодействия с ИИ для живого общения
Технологии
1 день назад


+3
Google предотвращает первую атаку с использованием ИИ на двухфакторную аутентификацию
Технологии
15 часов назад


+3
Сотрудники OpenAI реализовали акции на 6,6 миллиарда долларов
Экономика
1 день назад


+3
Google анонсирует обновление Gemini Intelligence и новые функции Android 17
Технологии
1 день назад


+5
Новые ИИ-сервисы для преобразования речи в текст: от Яндекс до Nothing
Технологии
1 день назад

Китаец создает короткометражный фильм с помощью ИИ, сравниваемый с 'Любовь, смерть и роботы'
Общество
9 часов назад![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/2972f683-eab7-4e0a-9c08-d11cb3f2e57d.jpg)


+1