Meta представляет SAM 2: новая модель для сегментации изображений и видео

SAM 2: Segment Anything in Images and Videos Вышла вторая версия SAM - модели для сегментации изображений. Лучше оригинала по качеству, при это в шесть раз быстрее 130 FPS на одной A100 ! Главная новая фича - поддержка видео, для чего в архитектуру добавили темпоральные компоненты memory attention, memory encoder, etc. . Вместе с моделью релизят датасет SA-V в 50к размеченных видео с 600к масклетов масок объекта на протяжении времени . Веса релизнуты по лицензии Apache 2.0, то есть делать с моделью можно практически что угодно. Демо Пейпер Репа ссылки на веса там

Технологии395 дней назад

Вчера META выпустили модельку SAM 2, развитие идей первой версии Segment Anything — только теперь быстрее, качественнее и с фокусом на видео! К сожалению, пропала возможность писать промпты текстом хоть для первой версии её и не релизили — видимо, менее актуально . С архитектурной точки зрения это трансформер, обрабатывающий кадры независимо и параллельно, с дальнейшим применением блока памяти чтобы связать кадры уже последовательно . По сути, он просто хранит предсказания для последних N кадров, что помогает сформировать предсказания и сделать их более точными, например, учитывая движение для N+1-го. Но, как и в первой версии модели, самая интересная часть — это движок, отвечавший за сбор данных. Тут классический пример, как мощные модели помогают порождать ещё более мощные через псевдоразметку и корректировку людьми. Сначала применяется модель первого поколения на каждый кадр, после чего каждый 6й кадр корректируются человеком. На этом этапе нет никакого трекинга объектов между кадрами — он появляется на следующем этапе. А дальше 2 раза делается итерация обучить на разметке -> применить модель ко всем видео -> скорректировать вручную -> ... . Так как модель становится качественнее, то сокращается время на разметку — в 5 раз между первым и последним проходами. И на этих этапах уже есть блок памяти, который делает предсказания для промежуточных кадров которые людям и приходится исправлять . По итогу вышло разметить 196 часов видео / 51к роликов — люди проставили вручную 10 миллионов масок объектов, и ещё 25.5М сделала сама модель. Это существенно больше, чем любые другие датасеты с сегментацией объектов на видео, так что и прирост качества ощутимый — тупо из-за масштаба. Сами данные, кстати, опубликованы — как и модели. Статья, код Интересно, что первый автор оригинального SAM, Alexander Kirillov, ушел из META чтобы лидить команду мультимодальных моделей в OpenAI ждём новоприбывших и из этого проекта

Сиолошная

Вчера META выпустили модельку SAM 2, развитие идей первой версии Segment Anything — только теперь быстрее, качественнее и с фокусом на видео! К сожалению, пропала возможность писать промпты текстом хоть для первой версии её и не релизили — видимо, менее актуально . С архитектурной точки зрения это трансформер, обрабатывающий кадры независимо и параллельно, с дальнейшим применением блока памяти чтобы связать кадры уже последовательно . По сути, он просто хранит предсказания для последних N кадров, что помогает сформировать предсказания и сделать их более точными, например, учитывая движение для N+1-го. Но, как и в первой версии модели, самая интересная часть — это движок, отвечавший за сбор данных. Тут классический пример, как мощные модели помогают порождать ещё более мощные через псевдоразметку и корректировку людьми. Сначала применяется модель первого поколения на каждый кадр, после чего каждый 6й кадр корректируются человеком. На этом этапе нет никакого трекинга объектов между кадрами — он появляется на следующем этапе. А дальше 2 раза делается итерация обучить на разметке -> применить модель ко всем видео -> скорректировать вручную -> ... . Так как модель становится качественнее, то сокращается время на разметку — в 5 раз между первым и последним проходами. И на этих этапах уже есть блок памяти, который делает предсказания для промежуточных кадров которые людям и приходится исправлять . По итогу вышло разметить 196 часов видео / 51к роликов — люди проставили вручную 10 миллионов масок объектов, и ещё 25.5М сделала сама модель. Это существенно больше, чем любые другие датасеты с сегментацией объектов на видео, так что и прирост качества ощутимый — тупо из-за масштаба. Сами данные, кстати, опубликованы — как и модели. Статья, код Интересно, что первый автор оригинального SAM, Alexander Kirillov, ушел из META чтобы лидить команду мультимодальных моделей в OpenAI ждём новоприбывших и из этого проекта

Технологии395 дней назад

Техномотель

Meta показали свою новую модель SAM 2, которая может сегментировать любые объекты из видео в режиме реального времени. Крайне полезная тулза для создания тех же визуальных эффектов на видео. Ну, или для выделения котиков на фоне остальных неважных вещей

Технологии394 дня назад

ChatGPT | Midjourney | Нейросети

Meta показали свою новую модель SAM 2, которая может сегментировать любые объекты из видео в режиме реального времени Крайне полезная тулза для создания тех же визуальных эффектов на видео. Ну, или для выделения котиков на фоне остальных неважных вещей

Технологии393 дня назад

Медиастанция

Meta выпустили SAM 2 — вторую версию своего инструмента для автоматического определения объектов на изображениях. Она научилась работать с видео, стала качественнее отделять маску и ускорилась в 6 раз. «Мы расширяем SAM на видео, рассматривая изображения как видео с одним кадром. Дизайн модели представляет собой простую архитектуру трансформатора с потоковой памятью для обработки видео в реальном времени», — пишут на Github разработчики. Секс — это, конечно, хорошо, но кто работал с видеомонтажем, понимает, почему эта новость даже лучше. признана экстремистской в РФ

Технологии395 дней назад

GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta В апреле 2023 Meta впервые показала свою «Segment Anything Model» SAM . Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам. И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны. Датасет SA-V в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео. Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым. По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.

Data Secrets

GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta В апреле 2023 Meta впервые показала свою «Segment Anything Model» SAM . Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам. И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны. Датасет SA-V в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео. Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым. По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.

Технологии395 дней назад

Product Management & AI

Мета анонсировала Segment Anything Model 2 SAM2 — ИИ-модель, разработанную для обнаружения, сегментации, трекинга и покадровой обработки изображений-объектов внутри любого видео Q&A о технологии . Как быстро "снять" 3D-кино-сиквел в эпоху ИИ? 1. Скармливаем старое кино SAM2, распознаем и собираем всех главных героев и объекты. 2. Новый сценарий с безумными ответами пишет ChatGPT, образы новых персонажей генерим в Midjourney. 3. Быстренько анимируем всё с Animate Anyone AI. 4. Новые сцены и декорации доснимаем с дрона/LiDAR SLAM и генерим в 3D с Luma AI. 5. Необходимый киношный 3D-инвентарь генерим с помощью ИИ в Point-E. 6. По сценам скармливаем материал Sora, которая будет собирать из этого новый фильм. 7. Заливаем готовое кино в Apple Vision и смотрим новый 3D-"фильм" в VR/AR.

Технологии394 дня назад

ГлавХак

Meta представляет модель Segment Anything 2 SAM 2 расширяет возможности оригинальной модели SAM, включив модуль памяти, который сохраняет информацию о целевых объектах на протяжении всех кадров видео, позволяя отслеживать объект даже при временном исчезновении. Архитектура модели поддерживает работу в реальном времени и обеспечивает надежную производительность без необходимости предварительного обучения. SAM 2 превосходит все существующие модели сегментации. Модель доступна для всех на GitHub --------------------------------- Глаз Бога YouFast VPN™ Купить USDT BTC

Технологии394 дня назад

Технопроходцы

Meta выкатила новую ИИ-модель SAM 2 поможет сегментировать объекты из видео. Кажется, инструмент будет очень полезен для создания крутого визуала! Запрещённая в РФ организация

Технологии392 дня назад

Meta представляет SAM 2: новая модель для сегментации изображений и видео

ByteDance представила универсальную ИИ модель Waver 1.0 для генерации видео и изображений

Microsoft анонсировала новые ИИ модели и интеграцию с Samsung

Джей Мо представляет приложение для идеальных снимков с помощью ИИ

Sync Labs представляет Lipsync 2 Pro: новая ИИ модель для синхронизации губ с поддержкой 4K

ИИ от NtechLab будет контролировать чистоту контейнеров в Челябинской области

OpenAI представила новую голосовую модель GPT Realtime для обработки речи в реальном времени