31 июля, 12:27

Meta представляет SAM 2: новая модель для сегментации изображений и видео

эйай ньюз
эйай ньюз
SAM 2: Segment Anything in Images and Videos Вышла вторая версия SAM - модели для сегментации изображений. Лучше оригинала по качеству, при это в шесть раз быстрее 130 FPS на одной A100 ! Главная новая фича - поддержка видео, для чего в архитектуру добавили темпоральные компоненты memory attention, memory encoder, etc. . Вместе с моделью релизят датасет SA-V в 50к размеченных видео с 600к масклетов масок объекта на протяжении времени . Веса релизнуты по лицензии Apache 2.0, то есть делать с моделью можно практически что угодно. Демо Пейпер Репа ссылки на веса там
Вчера META выпустили модельку SAM 2, развитие идей первой версии Segment Anything — только теперь быстрее, качественнее и с фокусом на видео! К сожалению, пропала возможность писать промпты текстом  хоть для первой версии её и не релизили — видимо, менее актуально .   С архитектурной точки зрения это трансформер, обрабатывающий кадры независимо и параллельно, с дальнейшим применением блока памяти  чтобы связать кадры уже последовательно . По сути, он просто хранит предсказания для последних N кадров, что помогает сформировать предсказания  и сделать их более точными, например, учитывая движение  для N+1-го.   Но, как и в первой версии модели, самая интересная часть — это движок, отвечавший за сбор данных. Тут классический пример, как мощные модели помогают порождать ещё более мощные через псевдоразметку и корректировку людьми. Сначала применяется модель первого поколения на каждый кадр, после чего каждый 6й кадр корректируются человеком. На этом этапе нет никакого трекинга объектов между кадрами — он появляется на следующем этапе.  А дальше 2 раза делается итерация обучить на разметке -> применить модель ко всем видео -> скорректировать вручную -> ... . Так как модель становится качественнее, то сокращается время на разметку — в 5 раз между первым и последним проходами. И на этих этапах уже есть блок памяти, который делает предсказания для промежуточных кадров  которые людям и приходится исправлять .   По итогу вышло разметить 196 часов видео / 51к роликов — люди проставили вручную 10 миллионов масок объектов, и ещё 25.5М сделала сама модель. Это существенно больше, чем любые другие датасеты с сегментацией объектов на видео, так что и прирост качества ощутимый — тупо из-за масштаба. Сами данные, кстати, опубликованы — как и модели.   Статья, код  Интересно, что первый автор оригинального SAM, Alexander Kirillov, ушел из META чтобы лидить команду мультимодальных моделей в OpenAI   ждём новоприбывших и из этого проекта
Сиолошная
Сиолошная
Вчера META выпустили модельку SAM 2, развитие идей первой версии Segment Anything — только теперь быстрее, качественнее и с фокусом на видео! К сожалению, пропала возможность писать промпты текстом хоть для первой версии её и не релизили — видимо, менее актуально . С архитектурной точки зрения это трансформер, обрабатывающий кадры независимо и параллельно, с дальнейшим применением блока памяти чтобы связать кадры уже последовательно . По сути, он просто хранит предсказания для последних N кадров, что помогает сформировать предсказания и сделать их более точными, например, учитывая движение для N+1-го. Но, как и в первой версии модели, самая интересная часть — это движок, отвечавший за сбор данных. Тут классический пример, как мощные модели помогают порождать ещё более мощные через псевдоразметку и корректировку людьми. Сначала применяется модель первого поколения на каждый кадр, после чего каждый 6й кадр корректируются человеком. На этом этапе нет никакого трекинга объектов между кадрами — он появляется на следующем этапе. А дальше 2 раза делается итерация обучить на разметке -> применить модель ко всем видео -> скорректировать вручную -> ... . Так как модель становится качественнее, то сокращается время на разметку — в 5 раз между первым и последним проходами. И на этих этапах уже есть блок памяти, который делает предсказания для промежуточных кадров которые людям и приходится исправлять . По итогу вышло разметить 196 часов видео / 51к роликов — люди проставили вручную 10 миллионов масок объектов, и ещё 25.5М сделала сама модель. Это существенно больше, чем любые другие датасеты с сегментацией объектов на видео, так что и прирост качества ощутимый — тупо из-за масштаба. Сами данные, кстати, опубликованы — как и модели. Статья, код Интересно, что первый автор оригинального SAM, Alexander Kirillov, ушел из META чтобы лидить команду мультимодальных моделей в OpenAI ждём новоприбывших и из этого проекта
Техномотель
Техномотель
Meta показали свою новую модель SAM 2, которая может сегментировать любые объекты из видео в режиме реального времени. Крайне полезная тулза для создания тех же визуальных эффектов на видео. Ну, или для выделения котиков на фоне остальных неважных вещей
ChatGPT | Midjourney | Нейросети
ChatGPT | Midjourney | Нейросети
Meta показали свою новую модель SAM 2, которая может сегментировать любые объекты из видео в режиме реального времени Крайне полезная тулза для создания тех же визуальных эффектов на видео. Ну, или для выделения котиков на фоне остальных неважных вещей
Медиастанция
Медиастанция
Meta выпустили SAM 2 — вторую версию своего инструмента для автоматического определения объектов на изображениях. Она научилась работать с видео, стала качественнее отделять маску и ускорилась в 6 раз. «Мы расширяем SAM на видео, рассматривая изображения как видео с одним кадром. Дизайн модели представляет собой простую архитектуру трансформатора с потоковой памятью для обработки видео в реальном времени», — пишут на Github разработчики. Секс — это, конечно, хорошо, но кто работал с видеомонтажем, понимает, почему эта новость даже лучше. признана экстремистской в РФ
GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta  В апреле 2023 Meta впервые показала свою «Segment Anything Model»  SAM . Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам.   И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны.   Датасет  SA-V  в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео.   Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым.   По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.
Data Secrets
Data Secrets
GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta В апреле 2023 Meta впервые показала свою «Segment Anything Model» SAM . Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам. И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны. Датасет SA-V в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео. Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым. По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.
Product Management & AI
Product Management & AI
Мета анонсировала Segment Anything Model 2 SAM2 — ИИ-модель, разработанную для обнаружения, сегментации, трекинга и покадровой обработки изображений-объектов внутри любого видео Q&A о технологии . Как быстро "снять" 3D-кино-сиквел в эпоху ИИ? 1. Скармливаем старое кино SAM2, распознаем и собираем всех главных героев и объекты. 2. Новый сценарий с безумными ответами пишет ChatGPT, образы новых персонажей генерим в Midjourney. 3. Быстренько анимируем всё с Animate Anyone AI. 4. Новые сцены и декорации доснимаем с дрона/LiDAR SLAM и генерим в 3D с Luma AI. 5. Необходимый киношный 3D-инвентарь генерим с помощью ИИ в Point-E. 6. По сценам скармливаем материал Sora, которая будет собирать из этого новый фильм. 7. Заливаем готовое кино в Apple Vision и смотрим новый 3D-"фильм" в VR/AR.
ГлавХак
ГлавХак
Meta представляет модель Segment Anything 2 SAM 2 расширяет возможности оригинальной модели SAM, включив модуль памяти, который сохраняет информацию о целевых объектах на протяжении всех кадров видео, позволяя отслеживать объект даже при временном исчезновении. Архитектура модели поддерживает работу в реальном времени и обеспечивает надежную производительность без необходимости предварительного обучения. SAM 2 превосходит все существующие модели сегментации. Модель доступна для всех на GitHub --------------------------------- Глаз Бога YouFast VPN™ Купить USDT BTC
Технопроходцы
Технопроходцы
Meta выкатила новую ИИ-модель SAM 2 поможет сегментировать объекты из видео. Кажется, инструмент будет очень полезен для создания крутого визуала! Запрещённая в РФ организация