21 ноября, 15:25

Сбер представил линейку Kandinsky 5.0 с открытым исходным кодом для генерации видео и изображений

Подготовлено редакцией Tek.fmДайджест Telegram-каналов

Kandinsky 5 0 новая линейка визуальных моделей в open source Сбер опубликовал в открытом доступе всю линейку Kandinsky 5 0 Video Pro Video Lite Image Lite и токенизаторы K VAE 1 0 Полный open source код веса лицензия MIT Video Pro Text to Video Image to Video Флагман генерирующий HD видео до 10 секунд с гибким управлением движением камеры Обучалась на 520 млн изображений и 250 млн видео а на финальном этапе доучивалась на датасете сверх качественных видеороликов тщательно отобранных профессиональными художниками и дизайнерами Нативно понимает русские и английские промпты генерирует надписи на латинице и кириллице Лучшая открытая модель в мире превосходит Wan 2 2 A14B в Text to Video SBS 59 41 и Image to Video SBS 53 47 а также достигает паритета с Veo 3 по визуальному качеству и динамике SBS 54 46 Video Lite Text to Video Image to Video Компактные модели генерации видео оптимизированные для запуска на GPU от 12 ГБ VRAM Обучалась на 520 млн изображений и 120 млн видео хорошая консистентность и качество динамики Лучшая среди небольших и быстрых моделей значительно превосходит в 7 раз большую по количеству параметров Wan 2 1 14B как в Text to Video SBS 67 33 так и Image to Video SBS 64 36 Image Lite Text to Image Image Editing HD генерация и редактирование изображений Претрейн Text to Image модели был сделан на 520 млн изображений включая датасет русского культурного кода 1 млн изображений Image Editing был дополнительно дообучен на 150 млн пар Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений а также на 20 тыс пар для Editing Нативно понимает русские и английские промпты генерирует надписи на латинице и кириллице Значительно превосходит FLUX 1 dev по Text to Image SBS 63 37 и находится в паритете по качеству с FLUX 1 Kontext dev по Image Editing SBS 54 46 K VAE 1 0 2D 3D Вариационные автоэнкодеры для диффузионных моделей сжимающие входные данные в формате 8x8 изображения и 4x8x8 видео Сравнение на открытых датасетах показывает что модели более качественно восстанавливают исходный сигнал 0 5dB PSNR чем лучшие open source альтернативы Flux Wan Hunyaun обладающие той же степенью сжатия Все модели линейки доступны на GitHub Gitverse и HuggingFace Читайте подробнее в техническом репорте Это партнёрский пост

Технологии168 дней назад

Краснодар | Телетайп

Встречайте Kandinsky 5 0 Сбер запустил Kandinsky 5 0 линейку моделей генерации картинок и видео нового поколения Модель Image Lite Универсальная модель генерации изображений с фокусом на знание русского языка и культуры Реалистичные и детализированные изображения Красивые композиции продуманный свет и естественные материалы Гибкая работа со стилями и жанрами Корректная генерация текста включая кириллицу Модель Video Pro Флагманская модель генерации видео работает наравне с Veo 3 от Google по визуалу и динамике Качественные ролики до 5 секунд Плавная анимация и естественные движения Кинематографичные ракурсы и живая камера Возможность оживлять свои фото и рисунки Всё это уже доступно в ГигаЧат переходите в ТГ бот и в меню выбирайте Нарисовать картинку или Создать видео Также Сбер выложил все модели в открытый доступ чтобы разработчики могли свободно использовать их в своих проектах их можно найти на GitHub и GitVerse

Технологии167 дней назад

НейроProfit | Соня Pro Ai

Встречайте Kandinsky 5 0 Сбер запустил Kandinsky 5 0 линейку моделей генерации картинок и видео нового поколения Модель Image Lite Универсальная модель генерации изображений с фокусом на знание русского языка и культуры Реалистичные и детализированные изображения Красивые композиции продуманный свет и естественные материалы Гибкая работа со стилями и жанрами Корректная генерация текста включая кириллицу Модель Video Pro Флагманская модель генерации видео работает наравне с Veo 3 от Google по визуалу и динамике Качественные ролики до 5 секунд Плавная анимация и естественные движения Кинематографичные ракурсы и живая камера Возможность оживлять свои фото и рисунки Все это уже доступно в ГигаЧат переходите в ТГ бот и в меню выбирайте Нарисовать картинку или Создать видео Также Сбер выложил все модели в открытый доступ чтобы разработчики могли свободно использовать их в своих проектах их можно найти на GitHub и GitVerse

Технологии163 дня назад

Бегин

Технологии162 дня назад

Сбер представил Kandinsky 5 0 линейку моделей для генерации изображений и видео Они ориентируются в российском культурном контексте понимают запросы на русском и английском и создают надписи на кириллице и латинице Также компания выложила их и другие свои модели в открытый доступ vc ru ai 2608441

vc.ru

Сбер представил Kandinsky 5 0 линейку моделей для генерации изображений и видео Они ориентируются в российском культурном контексте понимают запросы на русском и английском и создают надписи на кириллице и латинице Также компания выложила их и другие свои модели в открытый доступ vc ru ai 2608441

Технологии168 дней назад

Нет это не Москва Сити это генерация Kandinsky 5 0 Сбер представил модель вчера на AI Journey и по качеству генераций она уже уверенно конкурирует с реальностью При обучении разработчики сделали упор на эстетику генерации выглядят собранно и без той самой странной ИИ кривизны Модели понимают русский и английский и заточены под культуру и ожидания пользователей из России В линейке есть Image Lite для статичных изображений уверенно держит стиль И модель Video Pro делает 5 секундные ролики плавная анимация динамика плюс можно оживлять фото и рисунки сгенерировали Москва Сити и подумали а зачем вообще ходить на смотровые concertzaal

concertzaal

Нет это не Москва Сити это генерация Kandinsky 5 0 Сбер представил модель вчера на AI Journey и по качеству генераций она уже уверенно конкурирует с реальностью При обучении разработчики сделали упор на эстетику генерации выглядят собранно и без той самой странной ИИ кривизны Модели понимают русский и английский и заточены под культуру и ожидания пользователей из России В линейке есть Image Lite для статичных изображений уверенно держит стиль И модель Video Pro делает 5 секундные ролики плавная анимация динамика плюс можно оживлять фото и рисунки сгенерировали Москва Сити и подумали а зачем вообще ходить на смотровые concertzaal

Технологии167 дней назад

TrendWatching

На AIJ показали КлассикИИ первую AI новеллу в альманахе Россия я люблю тебя Это серия короткометражек о городах нашей необъятной от мегаполисов до малых населённых пунктов Каждый фильм признание в любви к месту где вырос Новелла полностью создана с помощью генеративных нейросетей визуальные образы сцены и эффект погружения формирует Kandinsky 5 0 Такой подход позволяет иначе взглянуть на культурную память и сделать её ближе к сегодняшнему зрителю Сбер поддержал проект как технологический партнёр и соавтор смысла Хороший пример как можно объединять поколения ценности и технологии в живом кино

Технологии167 дней назад

Data Science | Machinelearning [ru]

Kandinsky 5 0 новая линейка визуальных моделей в open source Сбер опубликовал в открытом доступе всю линейку Kandinsky 5 0 Video Pro Video Lite Image Lite и токенизаторы K VAE 1 0 Полный open source код веса лицензия MIT Video Pro Text to Video Image to Video Флагман генерирующий HD видео до 10 секунд с гибким управлением движением камеры Обучалась на 520 млн изображений и 250 млн видео и затем на финальном этапе доучивалась на датасете сверх качественных видеороликов тщательно отобранных профессиональными художниками и дизайнерами Нативно понимает русские и английские промпты генерирует надписи на латинице и кириллице Лучшая открытая модель в мире превосходит Wan 2 2 A14B в Text to Video SBS 59 41 и Image to Video SBS 53 47 а также достигает паритета с Veo 3 по визуальному качеству и динамике SBS 54 46 Video Lite Text to Video Image to Video Компактные модели генерации видео оптимизированные для запуска на GPU от 12 ГБ VRAM Обучалась на 520 млн изображений и 120 млн видео хорошая консистентность и качество динамики Лучшая среди небольших и быстрых моделей значительно превосходит в 7 раз большую по количеству параметров Wan 2 1 14B как в Text to Video SBS 67 33 так и Image to Video SBS 64 36 Image Lite Text to Image Image Editing HD генерация и редактирование изображений Претрейн Text to Image модели был сделан на 520 млн изображений включая датасет русского культурного кода 1 млн изображений Image Editing был дополнительно дообучен на 150 млн пар Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений а также на 20 тыс пар для Editing Нативно понимает русские и английские промпты генерирует надписи на латинице и кириллице Значительно превосходит FLUX 1 dev по Text to Image SBS 63 37 и находится в паритете по качеству с FLUX 1 Kontext dev по Image Editing SBS 54 46 K VAE 1 0 2D 3D Вариационные автоэнкодеры для диффузионных моделей сжимающие входные данные в формате 8x8 изображения и 4x8x8 видео Сравнение на открытых датасетах показывает что модели более качественно восстанавливают исходный сигнал 0 5dB PSNR чем лучшие open source альтернативы Flux Wan Hunyaun обладающие той же степенью сжатия Все модели линейки доступны на GitHub Gitverse и HuggingFace Читайте подробнее в техническом репорте

Технологии165 дней назад

в IT и выйти

Имбовый ИИ для генерации картинок и видео теперь OPEN SOURCE Команда Kandinsky релизнула Kandinsky 5 0 это линейка моделей все с открытым исходным кодом и MIT лицензией Video Pro Video Lite Image Lite Video Pro флагман обучен на 520 млн картинок и 250 млн видео Генерит HD видосы до 10 секунд с плавными движениями камеры Video Lite облегченная версия которая работает на GPU от 12 ГБ VRAM и выдает видосы значительно лучше чем в 7 раз более тяжелый Wan 2 1 14B Image Lite затащит HD генерацию и редактирование картинок заточен под русский код и кириллицу обходит FLUX 1 Весь набор фактов забираем здесь Красота techmedia

Технологии159 дней назад