4 декабря, 17:31

Tencent представила опенсорсную модель HunyuanVideo для генерации видео с 13 миллиардами параметров

Подготовлено редакцией Tek.fmДайджест Telegram-каналов

Китайцы Tencent опять ИИ boot! Выложили крупнейшую, на 13b параметров, опенсорсную text2video модель HunyuanVideo. По скорости генерации чуть обходит GEN3, ну и опять же — опенсорсная. Минимально требуемый объём памяти графического процессора составляет 60 ГБ для 720px × 1280px × 129f и 45 ГБ для 544px × 960px × 129f. Вообще, в последнее время выходит просто тонна всего и по итогу теряется в общем потоке. Остаются только имплементированные в продукт решения с возможностью гибкой донастройки. Т.е. именно упаковка продукта и возможность подкрутить под себя дают моделям жизнь и шанс стать действительно массовыми. Вертикальный рост хорош в гонке, но действительно полезных инструментов мы не получим, пока компании не перейдут в горизонтальное развитие. Text2anything сыт не будешь. Поэтому гипотетическая модель от OpenAI, когда они её таки выпустят, конечно, это будет не SORA, а что-то с дополнительными опциями. Выйдет в красивой коробке, и вы не захотите пользоваться никакими, просто самыми большими моделями. Вам нужна зависимость от продукта, и там это понимают.

Технологии520 дней назад

JavaRush – здесь становятся программистами

Посмотрите эти видео, созданные новой моделью ИИ от Tencent Китайская компания Tencent анонсировала HunyuanVideo, новую модель искусственного интеллекта с открытым кодом для генерации видео. По словам представителей Tencent, это наиболее общедоступная модель такого типа, которая содержит более 13 миллиардов параметров. Согласно технической документации, HunyuanVideo работает лучше, чем текущие системы, такие как Runway Gen-3 и Luma 1.6. Особенно сильные результаты система демонстрирует при тестировании качества движения. Модель может выполнять несколько задач, включая создание видео из текстовых описаний, преобразование неподвижных изображений в видео, создание анимированных аватаров и создание аудио для видеосодержимого. Как вам новая модель ИИ?

Технологии519 дней назад

vc.ru

Китайская Tencent представила генератор видео Hunyuan. В тестах компании он «превосходит» Gen-3 Alpha от Runway. Пользователи называют модель «лучшей» из существующих. Они заставляют статуи исполнять трендовые танцы и тестируют реалистичность генераций с людьми vc.ru/ai/1691046

Технологии519 дней назад

Not Boring Tech

Китайцы из Tencent выпустили Hunyuan — лучший опенсорсный генератор видео, который на голову превосходит GEN-3 и аналоги! Выбрал самые впечатляющие примеры, которые взорвали Твиттер. С помощью нейронки можно задать движения персонажу, сгенерировать звук и выбрать монтаж кадров через промпт. Чтобы запустить ИИ на своём компе, нужно минимум 45 ГБ видеопамяти для 544x960 видео и 60 ГБ для 720p. GitHub лежит здесь, а демка — тут.

Технологии518 дней назад

Новости WEB 2.5

Технологии513 дня назад

Psy Eyes

Tencent: выпустили опенсорсный видеогенератор HunyuanVideo. По качеству черрипиков выглядит неплохо: лучше, чем Allegro, но тесты покажут насколько годнее Mochi-1 или LTX. Опять же, для чего-то абстрактного, не лезущего в сторону зловещей долины, может подойти. Из интересного — монтаж кадров промтом: описываешь две сцены, детали для камеры, и получаешь естественный переход. Плюс генерация со звуком как в Movie Gen. Для генерации 544px960px129fps понадобится 45 ГБ VRAM, а для 720px1280px129fps 60 ГБ. При этом авторы рекомендуют не мелочиться и гонять на 80 ГБ VRAM. Есть веб демо, но нужна китайская симка. Альтернативно имеется колаб. Для Mochy тоже по началу нужно было 4 H100, а в итоге оптимизировали под запуск на 4090. Kijai уже ваяет адаптер под Comfy. В целом тренд релиза таких прожорливых моделей навевает мысли, что толи в 5090 будет памяти больше слухов и китайская братия об этом знает, толи разрабы двигают развитие multigpu в рамках одного компа или распределёнку, толи считают что народ сам или с помощью нейронок возможно будущих адаптирует это под актуальное железо. Пока HunyuanVideo работает только в text-2-video. Позже подъедут image-2-video с чекпоинтами, Gradio демо, официальное Comfy, и diffusers. Будем следить за развитием событий. Сайт Гитхаб Comfy Kijai Хаггинг Демо сайт Демо колаб

Технологии519 дней назад

Железный Человек

Новый стандарт. Спойлер: лучше еще не делали Китайский технологический гигант Tencent запустил свою модель для преобразования текста в видео HunyuanVideo с 13 млрд параметров, и многие уже называют ее серьезным конкурентом на рынке. Чем хороша HunyuanVideo: По данным Tencent, HunyuanVideo превосходит существующие системы, такие как Runway Gen-3 и Luma 1.6, особенно по качеству движения и реалистичности. Обучение модели с помощью Causal 3D VAE имеет многоступенчатую систему, благодаря которой достигаются гиперреалистичные результаты с плавными углами обзора камеры и отражениями. Данный фреймворк значительно сокращает количество токенов, необходимых для последующей обработки. Первые тесты показали способность модели создавать короткие видеоролики около 5 секунд высокого качества в разрешении 720p. Используется мультимодальная большая языковая модель MLLM со структурой Decoder-Only, так что пользователи могут легко создавать видео из текстовых подсказок, кроме этого можно конвертировать изображения в видео и создавать анимации. Использование архитектуры Diffusion Transformer с механизмом Full Attention, которую можно увидеть и в Sora. Гибридная модель позволяет независимо обрабатывать видео- и текстовые токены перед их слиянием для лучшего результата. Может быть немного сложно запустить модель локально, так как требуется не менее 45 ГБ памяти графического процессора. Несмотря на высокие требования к технике и некоторым несовершенствам воспроизведения, модель HunyuanVideo показала себя как универсальный и инновационный инструмент, а также серьезный претендент на лидерство. #Свежак #СверхРазум

Технологии519 дней назад

PROAI

Tencent недавно выпустила модель генератора видео на основе ИИ под названием Hunyuan Video , которая превосходит почти все другие модели по качеству – и эта модель с открытым исходным кодом. Это самая продвинутая открытая текстово-видео модель ИИ на сегодняшний день, содержащая 13 миллиардов параметров. Модель справляется с несколькими задачами, включая создание видео на основе текстовых описаний, преобразование неподвижных изображений в видео, создание анимированных аватаров и генерацию аудио для видеоконтента. Результаты действительно впечатляют. Исходный код здесь Рекомендую посмотреть обзор здесь Бесплатный GPT

Технологии517 дней назад