Psy Eyes
26.03.2025 16:46
Ideogram: выпустили генератор картинок Ideogram 3. Модель хорошо показывает себя в генерации брендированного контента, дизайна, и креативных сцен. Картинки выходят детальные и эстетичные. Потестил, и по сравнению с V1 и 2 чувствуется, что модель по умолчанию тянется к реализму, что хорошо сказывается на композиции. Но дают только 2 генерации на бесплатном тарифе, и они закончились быстрее, чем я успел сложить более полное впечатление. Тем не менее, с моего последнего посещения вижу, что сайт оброс множеством рулек для контроля, что хорошо. Тут тебе и работа по рефу, и код стиля как sref в Midjourney, и задание цветовой палитры чего я больше нигде не видел . Даже холст Canvas свой есть. Определённо камень в огород Recraft. Подписка $20/мес. Сайт Анонс
Psy Eyes
26.03.2025 12:42
AI Илона Маска — Grok — теперь официально в Telegram. Я писал про него здесь. Доступен бесплатно в боте владельцам премиумов. Лимиты не указываются. Сам он говорит, что ограничен только 4096 символами в посте телеги. Grok Твит
Psy Eyes
24.03.2025 08:50
Bytedance: выпустили Infinite You InfU , фреймворк для генерации картинок с целевой персоной. Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения. Из коробки работает с контролнетами, лорами, и IP-адаптерами. Демо Сайт Гитхаб
Psy Eyes
13.03.2025 13:19
Google: добавили в Gemini 2 Flash Experimental работу с картинками промтом. Можно, например, редактировать изображение текстом, или генерить истории со стабильными персонажами на иллюстрациях. Народ в твиттере красит мангу, релайтит фото, вписывает себя в другие локации, и т.д. Также они выпустили визуальную языковую модель VLM Gemma 3, которая в данный момент позиционируется как сильнейшая из тех, что может влезть на один GPU не считая рассуждающих моделей . Размеры от 1B для телефонов до 27B нужно 24+ ГБ VRAM . У 4B-27B моделей контекст 128к можно кормить вагон сканов, графиков, итд , у 1B он 32к и ей нельзя кормить картинки. Русский поддерживает. Демо Gemini Анонс Демо Gemma 3 Анонс Хаггинг
Psy Eyes
04.12.2024 10:01
Krea продолжают ваять вменяемый UI/UX для генератива и теперь тизерят Krea Editor, в котором можно делать аутпейнт и впиливать объекты промтом в выделенную область. Ещё бы картинки можно было таким образом вкидывать, как, например, у Blendbox. Пока фича в приватной бете, доступ к которой вероятно можно получить оставив коммент под твиттом. Сайт
Psy Eyes
03.12.2024 18:52
Tencent: выпустили опенсорсный видеогенератор HunyuanVideo. По качеству черрипиков выглядит неплохо: лучше, чем Allegro, но тесты покажут насколько годнее Mochi-1 или LTX. Опять же, для чего-то абстрактного, не лезущего в сторону зловещей долины, может подойти. Из интересного — монтаж кадров промтом: описываешь две сцены, детали для камеры, и получаешь естественный переход. Плюс генерация со звуком как в Movie Gen. Для генерации 544px960px129fps понадобится 45 ГБ VRAM, а для 720px1280px129fps 60 ГБ. При этом авторы рекомендуют не мелочиться и гонять на 80 ГБ VRAM. Есть веб демо, но нужна китайская симка. Альтернативно имеется колаб. Для Mochy тоже по началу нужно было 4 H100, а в итоге оптимизировали под запуск на 4090. Kijai уже ваяет адаптер под Comfy. В целом тренд релиза таких прожорливых моделей навевает мысли, что толи в 5090 будет памяти больше слухов и китайская братия об этом знает, толи разрабы двигают развитие multigpu в рамках одного компа или распределёнку, толи считают что народ сам или с помощью нейронок возможно будущих адаптирует это под актуальное железо. Пока HunyuanVideo работает только в text-2-video. Позже подъедут image-2-video с чекпоинтами, Gradio демо, официальное Comfy, и diffusers. Будем следить за развитием событий. Сайт Гитхаб Comfy Kijai Хаггинг Демо сайт Демо колаб
Psy Eyes
29.11.2024 14:17
Kling: добавили в раздел с генерацией картинок виртуальную примерочную Virtual Try-on. Полученные изображения можно анимировать i2v моделью. Также в v 1.5 завезли Motion Brush, контроль камеры, и генерация по первому/последнему кейфрейму. Появилось и разделение по качеству для V 1.5: Professional Mode выдаёт 1080p, а Standard 720p без контроля, но зато быстрее. Анонс Примерочная
Psy Eyes
21.11.2024 18:08
Black Forest Labs: выпустили Tools, набор моделей для тонкой работы с генерацией изображений. В него входит: FLUX.1 Fill: модель для инпейтинга и аутпейтинга, позволяющая вписывать/менять объекты на картинках или расширять кадр. FLUX.1 Depth: изменение картинки на основе карты глубины. FLUX.1 Canny: изменение картинки на основе карты очертаний. FLUX.1 Redux: адаптер для получения вариаций изображения. Canny и Depth идут в двух вариантах: полных моделях с максимальным качеством, и лоры Canny Lora плюс Depth Lora на основе Dev для упрощенной разработки. Данные решения от BFL показывают себя лучше, чем контролнеты собранные сообществом, вроде варианта от Alibaba хотя в анонсе ссыль ведёт на альфа версию контролнета, а уже есть обновлённая бета . Также пишут, что картинки на выходе лучше других моделей, но на их бенчах нет Recraft V3. В целом, BFL молодцы, что работают и на комьюнити, продвигая опенсорс, и себя не забывают с платными фишками по API. Анонс Хаггинг Гитхаб
Psy Eyes
20.11.2024 11:06
Suno: выкатили V4 своего генератора музыки. Голоса стали чище, структура треков композиционно насыщеннее, а тексты стали лучше ложиться на инструменты. Вместе с этим добавились новые фичи: ремастер треков до варианта от V4 вероятно работает только с генерациями внутри Suno , улучшенное создание текстов с помощью ReMi, работа с обложками. Старые фичи Covers и Personas тоже получили апгрейд. Примеры звучания V4 от авторов Suno. Раздел Explore также обновился, и можно покрутить барабан обновлённых жанров. Есть только ощущение, что там не весь контент обновлён, но его в любом случае весело крутить. Пока V4 доступна только платным подписчикам. Сайт Анонс Примеры V4
Psy Eyes
12.11.2024 18:07
Alibaba: выпустили выпустили мощную модель для кодинга — Qwen 2.5 Coder 32B. На бенчах показывает себя лучше других опенсорсных и сопоставима по результатам с GPT-4o. Поддержка уже вшита в LMStudio, OpenWebUI + Ollama, и HuggingChat. Можно гонять версии под нужное количество VRAM вашей видюхи: модельный ряд включает в себя версии в размерах от 0.5B до 32B Q4_K_M квант 32B весит 20 ГБ и влезает в 4090 и контекстом от 32К до 128К можно кормить книжки . Есть онлайн демо с Artifacts. Такое же можно получить в интерфейсе OpenWebUI. Ещё можно прицепить к редактору кода Cursor. Анонс Веса модели Демо хаггинг Демо hugging.chat Гитхаб