Apple анонсировала FastVLM с поддержкой WebGPU для улучшенной обработки изображений и текста

Apple представила FastVLM на Hugging Face модели 0 5B 1 5B и 7B с поддержкой WebGPU VLM Vision Language Model это модель которая умеет одновременно работать с картинками и текстом понимать что изображено описывать картинку словами отвечать на вопросы по изображению и совмещать визуальные и текстовые данные Что это значит До 85 раз быстрее и в 3 4 раза компактнее аналогичных VLM У крупных моделей время до первого токена стало быстрее в 7 9 раз Меньше выходных токенов быстрее обработка картинок высокого разрешения Модель работает в реальном времени прямо в браузере через transformers js и WebGPU huggingface co spaces apple fastvlm webgpu Python Community ru

Apple анонсировала FastVLM с поддержкой WebGPU для улучшенной обработки изображений и текста

TikTok расширяет функционал, добавляя голосовые сообщения и обмен фото

Alibaba разрабатывает ИИ чипы в ответ на ограничения Nvidia

Утечка дорожной карты мобильных процессоров Intel и AMD до 2026 года

Новая нейросеть превращает видео в конспекты за секунды

Прорыв в компьютерном зрении: Янн ЛеКун представил LeNet, первую сверточную нейронную сеть

Илон Маск анонсировал высокие гарантированные доходы благодаря ИИ