Python Community
30.08.2025 08:33
Apple представила FastVLM на Hugging Face модели 0 5B 1 5B и 7B с поддержкой WebGPU VLM Vision Language Model это модель которая умеет одновременно работать с картинками и текстом понимать что изображено описывать картинку словами отвечать на вопросы по изображению и совмещать визуальные и текстовые данные Что это значит До 85 раз быстрее и в 3 4 раза компактнее аналогичных VLM У крупных моделей время до первого токена стало быстрее в 7 9 раз Меньше выходных токенов быстрее обработка картинок высокого разрешения Модель работает в реальном времени прямо в браузере через transformers js и WebGPU huggingface co spaces apple fastvlm webgpu Python Community ru