30 августа, 10:58

Apple анонсировала FastVLM с поддержкой WebGPU для улучшенной обработки изображений и текста

Video is not supported
AI Insider
AI Insider
Apple выпускает FastVLM и MobileCLIP2 на Hugging Face Модели стали в 85 раз быстрее и в 3 4 раза меньше чем в предыдущих версиях что позволяет использовать приложения VLM в реальном времени Он даже может создавать субтитры к видео в реальном времени локально прямо в браузере не требует установки
Video is not supported
Python Community
Python Community
Apple представила FastVLM на Hugging Face модели 0 5B 1 5B и 7B с поддержкой WebGPU VLM Vision Language Model это модель которая умеет одновременно работать с картинками и текстом понимать что изображено описывать картинку словами отвечать на вопросы по изображению и совмещать визуальные и текстовые данные Что это значит До 85 раз быстрее и в 3 4 раза компактнее аналогичных VLM У крупных моделей время до первого токена стало быстрее в 7 9 раз Меньше выходных токенов быстрее обработка картинок высокого разрешения Модель работает в реальном времени прямо в браузере через transformers js и WebGPU huggingface co spaces apple fastvlm webgpu Python Community ru