Ученый из Яндекса разработал локального чат-бота для браузера с использованием технологий сжатия нейросетей

Работа больших языковых моделей LLM требует больших вычислительных мощностей, поэтому большинство чат-ботов работают в облаке: запросы пользователя отправляются на серверы и обрабатываются там. Исследователь Yandex Research Владимир Малиновский сделал локального чат-бота, которого даже не нужно устанавливать — достаточно открыть страницу в браузере и ввести свой запрос. Объясняем, как им пользоваться и как это работает. Как попробовать Просто откройте эту ссылку в браузере, напишите что-нибудь в строке ввода и нажмите на стрелочку. После этого начнётся процесс загрузки модели, который может занять несколько минут. Когда загрузка завершится, нейросеть ответит на ваш запрос, и дальше с ней можно будет общаться уже без ожидания. Поскольку нейросеть работает локально на вашем устройстве, скорость работы зависит от его мощности. Например, на MacBook Pro M1 это примерно полтора токена в секунду. Как это работает Проект основан на нескольких технологиях, в том числе методах сжатия нейросетей AQLM и PV-tuning, которые разработали учёные из Yandex Research и других организаций. В чат-боте используется языковая модель Llama-3.1-8B, сжатая с помощью комбинации двух методов: AQLM уменьшает и ускоряет модель, а PV-tuning исправляет ошибки, которые возникают при сжатии. В результате исходную модель весом 16 Гб удалось сжать до 2,5 Гб, сохранив при этом около 80% от первоначального качества её ответов. В таком виде её можно запустить на обычном компьютере или смартфоне. Также в проекте используется WebAssembly — формат для исполнения кода прямо в браузере. Именно благодаря ему чат-бот работает без установки, как обычный веб-сервис, хотя все вычисления происходят на устройстве, а не в облаке. Подробнее о том, как проект устроен «под капотом», можно прочитать в статье на Хабре. Подписывайтесь

Технологии514 дня назад

Горизонты искусственного интеллекта

В Yandex Research разработали проект для запуска Llama 3.1 на пользовательских устройствах Исследователь Yandex Research Владимир Малиновский создал сервис AQLM.rs, который позволяет запустить большую языковую модель Llama 3.1 создана Meta, которая признана экстремистской организацией и запрещена в России с 8 млрд параметров на компьютере или смартфоне. Протестировать сервис можно на сайте проекта. При запуске на устройство пользователя загружается модель, размер которой уменьшен в восемь раз, до 2,5 Гб. Сервис использует методы сжатия языковых моделей, которые ученые Yandex Research представили в июле вместе с исследователями из Института науки и технологий Австрии ISTA и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии KAUST . AQLM.rs на GitHub Источник:

Технологии514 дня назад

vc.ru

Исследователь из научного отдела «Яндекса» разработал сервис, который позволяет запустить языковую модель Llama 3.1-8B «на обычном компьютере или смартфоне» через интерфейс браузера. Скорость работы модели зависит от производительности устройства. На MacBook Pro с процессором M1 она составит около 3-4 символов в секунду vc.ru/ai/1698584

Технологии514 дня назад

Запустить большую языковую модель просто в браузере на смартфоне: ученый из Яндекса разработал решение, которое позволяет использовать LLM на гаджетах вроде ноутбука или телефона. В статье на Хабре автор проекта рассказал, что перенести все вычисления на устройства удалось за счет современных технологий сжатия нейросетей. Ждем запуска на принтере и бензопиле как Doom

Техномотель

Запустить большую языковую модель просто в браузере на смартфоне: ученый из Яндекса разработал решение, которое позволяет использовать LLM на гаджетах вроде ноутбука или телефона. В статье на Хабре автор проекта рассказал, что перенести все вычисления на устройства удалось за счет современных технологий сжатия нейросетей. Ждем запуска на принтере и бензопиле как Doom

Технологии514 дня назад

42 секунды

vc: Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере» – Сервис создал исследователь научного центра Яндекса – Он может запустить LLM на компьютере или смартфоне – Запустить LLM на 8 млрд параметров можно в браузере – Протестировать новый сервис можно на спец. странице – При запуске на устройство загрузят модель LLama 3.1-8B – Размер модели был уменьшен в восемь раз, т.е. до 2,5 ГБ – После загрузки модель можно использовать без интернета – Скорость работы модели зависит от мощности устройства – Например, на чипе M1 скорость будет 3-4 символа/сек. – Сервис написан на Rust, он использует WebAssembly – Метод сжатия LLM создан Yandex Research, ISTA и KAUST – Исходный код нового проекта опубликован на GitHub

Технологии514 дня назад

Мой Компьютер

Ученый из Яндекса создал сервис для запуска большой языковой модели с 8 млрд параметров на обычном компьютере или смартфоне Мой Компьютер

Технологии514 дня назад

Ученый из Яндекса разработал локального чат-бота для браузера с использованием технологий сжатия нейросетей

Источники

OpenAI представила новые голосовые модели для улучшения диалогов и перевода в реальном времени

OpenAI анонсировала новую модель GPT 5 5 Instant для всех пользователей ChatGPT

Chrome незаметно загружает модель Gemini Nano на устройства пользователей

56 российских компаний переходят на унифицированные коммуникационные платформы для цифровой трансформации

Telegram обновляет функции для улучшения работы с ботами и кастомизации контента

Apple внедряет поддержку сторонних ИИ ассистентов в iOS 27