26 марта, 17:20

Google представляет алгоритм TurboQuant для оптимизации работы нейросетей

Video is not supported
Анализ данных (Data analysis)
Google представили TurboQuant алгоритм который сильно снижает требования к памяти при работе LLM KV cache это то что хранит весь контекст во время генерации И именно он сейчас становится главным ограничением а не сами модели Чем длиннее диалог или больше пользователей тем быстрее заканчивается память на GPU TurboQuant решает это так сжимает KV cache минимум в 6 раз ускоряет инференс до 8 раз сохраняет качество без заметной потери Это ключевой момент раньше компрессия почти всегда ухудшала ответы Как это устроено сначала данные преобразуются rotation чтобы их было проще сжимать затем применяется основной алгоритм сжатия PolarQuant после этого добавляется лёгкая коррекция QJL которая убирает ошибки В итоге получается почти точное восстановление при сильно меньшем объёме С TurboQuant модели можно запускать на меньшем количестве GPU один сервер может обслуживать больше запросов становится проще работать с длинным контекстом падает стоимость инференса По сути это не про ускорить модель а про перераспределение ресурсов внутри всей системы Раньше оптимизировали веса моделей теперь оптимизируют то как они работают в проде И KV cache как раз одна из самых дорогих частей research google blog turboquant redefining ai efficiency with extreme compression полезные ресурсы Max data analysis ml
DNS_Club
Google представила новый алгоритм сжатия данных TurboQuant он снижает требования ИИ к памяти Исследователи из Google Research представили новый алгоритм сжатия данных для LLM TurboQuant Технология может значительно ускорить инференс ИИ и удешевить его так как снизятся требования к памяти GPU
олдскульный маркетинг
Свой Пегий Дудочник из Кремниевой долины появился у Google Компания представила TurboQuant алгоритм который сжимает память ИИ без потери качества По сути модели смогут помнить больше занимая в 6 раз меньше ресурсов Пока это лабораторный прорыв но если выгорит оперативка перестанет так дорожать а модели станут шустрее У кого большой hooli Гугл отжал этот Pied Piper интересно
Армения в цифрах и фактах
Кажется кризис ОЗУ может подойти к концу Google выпустила алгоритм TurboQuant который сжимает потребление памяти нейросетей в 6 раз и ускоряет их работу до 8 раз без потери качества Нейронкам больше не понадобится столько ОЗУ и графических процессоров чтобы выполнять тот же объём задач На фоне этого акции производителей памяти начали падать Теперь все снова ждут оперативу по нормальным ценам r technology
vc.ru
Google рассказала о технологии TurboQuant которая в несколько раз снижает необходимый для работы ИИ моделей объём памяти Пока она находится на стадии лабораторных исследований и не применяется для реальных задач но уже вызвала интерес в ИТ индустрии и спровоцировала распродажу акций производителей чипов памяти В соцсетях TurboQuant сравнивают с алгоритмом вымышленной компании Pied Piper из сериала Кремниевая долина vc ru ai 2814010
Беспощадный Банкстер
Google похоже лопнул пузырь ИИ Новый алгоритм TurboQuant сжимает потребление памяти нейросетей в 6 раз и ускоряет их до 8 раз из за чего им нужно гораздо меньше железа На этом фоне акции производителей чипов уже полетели вниз ожидается и падение цен на ОЗУ bezposhady
Дмитрий Демушкин
Кризис оперативной памяти подходит к концу Google вражеская организация представила алгоритм TurboQuant который снижает потребление ОЗУ нейросетями в шесть раз и ускоряет их работу до восьми раз без потери качества Благодаря этому моделям требуется значительно меньше оперативной памяти и вычислительных ресурсов для выполнения тех же задач На фоне этих новостей акции производителей памяти снизились рынок снова рассчитывает на более доступные цены на комплектующие
GPT/ChatGPT/AI Central Александра Горного
Google придумал как сжать рабочую память AI в 6 раз без потери качества Новый алгоритм TurboQuant сжимает часть памяти которую модель использует при генерации ответов При этом не страдает качество а инференс требует существенно меньше ресурсов Интернет уже назвал это Pied Piper в честь стартапа из Кремниевой долины с его алгоритмом сжатия без потерь CEO Cloudflare сравнил TurboQuant с появлением DeepSeek когда китайским разработчиком удалось обучить конкурентоспособную LLM в разы дешевле западных компаний Интересно что научная работа по TurboQuant вышла год назад Сегодняшний ажиотаж вызван тем что Google наконец то рассказал о технологии в своём блоге research google blog turboquant redefining ai efficiency with extreme compression ref aisecret us
Мой Компьютер
Новый алгоритм Google не закончит кризис ОЗУ Вчера компания анонсировала алгоритм TurboQuant который позволяет шестикратно сжимать данные в рабочей памяти языковых моделей без потери точности ответов Речь идёт об оптимизации инференса Новость вызвала нервную реакцию среди акционеров производителей памяти из за опасений падения спроса на чипы для ИИ отрасли В экспериментах на Nvidia H100 расход памяти снизился в 6 и более раз при этом подход не потребовал дообучения Посыпались акции SK Hynix Samsung Sandisk и Micron Однако эффект вероятно переоценён TurboQuant работает только во время генерации ответов и скорее всего просто позволит разработчикам внедрять более сложные модели с контекстом в сотни тысяч токенов При этом на огромный расход памяти при обучении моделей он повлиять не может Это просто полезный инструмент для удешевления ИИ сервисов Мой Компьютер
DNS_Club
Акции крупнейших производителей памяти рухнули после анонса алгоритма TurboQuant для ИИ моделей Ученые из подразделения Google Research вызвали лавинную распродажу акций крупнейших производителей памяти которые за последние полгода подскочили на сотни процентов Открытие алгоритма сжатия TurboQuant снижает требования ИИ моделей к памяти что потенциально может положить конец кризису на рынке и сделать ОЗУ и накопители снова доступными