20 октября, 14:37
Alibaba оптимизирует использование ускорителей Nvidia, сокращая потребность на 82%


Новости Китая | ЭКД
Alibaba Cloud сократил использование видеокарт Nvidia на 82 Подразделение Alibaba Cloud представило систему Aegaeon которая позволила снизить потребление графических процессоров Nvidia H20 на 82 при работе с крупными языковыми моделями Разработку тестировали более трех месяцев на платформе Alibaba Cloud где количество используемых видеокарт удалось сократить с 1192 до 213 при обслуживании десятков моделей объемом до 72 млрд параметров Исследование представленное на симпозиуме SOSP в Сеуле показало что Aegaeon оптимизирует ресурсы за счет объединения вычислительной мощности для одновременного обслуживания разных моделей По мнению экспертов новая система может значительно снизить издержки и изменить подход к обработке ИИ нагрузок в сфере облачных вычислений Новости Китая ЭКД
Технологии58 дней назад


DNS_Club
Alibaba Cloud снизила потребность в GPU NVIDIA на 82 благодаря системе Aegaeon это меняет мир ИИ Китайская компания Alibaba Cloud благодаря своей системе виртуализации GPU Aegaeon смогла снизить потребность в ускорителях NVIDIA на 82 при работе с большими языковыми моделями LLM Результаты испытаний были представлены на конференции SOSP 2025 в Сеуле
Технологии56 дней назад


Искусственный интеллект. Высокие технологии
Alibaba сократила использование GPU на 82 с новой системой Aegaeon Alibaba представила Aegaeon революционную систему пуллинга GPU которая делает обслуживание LLM моделей в облаке в восемь раз эффективнее Результаты впечатляют Минус 82 использования Nvidia GPU при работе моделей В 3 месячной бете на Alibaba Cloud с 1 192 до 213 H20 GPU при поддержке десятков моделей до 72B параметров Как это работает Обычно GPU простаивают обслуживая холодные модели 17 7 GPU выполняли лишь 1 35 запросов Aegaeon решает это с помощью токен уровневого авто масштабирования GPU может переключаться между моделями прямо во время генерации не дожидаясь окончания ответа Эффект Один GPU обслуживает до 7 моделей в других системах 2 3 Задержка при переключении снизилась на 97 Горячие модели сохраняют приоритет холодные занимают ресурсы короткими всплесками Система оптимизирована для инференса где генерация идёт по токенам и идеально ложится на тонкое планирование нагрузки В условиях дефицита чипов в Китае это стратегический прорыв меньше GPU больше трафика Что это даёт Снижение стоимости за токен Рост утилизации оборудования Отсрочка закупки новых GPU без потери производительности Источник www scmp com business article 3329450 alibaba cloud claims slash nvidia gpu use 82 new pooling system
Технологии56 дней назад

ОверНовости
Alibaba разработала систему для значительного уменьшения использования графических процессоров в ИИ Alibaba по всей видимости разработала новую систему которая на 82 сокращает количество графических процессоров Nvidia необходимых для запуска больших языковых моделей LLM Результаты представленные на симпозиуме ACM по операционным системам SOSP 2025 в Сеуле свидетельствуют о том что поставщики облачных услуг могут получить значительно больше пользы от существующих чипов Это решение особенно интересно для рынков с ограниченной доступностью таких как Китай где есть проблемы с поставками чипов Nvidia Новая система прошла бета тестирование длившееся несколько месяцев Поскольку чип Nvidia H20 позволяет одновременно обслуживать несколько различных моделей так называемая полезная пропускная способность показатель эффективной производительности увеличивается в девять раз по сравнению со старыми бессерверными системами В течение тестового периода количество графических процессоров необходимых для поддержки десятков различных LLM с 72 миллиардами параметров сократилось с 1192 до всего 213 В исследовании не уточняется какие модели способствовали наибольшей экономии но в статье South China Morning Post говорится что тесты проводились с чипами Nvidia H20 Это один из немногих чипов легально доступных китайским покупателям несмотря на действующий экспортный контроль США По данным Alibaba экономия достигается за счёт двух основных методов объединения нескольких моделей на каждом графическом процессоре и использования автоматического масштабирования на уровне токенов для динамического распределения вычислительной мощности на выходе а не резервирования ресурсов на уровне запроса Однако по данным The Register это исследование не обязательно является прорывом поскольку гиперскейлеры крупные поставщики услуг облачных вычислений которые управляют огромными масштабируемыми центрами обработки данных и таким образом предоставляют клиентам огромные объёмы вычислительной мощности хранилища и другие облачные сервисы стараются не раскрывать все технологические возможности своих платформ Вполне возможно что другие гиперскейлеры уже решили эту проблему и возможно даже показали лучшие результаты чем Alibaba The Register заключает это исследование не вызовет паники у инвесторов в ИИ подобно появлению DeepSeek в январе 2025 года когда казалось китайские технологические компании нашли способы радикально сократить количество графических процессоров необходимых для обучения моделей
Технологии54 дня назад


3DNews
Китай сталкивается с нехваткой вычислительных мощностей для искусственного интеллекта из за ограничений на импорт ускорителей Разработчики работают над оптимизацией и Alibaba смогла уменьшить потребность в ускорителях Nvidia на 82 для своих языковых моделей alibaba alibabacloud ии nvidiah20 Подробнее
Технологии56 дней назад


AI Insider
Компания Alibaba представила решение для объединения вычислений которое по ее словам привело к сокращению числа графических процессоров Nvidia необходимых для обслуживания ее модели искусственного интеллекта на 82 Новая система Aegaeon способна обслуживать десятки крупных языковых моделей используя лишь малую часть графических процессоров которые требовались ранее что потенциально кардинально меняет рабочие нагрузки ИИ Система под названием Aegaeon проходила бета тестирование на рынке моделей Alibaba Cloud в течение более трех месяцев в ходе которого она сократила количество графических процессоров Nvidia H20 необходимых для обслуживания десятков моделей с 72 миллиардами параметров с 1192 до 213 говорится в исследовательском докладе представленном на этой неделе на 31 м симпозиуме по принципам операционных систем SOSP в Сеуле Южная Корея Aegaeon первая работа которая выявила чрезмерные затраты связанные с обслуживанием параллельных рабочих нагрузок LLM на рынке пишут исследователи из Пекинского университета и Alibaba Cloud
Технологии56 дней назад


Креативная партия Умяо
Alibaba буквально придумала GPU шаринг следующего уровня гении нашли способ заменить 1000 видеокарт Nvidia двумя сотнями В Китае дефицит GPU а ограничения на импорт только подливают масла в огонь Но Alibaba выкрутилась их новая система Aegaeon сократила потребность в ускорителях на 82 Задержки при этом упали на 97 а эффективность выросла в разы Фишка в том что один GPU теперь обрабатывает до 7 моделей одновременно переключаясь между ними на уровне токенов Это приблизит нас к AGI
Технологии56 дней назад

Лобушкин
Alibaba изобретает будущее В Китае острый дефицит GPU Nvidia под санкциями поставки душат мощности не хватает Но инженеры Alibaba нашли способ заменить тысячу видеокарт двумя сотнями Новая система Aegaeon сокращает потребность в ускорителях на 82 снижает задержки на 97 и заставляет один GPU работать сразу на семь моделей одновременно переключаясь между ними буквально на уровне токенов Хочешь жить умей вертеться lobushkin
Технологии56 дней назад

GPT/ChatGPT/AI Central Александра Горного
Alibaba придумала как сократить потребность в GPU Компания представила Aegaeon систему которая умеет делить вычислительные ресурсы между AI моделями так эффективно что количество нужных для их обслуживания ускорителей Nvidia сокращается на 82 Проблема многих облачных сервисов вроде Alibaba Cloud в том что они обрабатывают одновременно тысячи моделей Но реальную нагрузку потребляют лишь несколько популярных типа Qwen или DeepSeek Остальные модели используются эпизодически но всё равно сжигают кучу денег на электричество и железо С Aegaeon ускорители динамически переключаются между моделями прямо во время генерации Один GPU теперь может обслуживать до семи моделей против двух трёх в типичных системах а задержки при переключении снижаются на 97 Система уже работает на маркетплейсе моделей Bailian от Alibaba Cloud www scmp com business article 3329450 alibaba cloud claims slash nvidia gpu use 82 new pooling system
Технологии55 дней назад

Innovation & Research
Alibaba Cloud резко сократила потребление GPU благодаря новой системе Aegaeon Новая система позволила снизить потребность в видеокартах Nvidia на 82 при обслуживании LLM В ходе трёхмесячного тестирования на платформе Alibaba Cloud количество GPU H20 необходимых для запуска десятков моделей до 72 млрд параметров сократилось с 1192 до 213 Aegaeon перераспределяет вычисления между моделями на уровне отдельных токенов GPU не ждёт окончания генерации ответа и переключается между задачами в реальном времени Это позволяет обслуживать до 7 моделей на одной карте вдвое больше чем в существующих системах Aegaeon разбивает генерацию ответа на короткие отрезки на уровне токенов Это даёт возможность одной GPU быстро переключаться между задачами и не простаивать в ожидании завершения ответа от одной модели Память при этом остаётся задействованной что повышает общую эффективность Система решает проблему неравномерного использования моделей Большая часть запросов приходится на несколько популярных вроде Qwen и DeepSeek Остальные используются редко но тем не менее ранее занимали отдельные GPU Теперь такие холодные модели получают доступ к ресурсам только при необходимости и на короткое время без ущерба для работы горячих Aegaeon ориентирован на инференс а не обучение и особенно актуален на фоне дефицита чипов в Китае Система помогает снизить стоимость обработки токена повысить загрузку GPU и отложить закупку нового оборудования без ущерба для скорости работы популярных моделей При этом ограничения сохраняются разные LLM требуют разного объёма памяти длинные последовательности мешают быстрой переадресации а при всплесках трафика растёт загрузка планировщика news вычисления AI www scmp com business article 3329450 alibaba cloud claims slash nvidia gpu use 82 new pooling system
Технологии50 дней назад

Похожие новости


![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/af2965a0-21db-4181-af64-693f01cb284d.jpg)













+1



+18

Студент разработал ИИ-систему для Норникеля, прогнозирующую содержание металлов
Общество
2 часа назад

![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/af2965a0-21db-4181-af64-693f01cb284d.jpg)

Алиса AI признана Приложением года на Премии Рунета
Технологии
1 день назад

Снижение госзакупок гражданских дронов в России: падение на 4,3 раза за год
Экономика
8 часов назад



Александр Ведяхин о суверенитете в сфере генеративного ИИ на заседании Совета Федерации
Общество
1 час назад


Microsoft представила системные требования для игр на Windows 11 в 2026 году
Игры
8 часов назад


+1
Якутия: Рекорды газификации, волонтерская помощь и международное сотрудничество
Общество
13 часов назад


+18