10 сентября, 09:02

Nvidia анонсировала GPU Rubin CPX для обработки длинного контекста

NVIDIA представила Rubin CPX новый класс GPU для inference с огромным контекстом Что интересно Rubin CPX специализированный GPU для обработки контекста размером до миллиона токенов код видео длинные последовательности Интеграция в платформу Vera Rubin NVL144 CPX До 8 экзафлопс вычислений ИИ 100 ТБ быстрой памяти 1 7 ПБ с пропускной способности Превосходит GB300 NVL72 по производительности на 7 5 Характеристики 30 PFLOPS вычислений в NVFP4 128 ГБ GDDR7 памяти 3 ускоренные attention механизмы для длинного контекста Поддержка всего AI стека NVIDIA Dynamo Nemotron CUDA X AI Enterprise Выход ожидается в конце 2026 года Rubin CPX задаёт новый стандарт для аппаратной архитектуры в AI Это фундамент для моделей которые смогут полноценно работать с огромными контекстами не теряя деталей и качества   nvidianews nvidia com news nvidia unveils rubin cpx a new class of gpu designed for massive context inference
Анализ данных (Data analysis)
Анализ данных (Data analysis)
NVIDIA представила Rubin CPX новый класс GPU для inference с огромным контекстом Что интересно Rubin CPX специализированный GPU для обработки контекста размером до миллиона токенов код видео длинные последовательности Интеграция в платформу Vera Rubin NVL144 CPX До 8 экзафлопс вычислений ИИ 100 ТБ быстрой памяти 1 7 ПБ с пропускной способности Превосходит GB300 NVL72 по производительности на 7 5 Характеристики 30 PFLOPS вычислений в NVFP4 128 ГБ GDDR7 памяти 3 ускоренные attention механизмы для длинного контекста Поддержка всего AI стека NVIDIA Dynamo Nemotron CUDA X AI Enterprise Выход ожидается в конце 2026 года Rubin CPX задаёт новый стандарт для аппаратной архитектуры в AI Это фундамент для моделей которые смогут полноценно работать с огромными контекстами не теряя деталей и качества nvidianews nvidia com news nvidia unveils rubin cpx a new class of gpu designed for massive context inference
Nvidia представила Rubin CPX ИИ чип с 128 ГБ GDDR7 и мощностью 30 Пфлопс который ускоряет обработку длинных контекстов в три раза Новая серия серверов Vera Rubin NVL144 CPX выйдет к концу 2026 года
Хайтек
Хайтек
Nvidia представила Rubin CPX ИИ чип с 128 ГБ GDDR7 и мощностью 30 Пфлопс который ускоряет обработку длинных контекстов в три раза Новая серия серверов Vera Rubin NVL144 CPX выйдет к концу 2026 года
Video is not supported
PRO Hi-Tech
PRO Hi-Tech
NVIDIA представила Rubin CPX специализированный GPU для ускорения инференса с длинным контекстом Чип рассчитан на новые рабочие нагрузки требующие обработки миллионов токенов например в программировании генерации видео и исследованиях Rubin CPX предлагает 30 петафлопс вычислений в формате NVFP4 128 ГБ GDDR7 и трёхкратное ускорение механизма внимания по сравнению с GB300 NVL72 Rubin CPX стал продолжением стратегии NVIDIA SMART направленной на оптимизацию логического вывода Этот подход строится на дезагрегированной архитектуре где разные стадии инференса обрабатываются специализированными ресурсами Rubin CPX отвечает за тяжёлую фазу контекста тогда как GPU Rubin и CPU Vera дополняют его на этапе генерации В связке с ПО NVIDIA TensorRT LLM и Dynamo такая модель позволяет эффективнее использовать ресурсы и снижать затраты на масштабирование В конфигурации Vera Rubin NVL144 CPX стойка объединяет 144 Rubin CPX 144 Rubin и 36 CPU Vera выдавая до 8 эксафлопс NVFP4 и 100 ТБ памяти с пропускной способностью 1 7 ПБ с По заявлениям компании новая система способна снизить издержки вывода и задать новый стандарт для крупномасштабных генеративных моделей
GPT/ChatGPT/AI Central Александра Горного
GPT/ChatGPT/AI Central Александра Горного
Nvidia показала GPU для моделей со сверхдлинным контекстом Компания представила Rubin CPX графический процессор оптимизированный под задачи с контекстом более 1 миллиона токенов Чип рассчитан на disaggregated inference подход где разные GPU обрабатывают разные части задачи Это должно повысить эффективность работы моделей при генерации видео программировании и других сценариях с длинным контекстом Rubin CPX выйдет в конце 2026 года developer nvidia com blog nvidia rubin cpx accelerates inference performance and efficiency for 1m token context workloads
Новый прорыв в ИИ железе Nvidia представила GPU специально спроектированный для инференса с длинным контекстом Чип оптимизирован под обработку значительно более протяжённых последовательностей сокращает задержки и повышает пропускную способность памяти и межсоединений критично для LLM и мультимодальных систем Обещана лучшая утилизация при потоковой генерации и поиске по векторным базам а также тесная интеграция с популярными фреймворками и библиотеками для ускорения вывода Шаг к более памятливым моделям без взрывного роста стоимости Источник SeveraAIClub
Severa AI Club
Severa AI Club
Новый прорыв в ИИ железе Nvidia представила GPU специально спроектированный для инференса с длинным контекстом Чип оптимизирован под обработку значительно более протяжённых последовательностей сокращает задержки и повышает пропускную способность памяти и межсоединений критично для LLM и мультимодальных систем Обещана лучшая утилизация при потоковой генерации и поиске по векторным базам а также тесная интеграция с популярными фреймворками и библиотеками для ускорения вывода Шаг к более памятливым моделям без взрывного роста стоимости Источник SeveraAIClub