Публикации
2023 г. – новый этап практического применения CXL, статья
VMware сдвигает акцент в проекте Capitola на CXL, статья
Dell Validated Design for Analytics — Data Lakehouse: интегрированное хранилище данных, статья
OCP Global Summit: решения для Computational Storage и компонуемых масштабируемых архитектур, статья
Samsung CXL MemoryySemantic SSD: 20M IOPs, статья
UCIe – открытый протокол для взаимосвязи чиплетов и построения дезагрегированных инфраструктур, статья
Omni-Path Express – открытый интерконнект для экзафлопных HPC/AI-систем, статья
GigaIO: CDI_решение на базе AMD для высшего образования, статья
Энергоэффективные ЦОД на примерах решений Supermicro, Lenovo, Iceotope, Meta, статья
От хранилищ данных и “озер данных” к open data lakehouse и фабрике данных, статья
EuroHPC JU развивает НРС-экосистему на базе RISC-V, статья
LightOS™ 2.2 – программно-определяемое составное блочное NVMe/TCP хранилище, статья
End-to-end 64G FC NAFA, статья
Computational Storage, статья
Технология KIOXIA Software-Enabled Flash™, статья
Pavilion: 200 млн IOPS на стойку, статья
CXL 2.0: инновации в операциях Load/Store вводаавывода, статья
Тестирование референсной архитектуры Weka AI на базе NVIDIA DGX A100, статья
Fujitsu ETERNUS CS8000 – единая масштабируемая платформа для резервного копирования и архивирования, статья
SmartNIC – новый уровень инфраструктурной обработки, статья
Ethernet SSD, JBOF, EBOF и дезагрегированные хранилища, статья
Compute, Memory и Storage, статья
Lenovo: CXL – будущее серверов с многоуровневой памятью , статья
Liqid: компонуемые дезагрегированные инфраструктуры для HPC и AI, статья
Intel® Agilex™ FPGA, статья
Weka для AI-трансформации, статья
Cloudera Data Platform – “лучшее из двух миров”, статья
Fujitsu ETERNUS DSP - разработано для будущего, статья
Технологии охлаждения для следующего поколения HPC-решений, статья
Что такое современный HBA?, статья
Fugaku– самый быстрый суперкомпьютер в мире, статья
НРС – эпоха революционных изменений, статья
Новое поколение СХД Fujitsu ETERNUS, статья
Зональное хранение данных, статья
За пределами суперкомпьютеров, статья
Применение Intel® Optane™ DC и Intel® FPGA PAC, статья
Адаптивные HPC/AI-архитектуры для экзаскейл-эры, статья
DAOS: СХД для HPC/BigData/AI приложений в эру экзаскейл_вычислений, статья
IPsec в пост-квантовую эру, статья
LiCO: оркестрация гибридныхНРС/AI/BigData_инфраструктур, статья
 
Обзоры
Все обзоры в Storage News
 
Тематические публикации
Flash-память
Облачные вычисления/сервисы
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
Современные СХД
Информационная безопасность (ИБ), борьба с мошенничеством
Рынки
NVIDIA DGX GH200: первая система памяти GPU на 100 терабайт

28, май 2023  — 

By Pradyumna Desale

На выставке COMPUTEX 2023 NVIDIA представила NVIDIA DGX GH200 , которая знаменует собой еще один прорыв в вычислениях с ускорением на GPU для поддержки самых ресурсоемких гигантских рабочих нагрузок ИИ. В дополнение к описанию критических аспектов архитектуры NVIDIA DGX GH200 в этом посте обсуждается, как NVIDIA Base Command обеспечивает быстрое развертывание, ускоряет адаптацию пользователей и упрощает управление системой.

nvidia-dgx-gh200-1.jpg

Унифицированная модель программирования памяти графических процессоров была краеугольным камнем различных прорывов в сложных приложениях ускоренных вычислений за последние 7 лет. В 2016 году NVIDIA представила технологию NVLink и модель унифицированного программирования памяти с CUDA-6, предназначенную для увеличения памяти, доступной для рабочих нагрузок с ускорением на GPU.

С тех пор ядром каждой системы DGX является комплекс графических процессоров на базовой плате, соединенный с помощью NVLink, в котором каждый графический процессор может обращаться к памяти другого со скоростью NVLink. Многие такие DGX с комплексами GPU связаны между собой высокоскоростной сетью для формирования более крупных суперкомпьютеров, таких как суперкомпьютер NVIDIA Selene . Тем не менее, формирующийся класс гигантских моделей ИИ с триллионами параметров потребует либо нескольких месяцев для обучения, либо не может быть решен даже на лучших современных суперкомпьютерах.

Чтобы помочь ученым, нуждающимся в передовой платформе, способной решить эти необычные задачи, NVIDIA объединила суперчип NVIDIA Grace Hopper с системой коммутации NVLink, объединив до 256 графических процессоров в систему NVIDIA DGX GH200. В системе DGX GH200 144 терабайта памяти будут доступны для модели программирования с общей памятью графического процессора на высокой скорости через NVLink.

По сравнению с одной системой NVIDIA DGX A100 320 ГБ , NVIDIA DGX GH200 обеспечивает почти в 500 раз больше памяти для модели программирования с общей памятью графического процессора через NVLink, образуя гигантский графический процессор размером с центр обработки данных. NVIDIA DGX GH200 — первый суперкомпьютер, преодолевший барьер в 100 терабайт для памяти, доступной для графических процессоров через NVLink.

gpu-memory-nvlink-1.png

Рис. 1. Прирост памяти графического процессора в результате прогресса NVLink

Системная архитектура NVIDIA DGX GH200

Суперчип NVIDIA Grace Hopper и система коммутации NVLink являются строительными блоками архитектуры NVIDIA DGX GH200. Суперчип NVIDIA Grace Hopper сочетает в себе архитектуры Grace и Hopper с использованием NVIDIA NVLink-C2C для создания согласованной модели памяти CPU + GPU. Система коммутации NVLink, основанная на технологии NVLink четвертого поколения, расширяет соединение NVLink между суперчипами для создания бесшовной системы с несколькими графическими процессорами с высокой пропускной способностью.

Каждый суперчип NVIDIA Grace Hopper в NVIDIA DGX GH200 имеет 480 ГБ памяти ЦП LPDDR5, что составляет восьмую часть мощности на ГБ по сравнению с DDR5 и 96 ГБ быстрой памяти HBM3. ЦП NVIDIA Grace и графический процессор Hopper связаны между собой с помощью NVLink-C2C, обеспечивая в 7 раз большую пропускную способность, чем PCIe Gen5, при мощности в пять раз меньше.

Система коммутации NVLink формирует двухуровневую неблокирующую структуру NVLink с толстым деревом для полного подключения 256 суперчипов Grace Hopper в системе DGX GH200. Каждый графический процессор в DGX GH200 может получить доступ к памяти других графических процессоров и расширенной памяти графического процессора всех процессоров NVIDIA Grace со скоростью 900 Гбит/с.

Вычислительные платы с суперчипами Grace Hopper подключаются к системе коммутации NVLink с помощью специального кабельного жгута для первого слоя матрицы NVLink. Кабели LinkX расширяют возможности подключения на втором уровне матрицы NVLink.

diagram-topology-nvlink-switch-system-dgx-gh200.png

Рис. 2. Топология полностью подключенной системы коммутаторов NVIDIA NVLink на базе NVIDIA DGX GH200, состоящей из 256 графических процессоров.

В системе DGX GH200 потоки графического процессора могут обращаться к одноранговой памяти HBM3 и LPDDR5X от других суперчипов Grace Hopper в сети NVLink, используя таблицу страниц NVLink. Библиотеки ускорения ввода-вывода NVIDIA Magnum оптимизируют обмен данными с графическим процессором для повышения эффективности, улучшая масштабирование приложений со всеми 256 графическими процессорами.

Каждый суперчип Grace Hopper в DGX GH200 сопряжен с одним сетевым адаптером NVIDIA ConnectX-7 и одним сетевым адаптером NVIDIA BlueField-3 . DGX GH200 имеет полосу пропускания 128 ТБ/с и 230,4 терафлопс сетевых вычислений NVIDIA SHARP для ускорения коллективных операций, обычно используемых в ИИ, и удваивает эффективную пропускную способность сетевой системы NVLink за счет снижения коммуникационных издержек при коллективных операциях.

Для масштабирования более 256 графических процессоров адаптеры ConnectX-7 могут соединять несколько систем DGX GH200 для масштабирования в еще большее решение. Мощь DPU BlueField-3 превращает любую корпоративную вычислительную среду в безопасное и ускоренное виртуальное частное облако, позволяя организациям выполнять рабочие нагрузки приложений в безопасных многопользовательских средах.

Целевые варианты использования и преимущества производительности

Скачок между поколениями памяти графического процессора значительно повышает производительность приложений искусственного интеллекта и высокопроизводительных вычислений, узким местом которых является размер памяти графического процессора. Многие основные рабочие нагрузки искусственного интеллекта и высокопроизводительных вычислений могут полностью размещаться в совокупной памяти графического процессора одного NVIDIA DGX H100 . Для таких рабочих нагрузок DGX H100 является наиболее эффективным решением для обучения.

Другие рабочие нагрузки, такие как рекомендательная модель глубокого обучения (DLRM) с терабайтами встроенных таблиц, модель обучения нейронной сети с графом масштаба терабайта или рабочие нагрузки аналитики больших данных, обеспечивают ускорение от 4 до 7 раз с DGX GH200. Это показывает, что DGX GH200 является лучшим решением для более продвинутых моделей искусственного интеллекта и высокопроизводительных вычислений, требующих большой памяти для программирования с общей памятью графического процессора.

Механизм ускорения подробно описан в техническом описании архитектуры суперчипа NVIDIA Grace Hopper .

nvidia-dgx-gh200-3.png

Рисунок 3. Сравнение производительности для гигантских рабочих нагрузок искусственного интеллекта памяти

Специально разработан для самых ресурсоемких рабочих нагрузок

Каждый компонент DGX GH200 выбран таким образом, чтобы свести к минимуму узкие места, максимально повысить производительность сети для ключевых рабочих нагрузок и полностью использовать все аппаратные возможности масштабирования. Результатом является линейная масштабируемость и высокая степень использования огромного пространства общей памяти.

Чтобы получить максимальную отдачу от этой передовой системы, NVIDIA также разработала чрезвычайно высокоскоростную фабрику хранения для работы с максимальной емкостью и обработки различных типов данных (текст, табличные данные, аудио и видео) — параллельно и с неизменной скоростью. производительность.

Полнофункциональное решение NVIDIA

DGX GH200 поставляется с NVIDIA Base Command , которая включает в себя ОС, оптимизированную для рабочих нагрузок ИИ, менеджер кластера, библиотеки, ускоряющие вычисления, хранилище и сетевую инфраструктуру, оптимизированную для системной архитектуры DGX GH200.

DGX GH200 также включает в себя NVIDIA AI Enterprise , предоставляя набор программного обеспечения и сред, оптимизированных для оптимизации разработки и развертывания ИИ. Это комплексное решение позволяет клиентам сосредоточиться на инновациях и меньше беспокоиться об управлении своей ИТ-инфраструктурой.

nvidia-dgx-gh200-4.png

Рис. 4. Полный стек ИИ-суперкомпьютера NVIDIA DGX GH200 включает NVIDIA Base Command и NVIDIA AI Enterprise

Повышение производительности гигантских рабочих нагрузок ИИ и высокопроизводительных вычислений

NVIDIA работает над выпуском DGX GH200 в конце этого года. NVIDIA стремится предоставить этот невероятный первый в своем роде суперкомпьютер и дать вам возможность внедрять инновации и реализовывать свои увлечения в решении самых сложных современных задач в области искусственного интеллекта и высокопроизводительных вычислений.

Узнать больше .

Публикации по теме
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
 
Новости NVIDIA

© "Storage News" journal, Russia&CIS
(495) 233-4935;
www.storagenews.ru; info@storagenews.ru.