Публикации
2023 г. – новый этап практического применения CXL, статья
VMware сдвигает акцент в проекте Capitola на CXL, статья
Dell Validated Design for Analytics — Data Lakehouse: интегрированное хранилище данных, статья
OCP Global Summit: решения для Computational Storage и компонуемых масштабируемых архитектур, статья
Samsung CXL MemoryySemantic SSD: 20M IOPs, статья
UCIe – открытый протокол для взаимосвязи чиплетов и построения дезагрегированных инфраструктур, статья
Omni-Path Express – открытый интерконнект для экзафлопных HPC/AI-систем, статья
GigaIO: CDI_решение на базе AMD для высшего образования, статья
Энергоэффективные ЦОД на примерах решений Supermicro, Lenovo, Iceotope, Meta, статья
От хранилищ данных и “озер данных” к open data lakehouse и фабрике данных, статья
EuroHPC JU развивает НРС-экосистему на базе RISC-V, статья
LightOS™ 2.2 – программно-определяемое составное блочное NVMe/TCP хранилище, статья
End-to-end 64G FC NAFA, статья
Computational Storage, статья
Технология KIOXIA Software-Enabled Flash™, статья
Pavilion: 200 млн IOPS на стойку, статья
CXL 2.0: инновации в операциях Load/Store вводаавывода, статья
Тестирование референсной архитектуры Weka AI на базе NVIDIA DGX A100, статья
Fujitsu ETERNUS CS8000 – единая масштабируемая платформа для резервного копирования и архивирования, статья
SmartNIC – новый уровень инфраструктурной обработки, статья
Ethernet SSD, JBOF, EBOF и дезагрегированные хранилища, статья
Compute, Memory и Storage, статья
Lenovo: CXL – будущее серверов с многоуровневой памятью , статья
Liqid: компонуемые дезагрегированные инфраструктуры для HPC и AI, статья
Intel® Agilex™ FPGA, статья
Weka для AI-трансформации, статья
Cloudera Data Platform – “лучшее из двух миров”, статья
Fujitsu ETERNUS DSP - разработано для будущего, статья
Технологии охлаждения для следующего поколения HPC-решений, статья
Что такое современный HBA?, статья
Fugaku– самый быстрый суперкомпьютер в мире, статья
НРС – эпоха революционных изменений, статья
Новое поколение СХД Fujitsu ETERNUS, статья
Зональное хранение данных, статья
За пределами суперкомпьютеров, статья
Применение Intel® Optane™ DC и Intel® FPGA PAC, статья
Адаптивные HPC/AI-архитектуры для экзаскейл-эры, статья
DAOS: СХД для HPC/BigData/AI приложений в эру экзаскейл_вычислений, статья
IPsec в пост-квантовую эру, статья
LiCO: оркестрация гибридныхНРС/AI/BigData_инфраструктур, статья
 
Обзоры
Все обзоры в Storage News
 
Тематические публикации
Flash-память
Облачные вычисления/сервисы
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
Современные СХД
Информационная безопасность (ИБ), борьба с мошенничеством
Рынки
Ускорение рабочих нагрузок генеративного ИИ с сетевой платформой NVIDIA Spectrum-X

20, май 2023  — 

By Peter Rizk , https://developer.nvidia.com/blog/turbocharging-ai-workloads-with-nvidia-spectrum-x-networking-platform/

В последнее время наблюдается быстрый рост моделей больших языков (LLM, Large Language Models ) и приложений ИИ, таких как ChatGPT и DALL-E. Благодаря GPU, CPU, DPU, высокоскоростным хранилищам и программным инновациям, оптимизированным для ИИ, ИИ теперь широко доступен. Вы даже можете развернуть ИИ в облаке или локально.

nvidia-spectrum-x.jpg

Тем не менее приложения ИИ могут быть очень требовательны к сети, и этот рост ложится бременем на серверы ЦП и ГП, а также на существующую базовую сетевую инфраструктуру, которая соединяет эти системы вместе.

Традиционный Ethernet, хотя и достаточен для работы с основными и корпоративными приложениями, такими как веб-приложения и потоковое видео или аудио, не оптимизирован для поддержки рабочих нагрузок ИИ нового поколения. Традиционный Ethernet идеально подходит для слабосвязанных приложений, потоков с низкой пропускной способностью и высоким джиттером. Этого может быть достаточно для разнородного трафика (например, веб-трафика, потокового видео или аудио, передачи файлов и игр), но он не идеален, когда происходит переподписка.

Сетевая платформа NVIDIA Spectrum-X, разработанная с нуля для удовлетворения требований к производительности приложений ИИ, представляет собой комплексное решение, оптимизированное для высокой производительности сети, низкой задержки и масштабируемости.

NVIDIA Spectrum-X

Сетевая платформа NVIDIA Spectrum-X была разработана для устранения ограничений традиционной сети Ethernet. Это сетевая структура, разработанная для удовлетворения потребностей требовательных приложений ИИ, предназначенная для тесно связанных процессов.

Это сертифицированное и протестированное NVIDIA комплексное решение сочетает в себе лучшее в своем классе сетевое оборудование и программное обеспечение, оптимизированное для ИИ, чтобы обеспечить предсказуемый, стабильный и бескомпромиссный уровень производительности, необходимый для рабочих нагрузок ИИ.

nvidia-spectrum-x-1.png

Рис. 1. Сетевая платформа NVIDIA Spectrum-X объединяет Ethernet-коммутатор NVIDIA Spectrum-4 с DPU NVIDIA BlueField-3 для обеспечения оптимальной производительности для рабочих нагрузок ИИ.

NVIDIA Spectrum-X — это очень универсальная технология, которую можно использовать с различными приложениями ИИ. В частности, это может значительно повысить производительность и эффективность кластеров ИИ в следующих случаях использования:

•  GPT и BERT LLM

•  Распределенное обучение и параллельная обработка

•  Обработка естественного языка (NLP)

•  Компьютерное зрение

•  Высокопроизводительное моделирование ( NVIDIA Omniverse и NVIDIA OVX )

•  Высокопроизводительная аналитика данных (Spark)

•  Приложения для логического вывода

Двумя ключевыми элементами платформы NVIDIA Spectrum-X являются Ethernet-коммутатор NVIDIA Spectrum-4 и DPU NVIDIA BlueField-3 .

Ethernet-коммутатор NVIDIA Spectrum-4

Ethernet-коммутатор NVIDIA Spectrum-4 обеспечивает беспрецедентную производительность приложений для кластеров ИИ, построенных на стандартном Ethernet. Для реализации всего потенциала NVIDIA Spectrum-4 требуется сквозная, специально созданная сетевая архитектура. Только платформа NVIDIA Spectrum-X предоставляет аппаратные ускорители и разгрузки, необходимые для поддержки гипермасштабируемого ИИ.

Ethernet-коммутаторы NVIDIA Spectrum-4 построены на основе ASIC Spectrum-4 со скоростью 51,2 Тбит/с и пропускной способностью в 4 раза выше, чем у предыдущего поколения. Это первая в мире коммутационная платформа Ethernet AI. Он был разработан для рабочих нагрузок ИИ и сочетает в себе специализированную высокопроизводительную архитектуру со стандартным подключением Ethernet.

NVIDIA Spectrum-4 предлагает:

•  Расширения RoCE: RoCE с уникальными улучшениями

•  Адаптивная маршрутизация RoCE

•  Изоляция производительности RoCE

•  Упрощенная автоматизированная адаптивная маршрутизация и конфигурации RoCE

•  Синхронизированные коллективы

•  Другие усовершенствования RoCE для высокопроизводительных вычислений

•  Самая высокая эффективная пропускная способность Ethernet в любом масштабе

•  Низкая задержка с низким джиттером и коротким хвостом

•  Детерминированная производительность и изоляция производительности

•  Полный стек и сквозная оптимизация

•  NVIDIA Cumulus Linux или SONiC

nvidia-spectrum-x-2.png

Рисунок 2. NVIDIA Spectrum-4 сочетает в себе специализированную высокопроизводительную архитектуру со стандартным подключением Ethernet

Ключевые преимущества NVIDIA Spectrum-X с NVIDIA Spectrum-4 включают следующее:

•  Использование расширения RoCE для ИИ и адаптивной маршрутизации (AR) для достижения максимальной производительности библиотеки коллективных коммуникаций NVIDIA (NCCL).

•  Использование изоляции производительности для обеспечения того, чтобы в среде с несколькими арендаторами и несколькими заданиями одно задание не влияло на другое.

•  Гарантия того, что в случае сбоя сетевого компонента структура продолжит обеспечивать максимальную производительность.

•  Синхронизация с BlueField-3 DPU для достижения оптимальной производительности NCCL и AI

•  Поддержание последовательной и стабильной производительности при различных рабочих нагрузках ИИ, что жизненно важно для выполнения соглашений об уровне обслуживания.

Сквозная оптимальная производительность сети

Чтобы построить эффективную вычислительную фабрику ИИ, необходимо оптимизировать каждую часть сети ИИ, от DPU до коммутаторов и сетевого программного обеспечения. Достижение максимальной эффективной пропускной способности при нагрузке и масштабировании требует использования таких методов, как адаптивная маршрутизация RoCE и усовершенствованные механизмы управления перегрузкой. Включение возможностей, которые работают синхронно на DPU NVIDIA BlueField-3 и коммутаторах Spectrum-4, имеет решающее значение для достижения максимальной производительности и надежности искусственного интеллекта.

Адаптивная маршрутизация RoCE

Рабочие нагрузки и приложения ИИ характеризуются небольшим количеством слоновых потоков, ответственных за перемещение больших объемов данных между графическими процессорами, где хвостовая задержка сильно влияет на общую производительность приложения. Удовлетворение таких шаблонов трафика с помощью традиционных механизмов сетевой маршрутизации может привести к непостоянной и недоиспользованной производительности графического процессора для рабочих нагрузок ИИ.

Адаптивная маршрутизация RoCE — это технология тонкой балансировки нагрузки. Он динамически перенаправляет данные RDMA, чтобы избежать перегрузки и обеспечить оптимальную балансировку нагрузки для достижения максимальной эффективной пропускной способности данных.

Это сквозная возможность, включающая коммутаторы Spectrum-4 и DPU BlueField-3. Коммутаторы Spectrum-4 отвечают за выбор наименее загруженного порта для передачи данных для каждого пакета. Поскольку разные пакеты одного и того же потока проходят по разным путям в сети, они могут прибыть к месту назначения не по порядку. BlueField-3 преобразует любые неупорядоченные данные на транспортном уровне RoCE, прозрачно доставляя приложению упорядоченные данные.

Spectrum-4 оценивает перегрузку на основе загрузки исходящей очереди, обеспечивая сбалансированность всех портов. Для каждого сетевого пакета коммутатор выбирает порт с минимальной нагрузкой в ??своей исходящей очереди. Spectrum-4 также получает уведомления о состоянии от соседних коммутаторов, которые влияют на решение о маршрутизации. Оцененные очереди сопоставляются с уровнем качества обслуживания.

В результате NVIDIA Spectrum-X обеспечивает эффективную пропускную способность до 95 % в гипермасштабируемой системе при нагрузке и при масштабировании.

nvidia-spectrum-x-3.png

Рисунок 3. Типичная структура развертывания центра обработки данных NVIDIA Spectrum-4

Контроль перегрузки RoCE

Приложения, работающие одновременно в гипермасштабируемых облачных системах, могут страдать от ухудшения производительности и воспроизводимого времени выполнения из-за перегрузки на уровне сети. Это может быть вызвано сетевым трафиком самого приложения или фоновым сетевым трафиком других приложений. Основная причина такой перегрузки известна как перегрузка «многие к одному», когда имеется несколько отправителей данных и один получатель данных.

Такая перегрузка не может быть решена с помощью адаптивной маршрутизации и фактически требует измерения потока данных для каждой конечной точки. Управление перегрузкой — это комплексная технология, в которой коммутаторы Spectrum-4 предоставляют телеметрическую информацию о сети, представляющую данные о перегрузке в реальном времени. Эта телеметрическая информация обрабатывается процессорами BlueField DPU, которые управляют и контролируют скорость ввода данных отправителем данных, что обеспечивает максимальную эффективность совместного использования сети.

Без управления перегрузкой сценарии «многие к одному» вызовут обратное давление в сети и распространение перегрузки или даже отбрасывание пакетов, что резко снизит производительность сети и приложений.

В процессе управления перегрузкой DPU BlueField-3 выполняют алгоритм управления перегрузкой. Они обрабатывают миллионы событий управления перегрузкой в ??секунду с задержкой реакции в микросекунды и принимают решения о скорости детализации.

Внутриполосная телеметрия коммутатора Spectrum-4 содержит как информацию об очередях для точной оценки перегрузки, так и индикацию использования портов для быстрого восстановления. Управление перегрузкой NVIDIA RoCE значительно улучшает обнаружение перегрузки и время реакции, позволяя данным телеметрии обходить задержку в очереди перегруженного потока, сохраняя при этом точную и одновременную телеметрию.

Изоляция производительности RoCE

Гипермасштабируемые и облачные инфраструктуры ИИ должны поддерживать растущее число пользователей (арендаторов) и параллельных приложений или рабочих процессов. Эти пользователи и приложения непреднамеренно конкурируют за общие ресурсы инфраструктуры, такие как сеть, и поэтому могут влиять на производительность.

Платформа NVIDIA Spectrum-X включает механизмы, которые в сочетании обеспечивают изоляцию производительности. Это гарантирует, что одна рабочая нагрузка не может повлиять на производительность другой. Эти механизмы гарантируют, что ни одна рабочая нагрузка не создаст перегрузку сети, которая повлияет на перемещение данных другой рабочей нагрузки. Механизмы изоляции производительности включают в себя изоляцию качества обслуживания, адаптивную маршрутизацию RoCE для расширения путей передачи данных и контроль перегрузки RoCE.

Платформа NVIDIA Spectrum-X отличается тесной интеграцией программного и аппаратного обеспечения, что позволяет глубже понять рабочие нагрузки ИИ и модели трафика. Такая инфраструктура предоставляет возможности для тестирования с большими рабочими нагрузками с использованием выделенного кластера искусственного интеллекта Ethernet. Используя телеметрию от коммутаторов Spectrum Ethernet и DPU BlueField-3, NVIDIA NetQ может заблаговременно обнаруживать проблемы в сети и быстрее устранять проблемы в сети для оптимального использования пропускной способности сети.

Набор инструментов для проверки сети NVIDIA NetQ и мониторинга ASIC обеспечивает наглядность состояния и поведения сети. Анализ телеметрии потока NetQ показывает пути, по которым потоки данных проходят по сети, предоставляя сведения о задержке в сети и производительности.

Повышенная энергоэффективность

Ограничение мощности стало обычной практикой в ??центрах обработки данных из-за растущего спроса на вычислительные ресурсы и необходимости контролировать затраты на электроэнергию. Спектр-4 ASIC и оптические инновации позволяют упростить проектирование сетей, которые повышают производительность на ватт, достигают большей эффективности и обеспечивают более быстрое понимание ИИ без превышения бюджетов мощности сети.

Краткое содержание

Сетевая платформа NVIDIA Spectrum-X разработана специально для ресурсоемких приложений ИИ. Благодаря более высокой производительности по сравнению с традиционным Ethernet, более низкому энергопотреблению, меньшей совокупной стоимости владения, полной программно-аппаратной интеграции и большому масштабу NVIDIA Spectrum-X является идеальной платформой для выполнения существующих и будущих рабочих нагрузок ИИ.

Узнать больше

Ищете дополнительную информацию? Ознакомьтесь с этими ресурсами:

•  Технический документ по архитектуре сетевой платформы NVIDIA Spectrum-X

•  Демонстрационное видео NVIDIA Spectrum-X

•  Сайт NVIDIA Spectrum-X

•  Спецификация NVIDIA Spectrum-4

•  Техническое описание коммутаторов NVIDIA Spectrum серии SN5000

•  NVIDIA Кумулус Линукс

•  NVIDIA NetQ

•  Коллективная коммуникационная библиотека NVIDIA (NCCL)

Публикации по теме
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
 
Новости NVIDIA

© "Storage News" journal, Russia&CIS
(495) 233-4935;
www.storagenews.ru; info@storagenews.ru.