Ускорение рабочих нагрузок генеративного ИИ с сетевой платформой NVIDIA Spectrum-X
20, май 2023 By Peter Rizk , https://developer.nvidia.com/blog/turbocharging-ai-workloads-with-nvidia-spectrum-x-networking-platform/ В последнее время наблюдается быстрый рост моделей больших языков (LLM, Large Language Models ) и приложений ИИ, таких как ChatGPT и DALL-E. Благодаря GPU, CPU, DPU, высокоскоростным хранилищам и программным инновациям, оптимизированным для ИИ, ИИ теперь широко доступен. Вы даже можете развернуть ИИ в облаке или локально. Тем не менее приложения ИИ могут быть очень требовательны к сети, и этот рост ложится бременем на серверы ЦП и ГП, а также на существующую базовую сетевую инфраструктуру, которая соединяет эти системы вместе. Традиционный Ethernet, хотя и достаточен для работы с основными и корпоративными приложениями, такими как веб-приложения и потоковое видео или аудио, не оптимизирован для поддержки рабочих нагрузок ИИ нового поколения. Традиционный Ethernet идеально подходит для слабосвязанных приложений, потоков с низкой пропускной способностью и высоким джиттером. Этого может быть достаточно для разнородного трафика (например, веб-трафика, потокового видео или аудио, передачи файлов и игр), но он не идеален, когда происходит переподписка. Сетевая платформа NVIDIA Spectrum-X, разработанная с нуля для удовлетворения требований к производительности приложений ИИ, представляет собой комплексное решение, оптимизированное для высокой производительности сети, низкой задержки и масштабируемости. NVIDIA Spectrum-XСетевая платформа NVIDIA Spectrum-X была разработана для устранения ограничений традиционной сети Ethernet. Это сетевая структура, разработанная для удовлетворения потребностей требовательных приложений ИИ, предназначенная для тесно связанных процессов. Это сертифицированное и протестированное NVIDIA комплексное решение сочетает в себе лучшее в своем классе сетевое оборудование и программное обеспечение, оптимизированное для ИИ, чтобы обеспечить предсказуемый, стабильный и бескомпромиссный уровень производительности, необходимый для рабочих нагрузок ИИ. Рис. 1. Сетевая платформа NVIDIA Spectrum-X объединяет Ethernet-коммутатор NVIDIA Spectrum-4 с DPU NVIDIA BlueField-3 для обеспечения оптимальной производительности для рабочих нагрузок ИИ. NVIDIA Spectrum-X — это очень универсальная технология, которую можно использовать с различными приложениями ИИ. В частности, это может значительно повысить производительность и эффективность кластеров ИИ в следующих случаях использования:
Двумя ключевыми элементами платформы NVIDIA Spectrum-X являются Ethernet-коммутатор NVIDIA Spectrum-4 и DPU NVIDIA BlueField-3 . Ethernet-коммутатор NVIDIA Spectrum-4Ethernet-коммутатор NVIDIA Spectrum-4 обеспечивает беспрецедентную производительность приложений для кластеров ИИ, построенных на стандартном Ethernet. Для реализации всего потенциала NVIDIA Spectrum-4 требуется сквозная, специально созданная сетевая архитектура. Только платформа NVIDIA Spectrum-X предоставляет аппаратные ускорители и разгрузки, необходимые для поддержки гипермасштабируемого ИИ. Ethernet-коммутаторы NVIDIA Spectrum-4 построены на основе ASIC Spectrum-4 со скоростью 51,2 Тбит/с и пропускной способностью в 4 раза выше, чем у предыдущего поколения. Это первая в мире коммутационная платформа Ethernet AI. Он был разработан для рабочих нагрузок ИИ и сочетает в себе специализированную высокопроизводительную архитектуру со стандартным подключением Ethernet. NVIDIA Spectrum-4 предлагает:
Рисунок 2. NVIDIA Spectrum-4 сочетает в себе специализированную высокопроизводительную архитектуру со стандартным подключением Ethernet Ключевые преимущества NVIDIA Spectrum-X с NVIDIA Spectrum-4 включают следующее: Сквозная оптимальная производительность сети Чтобы построить эффективную вычислительную фабрику ИИ, необходимо оптимизировать каждую часть сети ИИ, от DPU до коммутаторов и сетевого программного обеспечения. Достижение максимальной эффективной пропускной способности при нагрузке и масштабировании требует использования таких методов, как адаптивная маршрутизация RoCE и усовершенствованные механизмы управления перегрузкой. Включение возможностей, которые работают синхронно на DPU NVIDIA BlueField-3 и коммутаторах Spectrum-4, имеет решающее значение для достижения максимальной производительности и надежности искусственного интеллекта. Адаптивная маршрутизация RoCEРабочие нагрузки и приложения ИИ характеризуются небольшим количеством слоновых потоков, ответственных за перемещение больших объемов данных между графическими процессорами, где хвостовая задержка сильно влияет на общую производительность приложения. Удовлетворение таких шаблонов трафика с помощью традиционных механизмов сетевой маршрутизации может привести к непостоянной и недоиспользованной производительности графического процессора для рабочих нагрузок ИИ. Адаптивная маршрутизация RoCE — это технология тонкой балансировки нагрузки. Он динамически перенаправляет данные RDMA, чтобы избежать перегрузки и обеспечить оптимальную балансировку нагрузки для достижения максимальной эффективной пропускной способности данных. Это сквозная возможность, включающая коммутаторы Spectrum-4 и DPU BlueField-3. Коммутаторы Spectrum-4 отвечают за выбор наименее загруженного порта для передачи данных для каждого пакета. Поскольку разные пакеты одного и того же потока проходят по разным путям в сети, они могут прибыть к месту назначения не по порядку. BlueField-3 преобразует любые неупорядоченные данные на транспортном уровне RoCE, прозрачно доставляя приложению упорядоченные данные. Spectrum-4 оценивает перегрузку на основе загрузки исходящей очереди, обеспечивая сбалансированность всех портов. Для каждого сетевого пакета коммутатор выбирает порт с минимальной нагрузкой в ??своей исходящей очереди. Spectrum-4 также получает уведомления о состоянии от соседних коммутаторов, которые влияют на решение о маршрутизации. Оцененные очереди сопоставляются с уровнем качества обслуживания. В результате NVIDIA Spectrum-X обеспечивает эффективную пропускную способность до 95 % в гипермасштабируемой системе при нагрузке и при масштабировании. Рисунок 3. Типичная структура развертывания центра обработки данных NVIDIA Spectrum-4 Контроль перегрузки RoCEПриложения, работающие одновременно в гипермасштабируемых облачных системах, могут страдать от ухудшения производительности и воспроизводимого времени выполнения из-за перегрузки на уровне сети. Это может быть вызвано сетевым трафиком самого приложения или фоновым сетевым трафиком других приложений. Основная причина такой перегрузки известна как перегрузка «многие к одному», когда имеется несколько отправителей данных и один получатель данных. Такая перегрузка не может быть решена с помощью адаптивной маршрутизации и фактически требует измерения потока данных для каждой конечной точки. Управление перегрузкой — это комплексная технология, в которой коммутаторы Spectrum-4 предоставляют телеметрическую информацию о сети, представляющую данные о перегрузке в реальном времени. Эта телеметрическая информация обрабатывается процессорами BlueField DPU, которые управляют и контролируют скорость ввода данных отправителем данных, что обеспечивает максимальную эффективность совместного использования сети. Без управления перегрузкой сценарии «многие к одному» вызовут обратное давление в сети и распространение перегрузки или даже отбрасывание пакетов, что резко снизит производительность сети и приложений. В процессе управления перегрузкой DPU BlueField-3 выполняют алгоритм управления перегрузкой. Они обрабатывают миллионы событий управления перегрузкой в ??секунду с задержкой реакции в микросекунды и принимают решения о скорости детализации. Внутриполосная телеметрия коммутатора Spectrum-4 содержит как информацию об очередях для точной оценки перегрузки, так и индикацию использования портов для быстрого восстановления. Управление перегрузкой NVIDIA RoCE значительно улучшает обнаружение перегрузки и время реакции, позволяя данным телеметрии обходить задержку в очереди перегруженного потока, сохраняя при этом точную и одновременную телеметрию. Изоляция производительности RoCEГипермасштабируемые и облачные инфраструктуры ИИ должны поддерживать растущее число пользователей (арендаторов) и параллельных приложений или рабочих процессов. Эти пользователи и приложения непреднамеренно конкурируют за общие ресурсы инфраструктуры, такие как сеть, и поэтому могут влиять на производительность. Платформа NVIDIA Spectrum-X включает механизмы, которые в сочетании обеспечивают изоляцию производительности. Это гарантирует, что одна рабочая нагрузка не может повлиять на производительность другой. Эти механизмы гарантируют, что ни одна рабочая нагрузка не создаст перегрузку сети, которая повлияет на перемещение данных другой рабочей нагрузки. Механизмы изоляции производительности включают в себя изоляцию качества обслуживания, адаптивную маршрутизацию RoCE для расширения путей передачи данных и контроль перегрузки RoCE. Платформа NVIDIA Spectrum-X отличается тесной интеграцией программного и аппаратного обеспечения, что позволяет глубже понять рабочие нагрузки ИИ и модели трафика. Такая инфраструктура предоставляет возможности для тестирования с большими рабочими нагрузками с использованием выделенного кластера искусственного интеллекта Ethernet. Используя телеметрию от коммутаторов Spectrum Ethernet и DPU BlueField-3, NVIDIA NetQ может заблаговременно обнаруживать проблемы в сети и быстрее устранять проблемы в сети для оптимального использования пропускной способности сети. Набор инструментов для проверки сети NVIDIA NetQ и мониторинга ASIC обеспечивает наглядность состояния и поведения сети. Анализ телеметрии потока NetQ показывает пути, по которым потоки данных проходят по сети, предоставляя сведения о задержке в сети и производительности. Повышенная энергоэффективностьОграничение мощности стало обычной практикой в ??центрах обработки данных из-за растущего спроса на вычислительные ресурсы и необходимости контролировать затраты на электроэнергию. Спектр-4 ASIC и оптические инновации позволяют упростить проектирование сетей, которые повышают производительность на ватт, достигают большей эффективности и обеспечивают более быстрое понимание ИИ без превышения бюджетов мощности сети. Краткое содержаниеСетевая платформа NVIDIA Spectrum-X разработана специально для ресурсоемких приложений ИИ. Благодаря более высокой производительности по сравнению с традиционным Ethernet, более низкому энергопотреблению, меньшей совокупной стоимости владения, полной программно-аппаратной интеграции и большому масштабу NVIDIA Spectrum-X является идеальной платформой для выполнения существующих и будущих рабочих нагрузок ИИ. Узнать большеИщете дополнительную информацию? Ознакомьтесь с этими ресурсами:
|
|