Публикации
2023 г. – новый этап практического применения CXL, статья
VMware сдвигает акцент в проекте Capitola на CXL, статья
Dell Validated Design for Analytics — Data Lakehouse: интегрированное хранилище данных, статья
OCP Global Summit: решения для Computational Storage и компонуемых масштабируемых архитектур, статья
Samsung CXL MemoryySemantic SSD: 20M IOPs, статья
UCIe – открытый протокол для взаимосвязи чиплетов и построения дезагрегированных инфраструктур, статья
Omni-Path Express – открытый интерконнект для экзафлопных HPC/AI-систем, статья
GigaIO: CDI_решение на базе AMD для высшего образования, статья
Энергоэффективные ЦОД на примерах решений Supermicro, Lenovo, Iceotope, Meta, статья
От хранилищ данных и “озер данных” к open data lakehouse и фабрике данных, статья
EuroHPC JU развивает НРС-экосистему на базе RISC-V, статья
LightOS™ 2.2 – программно-определяемое составное блочное NVMe/TCP хранилище, статья
End-to-end 64G FC NAFA, статья
Computational Storage, статья
Технология KIOXIA Software-Enabled Flash™, статья
Pavilion: 200 млн IOPS на стойку, статья
CXL 2.0: инновации в операциях Load/Store вводаавывода, статья
Тестирование референсной архитектуры Weka AI на базе NVIDIA DGX A100, статья
Fujitsu ETERNUS CS8000 – единая масштабируемая платформа для резервного копирования и архивирования, статья
SmartNIC – новый уровень инфраструктурной обработки, статья
Ethernet SSD, JBOF, EBOF и дезагрегированные хранилища, статья
Compute, Memory и Storage, статья
Lenovo: CXL – будущее серверов с многоуровневой памятью , статья
Liqid: компонуемые дезагрегированные инфраструктуры для HPC и AI, статья
Intel® Agilex™ FPGA, статья
Weka для AI-трансформации, статья
Cloudera Data Platform – “лучшее из двух миров”, статья
Fujitsu ETERNUS DSP - разработано для будущего, статья
Технологии охлаждения для следующего поколения HPC-решений, статья
Что такое современный HBA?, статья
Fugaku– самый быстрый суперкомпьютер в мире, статья
НРС – эпоха революционных изменений, статья
Новое поколение СХД Fujitsu ETERNUS, статья
Зональное хранение данных, статья
За пределами суперкомпьютеров, статья
Применение Intel® Optane™ DC и Intel® FPGA PAC, статья
Адаптивные HPC/AI-архитектуры для экзаскейл-эры, статья
DAOS: СХД для HPC/BigData/AI приложений в эру экзаскейл_вычислений, статья
IPsec в пост-квантовую эру, статья
LiCO: оркестрация гибридныхНРС/AI/BigData_инфраструктур, статья
 
Обзоры
Все обзоры в Storage News
 
Тематические публикации
Flash-память
Облачные вычисления/сервисы
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
Современные СХД
Информационная безопасность (ИБ), борьба с мошенничеством
Рынки
Анализ влияния уровня мощности графического процессора на производительность с помощью SPEChpc 2021

13, март 2023  — 

https://lenovopress.lenovo.com/lp1706-analyzing-the-performance-impact-of-gpu-power-level-using-spechpc-2021

Энергопотребление графического процессора увеличивается от поколения к поколению для выполнения различных видов рабочих нагрузок , таких как традиционные высокопроизводительные вычисления , искусственный интеллект и глубокое обучение . Общеизвестно , что для максимизации производительности графического процессора необходимо также максимизировать энергопотребление графического процессора . Однако не всегда увеличение производительности графического процессора напрямую связано с увеличением энергопотребления графического процессора . Другими словами , мы могли бы снизить мощность графического процессора , сохранив при этом определенный уровень производительности приложений .

В этой статье анализируется поведение графического процессора и взаимосвязь между производительностью и энергопотреблением путем выполнения теста SPEChpc 2021 с различными уровнями мощности с использованием графического процессора NVIDIA H100 на сервере Lenovo ThinkSystem SR655 V3. Этот документ предназначен для руководителей центров обработки данных и тех , кто интересуется взаимосвязью между энергопотреблением графического процессора и производительностью .

Введение

Уровень мощности графического процессора ( графического процессора ) может существенно повлиять на его производительность . Уровень мощности графического процессора относится к количеству энергии , подаваемой на графический процессор системой . Как правило , повышение уровня мощности может привести к повышению тактовой частоты графического процессора и повышению производительности , но также увеличивает энергопотребление и может выделять больше тепла . Чтобы проанализировать влияние уровня мощности графического процессора на производительность , мы проводим эталонные тесты SPEChpc 2021 с использованием различных уровней мощности графического процессора и измеряем результирующую производительность . Чтобы избежать других факторов , которые могут повлиять на производительность , мы обеспечили хорошее состояние ЦП и памяти без дроссельной заслонки и постоянной температуры окружающей среды при настройке уровня мощности графического процессора .

Бенчмарк SPEChpc 2021

Чтобы справиться с резким увеличением рабочей нагрузки в области высокопроизводительных вычислений (HPC), все больше и больше современных систем HPC строятся с гетерогенной архитектурой , что означает , что ускорители , такие как GPU, являются частью системы , чтобы помочь улучшить общую производительность системы . Однако гетерогенный дизайн требует эволюции компилятора , чтобы решить проблему переносимости как на гомогенные , так и на гетерогенные системы .

Кроме того , такие разнородные конструкции также увеличивают сложность и создают проблемы для оценки производительности . Группа High-Performance Group (HPG) в рамках организации Standard Performance Evaluation Corporation (SPEC) разработала стандартный отраслевой эталонный тест HPC под названием SPEChpc 2021 для поддержки модели программирования с несколькими хостами и ускорителями для современных систем HPC. Пакет SPEChpc 2021 поддерживает чистый MPI, MPI+OpenMP, целевую разгрузку MPI+OpenMP, MPI+OpenAC C для работы с большинством типов гетерогенных систем высокопроизводительных вычислений .

В следующей таблице перечислены все названия вспомогательных тестов , язык реализации и каждая область приложения .

Таблица 1. Подконтрольные показатели SPEChpc 2021

Application Name Language Area
LBM C Computational fluid dynamics
SOMA C Physics / Polymeric systems
Tealeaf C Physics / High energy physics
Cloverleaf Fortran Physics / High energy physics
Minisweep C Nuclear engineering - Radiation transport
POT3D Fortran Solar hhysics
SPH-EXA C++14 Astrophysics and Cosmology
HPGMG-FV C Cosmology, Astrophysics, Combustion
miniWeather Fortran Weather

Чтобы соответствовать разным размерам кластеров , SPEChpc 2021 предлагает четыре комплекта : малый , малый , средний и большой , которые включают в себя разные размеры рабочих нагрузок , как показано в следующей таблице .

Табл. 2. Четыре набора тестов SPEChpc 2021

Suite Description
Tiny The Tiny workloads use up to 60GB of memory and are intended for use on a single node using between 1 and 256 ranks.
Small The Small workloads use up to 480GB of memory and are intended for use on one or more nodes using between 64 and 1024 ranks.
Medium The Medium workloads use up to 4TB of memory and are intended for use on a mid-size cluster using between 256 and 4096 ranks.
Large The Large workloads use up to 14.5TB of memory and are intended for use on a larger cluster using between 2048 and 32,768 ranks.

Для получения дополнительной информации о SPEChpc 2021 посетите домашнюю страницу SPEChpc 2021 :
https :// www . spec . org / hpc 2021.

Think System SR655 V3

Эксперимент проводился на Lenovo ThinkSystem SR655 V3, однопроцессорном сервере с процессорами семейства AMD EPYC 9004 Genoa. Благодаря до 96 ядрам на процессор и поддержке нового стандарта PCIe 5.0 для высокопроизводительных графических процессоров SR665 V3 обеспечивает наилучшую производительность системы в форм - факторе 2U.


Рис . 1. Lenovo ThinkSystem SR655 V3

Дополнительные сведения о SR655 V3 см . в руководстве по продукту Lenovo Press :
https://lenovopress.lenovo.com/lp1610-thinksystem-sr655-v3-server.

Конфигурация , использованная для эксперимента , состояла из следующего :

  • 1 сервер Lenovo ThinkSystem SR655 V3
  • 1x процессор AMD EPYC 9654P (96 ядер , 2,45 ГГц )
  • 192 ГБ памяти (12 модулей RDIMM по 16 ГБ , работающих на частоте 4800 МГц )
  • 1x 480 ГБ SATA 2,5- дюймовый твердотельный накопитель
  • 1x NVIDIA Tesla H100 80 ГБ
  • Red Hat Enterprise Linux Server, выпуск 8.6, ядро
Профилирование вспомогательных тестов SPEChpc 2021

Предназначенный для искусственного интеллекта ( ИИ ), высокопроизводительных вычислений (HPC) и анализа данных , графический процессор NVIDIA H100 80G PCIe 350 Вт TDP ( расчетная тепловая мощность ) состоит из нескольких кластеров обработки графического процессора (GPC) и кластеров обработки текстур (TP). , потоковые мультипроцессоры (SM) и контроллеры памяти . Графический процессор NVIDIA H100 состоит из :

Графический процессор H100 форм - фактора платы NVIDIA PCIe Gen 5 включает следующие блоки :

  • 60 МБ кэш - памяти второго уровня
  • 80 ГБ HBM3
  • 8 GPC содержат по 9 TPC, всего 72 TPC
  • 2 SM на T ?? P ?? C, всего 114 SM
  • NVLink четвертого поколения для кросс - соединения GPU

NVIDIA предоставляет мощный диагностический инструмент под названием nvidia-smi , с помощью которого пользователь может отслеживать состояние графического процессора , включая использование SM, тактовую частоту SM, объем памяти , рабочие часы памяти , энергопотребление и т . д .


Рис . 2. Команда nvidia-smi с аргументом dmon используется для мониторинга состояния графического процессора .

С помощью команды nvidia-smi мы замеряли производительность графического процессора NVIDIA H100 каждую секунду во время выполнения теста SPEChpc 2021 для профилирования поведения во время выполнения , как описано в следующих разделах .

Загрузка графического процессора и частота

todo: что такое " СМ "? Ставлю Streaming Multiprocessors - это правильно ?

Большинство вспомогательных тестов полностью используют вычислительную мощность графического процессора , а коэффициент использования потоковых мультипроцессоров (SM) достигает 100% во время выполнения . Только использование x32 снижается примерно до 50% из - за плохой параллелизации .

Несмотря на высокий коэффициент использования , рабочая частота SM варьируется в зависимости от разных тестов : тесты 505, 513, 528, 532 и 535 не могут поддерживать максимальную частоту большую часть времени во время работы .


Рис . 3. Использование и частота графического процессора при запуске SPEChpc 2021

Использование памяти графического процессора и частота

Коэффициент использования памяти графического процессора указывает процент времени за последний период выборки , в течение которого глобальная память ( устройства ) считывалась или записывалась . 518, 519, 528 и 535 требовательны к пропускной способности памяти , поэтому использование памяти во время работы превышает 90%. 505, 513, 521 и 534 потребляют меньше пропускной способности памяти , загрузка составляет от 40% до 70%. Из - за меньшего параллелизма использование памяти для 532 низкое ( примерно от 10% до 20%).


Рисунок 4. Использование памяти графического процессора и частота SPEChpc 2021

Энергопотребление графического процессора

На приведенной ниже диаграмме показано энергопотребление без ограничения уровня мощности , где эталонный тест может достичь максимальной расчетной тепловой мощности (TDP) 350 Вт графического процессора NVIDIA H100.

505, 513, 528 и 535 потребляют максимальную мощность во время выполнения теста , энергопотребление 532 увеличивается и уменьшается во время выполнения из - за низкой параллельной оптимизации , а уровень мощности для других тестов находится в диапазоне от 260 Вт до 330 Вт .


Рисунок 5. Энергопотребление графического процессора SPEChpc 2021

Производительность SPEChpc 2021 при разных уровнях мощности графического процессора

На приведенной ниже диаграмме показана относительная производительность в процентах от каждого вспомогательного теста SPEChpc 2021 при различном уровне мощности графического процессора H100 от самого высокого 350 Вт до самого низкого 200 Вт с 25 Вт ( около 7%) для каждого шага .

505, 513, 528 и 535 являются наиболее чувствительными к энергопотреблению вспомогательными тестами в наборе тестов SPEChpc 2021: производительность падает на 18-32% при установке уровня мощности от 350 Вт до 200 Вт . На другом конце шкалы 518, 519, 532 и 534 сохраняют не менее 87% производительности , даже если уровень мощности падает на 43%.


Рис . 6. Относительная производительность SPEChpc 2021 при разных уровнях мощности графического процессора

Заключение

На приведенной ниже диаграмме коэффициент падения уровня мощности и скорость снижения производительности объединены в один график . Очевидно , что крутизна падения уровня мощности намного больше , чем падение производительности , а это означает , что увеличение TDP графического процессора не является эффективным способом повышения производительности рабочей нагрузки . Другими словами , снижение TDP помогает графическому процессору достигать более высокой производительности на ватт , если энергопотребление более критично , чем абсолютная производительность для центра обработки данных . Важно найти баланс между производительностью и энергопотреблением , чтобы обеспечить оптимальную производительность .


Рис . 6. Коэффициент падения уровня мощности в зависимости от скорости снижения производительности

Авторы

Джимми Ченг (Jimmy Cheng) — инженер по производительности в лаборатории Lenovo Infrastructure Solutions Group в Тайбэе , Тайвань . Джимми присоединился к Lenovo в декабре 2016 года . До этого он работал над обеспечением и проверкой систем IBM POWER, системной интеграцией ATCA, развитием автоматизации , а также производительностью сети . Джимми имеет степень магистра электронной и вычислительной техники Тайваньского национального университета науки и технологий на Тайване и степень бакалавра компьютерных наук и инженерии Университета Юань - Зе , Тайвань .

Уильям Ву — главный инженер и системный архитектор высокопроизводительных вычислений в лаборатории Lenovo Infrastructure Solutions Group в Тайбэе , Тайвань . Он имеет богатый промышленный опыт , включая проектирование цифровых ИС , встроенных систем , а также серверов высокой плотности . В последнее время он занимается исследованиями и разработками в области системной архитектуры высокопроизводительных вычислений . Уильям имеет степень магистра Национального университета Чунг Син .

Связанные семейства продуктов

Семейства продуктов , относящиеся к этому документу , следующие :

Товарные знаки

Lenovo и логотип Lenovo являются товарными знаками или зарегистрированными товарными знаками Lenovo в США и / или других странах . Текущий список товарных знаков Lenovo доступен в Интернете по адресу https://www.lenovo.com/us/en/legal/copytrade/ .

Следующие термины являются товарными знаками Lenovo в США и / или других странах :
Lenovo®
ThinkSystem®

Следующие термины являются товарными знаками других компаний :

Linux® является товарным знаком Линуса Торвальдса в США и других странах .

SPEC® и SPEChpc™ являются товарными знаками Standard Performance Evaluation Corporation (SPEC).

Другие названия компаний , продуктов или услуг могут быть товарными знаками или знаками обслуживания других лиц .

Публикации по теме
Центры обработки данных
 
Новости Lenovo

© "Storage News" journal, Russia&CIS
(495) 233-4935;
www.storagenews.ru; info@storagenews.ru.