Анализ влияния уровня мощности графического процессора на производительность с помощью SPEChpc 2021
13, март 2023 Энергопотребление графического процессора увеличивается от поколения к поколению для выполнения различных видов рабочих нагрузок , таких как традиционные высокопроизводительные вычисления , искусственный интеллект и глубокое обучение . Общеизвестно , что для максимизации производительности графического процессора необходимо также максимизировать энергопотребление графического процессора . Однако не всегда увеличение производительности графического процессора напрямую связано с увеличением энергопотребления графического процессора . Другими словами , мы могли бы снизить мощность графического процессора , сохранив при этом определенный уровень производительности приложений . В этой статье анализируется поведение графического процессора и взаимосвязь между производительностью и энергопотреблением путем выполнения теста SPEChpc 2021 с различными уровнями мощности с использованием графического процессора NVIDIA H100 на сервере Lenovo ThinkSystem SR655 V3. Этот документ предназначен для руководителей центров обработки данных и тех , кто интересуется взаимосвязью между энергопотреблением графического процессора и производительностью . ВведениеУровень мощности графического процессора ( графического процессора ) может существенно повлиять на его производительность . Уровень мощности графического процессора относится к количеству энергии , подаваемой на графический процессор системой . Как правило , повышение уровня мощности может привести к повышению тактовой частоты графического процессора и повышению производительности , но также увеличивает энергопотребление и может выделять больше тепла . Чтобы проанализировать влияние уровня мощности графического процессора на производительность , мы проводим эталонные тесты SPEChpc 2021 с использованием различных уровней мощности графического процессора и измеряем результирующую производительность . Чтобы избежать других факторов , которые могут повлиять на производительность , мы обеспечили хорошее состояние ЦП и памяти без дроссельной заслонки и постоянной температуры окружающей среды при настройке уровня мощности графического процессора . Бенчмарк SPEChpc 2021Чтобы справиться с резким увеличением рабочей нагрузки в области высокопроизводительных вычислений (HPC), все больше и больше современных систем HPC строятся с гетерогенной архитектурой , что означает , что ускорители , такие как GPU, являются частью системы , чтобы помочь улучшить общую производительность системы . Однако гетерогенный дизайн требует эволюции компилятора , чтобы решить проблему переносимости как на гомогенные , так и на гетерогенные системы . Кроме того , такие разнородные конструкции также увеличивают сложность и создают проблемы для оценки производительности . Группа High-Performance Group (HPG) в рамках организации Standard Performance Evaluation Corporation (SPEC) разработала стандартный отраслевой эталонный тест HPC под названием SPEChpc 2021 для поддержки модели программирования с несколькими хостами и ускорителями для современных систем HPC. Пакет SPEChpc 2021 поддерживает чистый MPI, MPI+OpenMP, целевую разгрузку MPI+OpenMP, MPI+OpenAC C для работы с большинством типов гетерогенных систем высокопроизводительных вычислений . В следующей таблице перечислены все названия вспомогательных тестов , язык реализации и каждая область приложения . Таблица 1. Подконтрольные показатели SPEChpc 2021
Чтобы соответствовать разным размерам кластеров , SPEChpc 2021 предлагает четыре комплекта : малый , малый , средний и большой , которые включают в себя разные размеры рабочих нагрузок , как показано в следующей таблице . Табл. 2. Четыре набора тестов SPEChpc 2021
Для получения дополнительной информации о SPEChpc 2021 посетите домашнюю страницу SPEChpc 2021 : Эксперимент проводился на Lenovo ThinkSystem SR655 V3, однопроцессорном сервере с процессорами семейства AMD EPYC 9004 Genoa. Благодаря до 96 ядрам на процессор и поддержке нового стандарта PCIe 5.0 для высокопроизводительных графических процессоров SR665 V3 обеспечивает наилучшую производительность системы в форм - факторе 2U.
Дополнительные сведения о SR655 V3 см . в руководстве по продукту Lenovo Press : Конфигурация , использованная для эксперимента , состояла из следующего :
Предназначенный для искусственного интеллекта ( ИИ ), высокопроизводительных вычислений (HPC) и анализа данных , графический процессор NVIDIA H100 80G PCIe 350 Вт TDP ( расчетная тепловая мощность ) состоит из нескольких кластеров обработки графического процессора (GPC) и кластеров обработки текстур (TP). , потоковые мультипроцессоры (SM) и контроллеры памяти . Графический процессор NVIDIA H100 состоит из : Графический процессор H100 форм - фактора платы NVIDIA PCIe Gen 5 включает следующие блоки :
NVIDIA предоставляет мощный диагностический инструмент под названием nvidia-smi , с помощью которого пользователь может отслеживать состояние графического процессора , включая использование SM, тактовую частоту SM, объем памяти , рабочие часы памяти , энергопотребление и т . д .
С помощью команды nvidia-smi мы замеряли производительность графического процессора NVIDIA H100 каждую секунду во время выполнения теста SPEChpc 2021 для профилирования поведения во время выполнения , как описано в следующих разделах . Загрузка графического процессора и частотаtodo: что такое " СМ "? Ставлю Streaming Multiprocessors - это правильно ? Большинство вспомогательных тестов полностью используют вычислительную мощность графического процессора , а коэффициент использования потоковых мультипроцессоров (SM) достигает 100% во время выполнения . Только использование x32 снижается примерно до 50% из - за плохой параллелизации . Несмотря на высокий коэффициент использования , рабочая частота SM варьируется в зависимости от разных тестов : тесты 505, 513, 528, 532 и 535 не могут поддерживать максимальную частоту большую часть времени во время работы .
Коэффициент использования памяти графического процессора указывает процент времени за последний период выборки , в течение которого глобальная память ( устройства ) считывалась или записывалась . 518, 519, 528 и 535 требовательны к пропускной способности памяти , поэтому использование памяти во время работы превышает 90%. 505, 513, 521 и 534 потребляют меньше пропускной способности памяти , загрузка составляет от 40% до 70%. Из - за меньшего параллелизма использование памяти для 532 низкое ( примерно от 10% до 20%).
На приведенной ниже диаграмме показано энергопотребление без ограничения уровня мощности , где эталонный тест может достичь максимальной расчетной тепловой мощности (TDP) 350 Вт графического процессора NVIDIA H100. 505, 513, 528 и 535 потребляют максимальную мощность во время выполнения теста , энергопотребление 532 увеличивается и уменьшается во время выполнения из - за низкой параллельной оптимизации , а уровень мощности для других тестов находится в диапазоне от 260 Вт до 330 Вт .
На приведенной ниже диаграмме показана относительная производительность в процентах от каждого вспомогательного теста SPEChpc 2021 при различном уровне мощности графического процессора H100 от самого высокого 350 Вт до самого низкого 200 Вт с 25 Вт ( около 7%) для каждого шага . 505, 513, 528 и 535 являются наиболее чувствительными к энергопотреблению вспомогательными тестами в наборе тестов SPEChpc 2021: производительность падает на 18-32% при установке уровня мощности от 350 Вт до 200 Вт . На другом конце шкалы 518, 519, 532 и 534 сохраняют не менее 87% производительности , даже если уровень мощности падает на 43%.
На приведенной ниже диаграмме коэффициент падения уровня мощности и скорость снижения производительности объединены в один график . Очевидно , что крутизна падения уровня мощности намного больше , чем падение производительности , а это означает , что увеличение TDP графического процессора не является эффективным способом повышения производительности рабочей нагрузки . Другими словами , снижение TDP помогает графическому процессору достигать более высокой производительности на ватт , если энергопотребление более критично , чем абсолютная производительность для центра обработки данных . Важно найти баланс между производительностью и энергопотреблением , чтобы обеспечить оптимальную производительность .
Джимми Ченг (Jimmy Cheng) — инженер по производительности в лаборатории Lenovo Infrastructure Solutions Group в Тайбэе , Тайвань . Джимми присоединился к Lenovo в декабре 2016 года . До этого он работал над обеспечением и проверкой систем IBM POWER, системной интеграцией ATCA, развитием автоматизации , а также производительностью сети . Джимми имеет степень магистра электронной и вычислительной техники Тайваньского национального университета науки и технологий на Тайване и степень бакалавра компьютерных наук и инженерии Университета Юань - Зе , Тайвань . Уильям Ву — главный инженер и системный архитектор высокопроизводительных вычислений в лаборатории Lenovo Infrastructure Solutions Group в Тайбэе , Тайвань . Он имеет богатый промышленный опыт , включая проектирование цифровых ИС , встроенных систем , а также серверов высокой плотности . В последнее время он занимается исследованиями и разработками в области системной архитектуры высокопроизводительных вычислений . Уильям имеет степень магистра Национального университета Чунг Син . Связанные семейства продуктовСемейства продуктов , относящиеся к этому документу , следующие : Товарные знакиLenovo и логотип Lenovo являются товарными знаками или зарегистрированными товарными знаками Lenovo в США и / или других странах . Текущий список товарных знаков Lenovo доступен в Интернете по адресу https://www.lenovo.com/us/en/legal/copytrade/ . Следующие термины являются товарными знаками Lenovo в США и / или других странах : Следующие термины являются товарными знаками других компаний : Linux® является товарным знаком Линуса Торвальдса в США и других странах . SPEC® и SPEChpc™ являются товарными знаками Standard Performance Evaluation Corporation (SPEC). Другие названия компаний , продуктов или услуг могут быть товарными знаками или знаками обслуживания других лиц . |
|