News

Публикации
	2023 г. – новый этап практического применения CXL, статья
	VMware сдвигает акцент в проекте Capitola на CXL, статья
	Dell Validated Design for Analytics — Data Lakehouse: интегрированное хранилище данных, статья
	OCP Global Summit: решения для Computational Storage и компонуемых масштабируемых архитектур, статья
	Samsung CXL MemoryySemantic SSD: 20M IOPs, статья
	UCIe – открытый протокол для взаимосвязи чиплетов и построения дезагрегированных инфраструктур, статья
	Omni-Path Express – открытый интерконнект для экзафлопных HPC/AI-систем, статья
	GigaIO: CDI_решение на базе AMD для высшего образования, статья
	Энергоэффективные ЦОД на примерах решений Supermicro, Lenovo, Iceotope, Meta, статья
	От хранилищ данных и “озер данных” к open data lakehouse и фабрике данных, статья
	EuroHPC JU развивает НРС-экосистему на базе RISC-V, статья
	LightOS™ 2.2 – программно-определяемое составное блочное NVMe/TCP хранилище, статья
	End-to-end 64G FC NAFA, статья
	Computational Storage, статья
	Технология KIOXIA Software-Enabled Flash™, статья
	Pavilion: 200 млн IOPS на стойку, статья
	CXL 2.0: инновации в операциях Load/Store вводаавывода, статья
	Тестирование референсной архитектуры Weka AI на базе NVIDIA DGX A100, статья
	Fujitsu ETERNUS CS8000 – единая масштабируемая платформа для резервного копирования и архивирования, статья
	SmartNIC – новый уровень инфраструктурной обработки, статья
	Ethernet SSD, JBOF, EBOF и дезагрегированные хранилища, статья
	Compute, Memory и Storage, статья
	Lenovo: CXL – будущее серверов с многоуровневой памятью , статья
	Liqid: компонуемые дезагрегированные инфраструктуры для HPC и AI, статья
	Intel® Agilex™ FPGA, статья
	Weka для AI-трансформации, статья
	Cloudera Data Platform – “лучшее из двух миров”, статья
	Fujitsu ETERNUS DSP - разработано для будущего, статья
	Технологии охлаждения для следующего поколения HPC-решений, статья
	Что такое современный HBA?, статья
	Fugaku– самый быстрый суперкомпьютер в мире, статья
	НРС – эпоха революционных изменений, статья
	Новое поколение СХД Fujitsu ETERNUS, статья
	Зональное хранение данных, статья
	За пределами суперкомпьютеров, статья
	Применение Intel® Optane™ DC и Intel® FPGA PAC, статья
	Адаптивные HPC/AI-архитектуры для экзаскейл-эры, статья
	DAOS: СХД для HPC/BigData/AI приложений в эру экзаскейл_вычислений, статья
	IPsec в пост-квантовую эру, статья
	LiCO: оркестрация гибридныхНРС/AI/BigData_инфраструктур, статья

Обзоры
	Все обзоры в Storage News

Тематические публикации
	Flash-память
	Облачные вычисления/сервисы
	Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
	Современные СХД
	Информационная безопасность (ИБ), борьба с мошенничеством
	Рынки

Lenovo Compute Orchestration в центрах обработки данных HPC с Slurm

3, март 2023 —

Авторы : Ана Иримиа (Ana Irimiea), Victoria Hobson
Скачать pdf
https://lenovopress.lenovo.com/lp1701-lenovo-compute-orchestration-in-hpc-data-centers-with-slurm

Введение

Lenovo и SchedMD предлагают полностью интегрированное , простое в использовании , тщательно протестированное и поддерживаемое решение для оркестрации вычислений для всех серверов Lenovo HPC ThinkSystem. Этот краткий обзор решения содержит важную информацию для понимания ключевых функций и преимуществ оркестрации рабочих нагрузок HPC и ИИ с помощью Slurm с помощью Lenovo Intelligen t Computing Orchestration (LiCO). Этот документ предназначен для системных администраторов и пользователей HPC, продавцов HPC и руководителей центров обработки данных .

Slurm Workload Manager — отличный инструмент для решения задач , с которыми сегодня сталкиваются центры обработки данных высокопроизводительных вычислений : автоматизация процессов , а также оптимизация использования ресурсов , помогающие предприятиям стать более продуктивными и надежными .

Сегодня почти каждый бизнес пришел к выводу , что им необходимо начать автоматизировать некоторые из своих ручных бизнес - процессов . Автоматизация процессов снижает вероятность ошибок и может помочь компаниям стать более продуктивными и надежными . Клиенты пытаются максимально эффективно использовать свое оборудование , и иногда это означает , что им нужно выполнять больше работы , чем ресурсов . Планировщик заданий управляет очередями работ для поддержки сложных алгоритмов планирования , а также поддерживает и оптимизирует ограничения ресурсов наряду с рядом других преимуществ .

Управление рабочей нагрузкой помогает вам более эффективно расставлять приоритеты задач , улучшать баланс работы в вашей команде и создавать более точные графики проектов . В результате у вашей команды есть потенциал и уверенность в выполнении качественной работы .

Slurm Workload Manager — это современный планировщик с открытым исходным кодом , разработанный и поддерживаемый компанией SchedMD®. Slurm максимизирует пропускную способность , масштабируемость , надежность и приводит к максимально быстрому результату , оптимизируя использование ресурсов и отвечая организационным приоритетам . Автоматизируя планирование заданий , Slurm предназначен для удовлетворения высоких потребностей в высокопроизводительных вычислениях (HPC), высокопроизводительных вычислениях (HTC) и искусственном интеллекте . Возможности автоматизации Slurm упрощают администрирование , ускоряют выполнение заданий и повышают производительность конечных пользователей , одновременно снижая затраты и количество ошибок .

Lenovo активно сотрудничает с SchedMD, чтобы предоставить клиентам правильное решение для планирования своих рабочих нагрузок и оптимизации своих ресурсов .

Slurm полностью интегрирован в Lenovo Intelligent Computing Orchestration (LiCO), чтобы предоставить пользователям простой способ планировать свои рабочие нагрузки HPC и AI и оптимизировать их . Клиенты могут воспользоваться поддержкой L3 для Slurm в рамках предложения Lenovo HPC & AI Software Stack.

Обзор Slurm Workload Manager

Slurm Workload Manager — это ведущий на рынке бесплатный менеджер рабочих нагрузок с открытым исходным кодом , разработанный специально для удовлетворения высоких потребностей в высокопроизводительных вычислениях (HPC), вычислениях с высокой пропускной способностью (HTC , high throughput computing ) и искусственном интеллекте . Slurm максимизирует пропускную способность , масштабируемость , надежность и приводит к максимально быстрому результату , оптимизируя использование ресурсов и отвечая организационным приоритетам .

Slurm отличается тем , как он управляет графическими процессорами . Пользователи могут планировать рабочие нагрузки для графических процессоров аналогично центральным процессорам , что обеспечивает большую гибкость и контроль над тем , как выполняется планирование .

SchedMD является основной компанией Slurm, распространяющей и поддерживающей программное обеспечение диспетчера рабочей нагрузки . SchedMD является единственным поставщиком поддержки , разработки , обучения , установки и настройки Slurm.

Slurm предоставляет три основных преимущества :

• Распределяет доступ к ресурсам

• Предоставляет платформу для запуска и мониторинга заданий на выделенных узлах .

• Управляет очередью заданий для конкурирующих запросов ресурсов

Возможности Slurm включают :

• Распределяет и оптимизирует эксклюзивный / неэксклюзивный доступ к сверхдеталированным ресурсам : Slurm предоставляет это пользователям и заданиям на время для каждой рабочей нагрузки , включая топологию сети , планирование справедливого распределения , расширенное резервирование , вытеснение , ограничения ресурсов и учетные факторы .

• Платформа для запуска , выполнения и мониторинга рабочих нагрузок на выделенных узлах и / или графических процессорах : возможности Slurm включают в себя учет уровня задач в режиме реального времени , энергопотребление и использование API, а также автоматическое повторное размещение заданий в очереди .

• Упрощает управление и разрешает конфликты за ресурсы : Slurm управляет очередью незавершенных работ в соответствии с организационными и рабочими приоритетами .

• Ускоряет обработку и пропускную способность работы : Slurm предоставляет обширные политики и алгоритмы , в том числе для высокопроизводительных вычислительных рабочих нагрузок , для поддержки тысяч заданий в секунду .

• Slurm изначально поддерживает эластичность и возможности разрыва облака .

Пожалуйста , обратитесь к документации Slurm Workload Manager для получения дополнительной информации об этих возможностях Slurm.

Клиенты выбирают и развертывают Slurm для :

• Массивная масштабируемость для удовлетворения требований к производительности для больших кластеров и экзафлопсных суперкомпьютеров , охватывающих рабочие нагрузки HPC и AI с проверенной надежностью .

• Первоклассное управление ресурсами графических процессоров и сверхдетализированное распределение задач по специализированным ресурсам ( ядрам , графическим процессорам , потокам и т . д .)

• Непревзойденная пропускная способность рабочей нагрузки , поддерживающая более 12 тысяч заданий в минуту , более 17 миллионов заданий в день , 120 миллионов заданий в неделю .

• Расширенные политики , алгоритмы планирования и управление очередями / разделами , которые упрощают и оптимизируют управление сложным набором рабочих нагрузок в соответствии с проектными и организационными приоритетами .

• Оптимизируйте использование , чтобы получить больше отдачи от существующих инвестиций в HPC

• Гибкие инновации и интеграция для удовлетворения потребностей , движимые сильным сообществом открытого исходного кода и партнерскими отношениями .

Энергосбережение

Slurm предоставляет встроенный механизм энергосбережения для отключения простаивающих узлов . Узлы , которые не используются в течение настраиваемого периода времени , могут быть переведены в режим энергосбережения , что снижает энергопотребление . Также доступен предел ограничения мощности для управления энергопотреблением .

ExaScale

Диспетчер рабочей нагрузки Slurm обеспечивает непревзойденную пропускную способность для большого количества рабочих мест и массивные ресурсы инфраструктуры HPC и искусственного интеллекта Lenovo для более быстрого предоставления инноваций и аналитических данных для конкурентного преимущества . Slurm предлагает широкие возможности масштабирования для работы с кластерами с более чем 100 000 узлов и графическими процессорами , что увеличивает пропускную способность в 5-10 раз . Возможности планирования и управления ресурсами Slurm легко справляются с обеими задачами , включая массивы заданий для отправки миллионов задач за миллисекунды и сверхдетализированное распределение задач по специализированным ресурсам ( ядрам , графическим процессорам , потокам и т . д .). Команда SchedMD точно настраивает конфигурации в соответствии с набором рабочих нагрузок и приоритетами , повышая при этом эффективность потребления ресурсов на 30–40 %.

Дистрибутивы и документация по программному обеспечению

Slurm Workload Manager доступен для загрузки в виде бесплатного программного обеспечения с открытым исходным кодом вместе с документацией и руководствами по установке на сайте https://slurm.schemd.com .

Для получения информации о приобретении поддержки SchedMD Slurm Workload Manager Support обратитесь к торговому представителю Lenovo. Клиенты также могут получить доступ к дополнительным сведениям и информации об услугах поддержки SchedMD Slurm по адресу https://www.schedmd.com/services.php .

Совместимость с операционной системой

Slurm Workload Manager был тщательно протестирован на большинстве популярных дистрибутивов Linux. Некоторые функции ограничены последними выпусками и более новыми версиями ядра Linux. В настоящее время поддерживаются следующие дистрибутивы :

• Red Hat Enterprise Linux 7, CentOS 7, Scientific Linux 7

• Red Hat Enterprise Linux 8 и производные RHEL 8

• Red Hat Enterprise Linux 9 и производные RHEL 9

• SUSE Linux корпоративный сервер 12

• SUSE Linux корпоративный сервер 15

• Ubuntu 22.04

Интеграция со сторонним программным обеспечением

Структура Slurm Workload Manager с открытым исходным кодом , лидерство , плагины и возможности REST API обеспечивают гибкую интеграцию с сотнями приложений для конечных пользователей HPC и AI, механизмов рабочих процессов и инструментов в различных вертикальных отраслях . См . https://slurm.schedmd.com/documentation.html для получения дополнительной информации .

Аппаратная совместимость

Slurm Workload Manager поддерживается на всех серверах Lenovo HPC/AI ThinkSystem.

Глубокое погружение в Slurm Workload Manager

Slurm — это современный планировщик , разработанный с архитектурой на основе подключаемых модулей , что позволяет ему поддерживать как большие , так и малые среды HPC, HTC и AI. Slurm обладает высокой масштабируемостью и надежностью , что обеспечивает максимально быстрое время вычислений среди всех планировщиков на рынке . Архитектура Slurm на основе подключаемых модулей позволяет загружать только те компоненты , которые необходимы для выполнения конкретных задач конечного пользователя . Эта легкая и гибкая структура обеспечивает большую оптимизацию и контроль при планировании операций . Slurm поддерживает сложности локальных , гибридных или облачных рабочих пространств .

Плагины могут добавлять широкий спектр функций , включая управление ограничениями ресурсов и учет , а также поддержку расширенных алгоритмов планирования . Slurm поддерживает использование графических процессоров через концепцию общих ресурсов (GRES). GRES — это вычислительные ресурсы , связанные с узлом Slurm, которые можно выделить для заданий и шагов .

Наиболее очевидным примером использования GRES могут быть графические процессоры . GRES идентифицируются по определенному имени и используют дополнительный подключаемый модуль для поддержки конкретных устройств . Основной файл конфигурации кластера Slurm, sl urm.conf, должен явно указывать , какие GRES доступны в кластере .

Ниже приведен пример файла slurm.conf, который настраивает четыре графических процессора , поддерживающих многопроцессорную службу (MPS), с пропускной способностью сети 4 ГБ .

?GresTypes=gpu,mps,bandwidth
NodeName=cn[0-7] Gres=gpu:tesla:8,gpu:kepler:2,mps:400,bandwidth:lustre:no_consume:4G

Кроме того , узлы Slurm, которым необходимо предоставлять GRES для заданий , должны иметь файл gres.conf. Этот файл описывает , какие типы общих ресурсов доступны на узле , их количество и какие файлы и процессорные ядра следует использовать с этими ресурсами .

Когда это возможно , Slurm автоматически определяет графические процессоры в системе , используя библиотеку NVIDIA NVML. Библиотека NVML ( на которой работает инструмент nvidia-smi) нумерует графические процессоры в порядке их идентификаторов шины PCI. Файлы устройств графического процессора ( например , /dev/nvidia1) основаны на назначении младших номеров Linux , в то время как номера устройств NVML назначаются через идентификатор шины PCI, от самого низкого до самого высокого . Сопоставление между этими двумя значениями является недетерминированным и зависит от системы и может варьироваться в зависимости от загрузки после изменения оборудования или ОС .

CUDA Multi-Process Service (MPS) предоставляет механизм , в котором GPU могут совместно использоваться несколькими заданиями , где каждому заданию выделяется определенный процент ресурсов GPU. Общее количество ресурсов MPS, доступных на узле , должно быть настроено в файле slurm.conf, например :

NodeName=cn[1-16]
Gres=gpu:2,mps:400

Запросы заданий для MPS будут обрабатываться так же , как и для любого другого GRES, за исключением того , что запрос должен быть удовлетворен с использованием только одного графического процессора на узел , и только один графический процессор на узел может быть настроен для использования с MPS. Например , запрос задания для --gres=mps:50 не будет удовлетворен при использовании 20 % одного графического процессора и 30 % второго графического процессора на одном узле . Несколько заданий от разных пользователей могут одновременно использовать MPS на узле . Обратите внимание , что GRES- типы GPU и MPS не могут быть запрошены в одном задании . Также задания , запрашивающие ресурсы MPS, не могут указывать частоту графического процессора .

Качество обслуживания (QOS)

Конечные пользователи могут указать качество обслуживания (QOS) для каждого задания , отправленного в Slurm. Правильная конфигурация качества обслуживания , связанного с заданием , гарантирует выполнение нужных заданий в нужное время . Slurm подавляет внутреннюю политику и конкурирующие рабочие нагрузки , помогая компаниям планировать конкурирующие потребности , достигая целей и поддерживая процессы .

Архитектура Slurm

На следующем рисунке показаны компоненты архитектуры Slurm.

Рисунок 1. Компоненты Slurm

Компоненты следующие :

• В Slurm есть централизованный менеджер slurmctld для мониторинга ресурсов и работы . Также может быть менеджер резервного копирования , который возьмет на себя эти обязанности в случае сбоя .

• На каждом вычислительном сервере ( узле ) есть демон slurmd , который можно сравнить с удаленной оболочкой : он ожидает работы , выполняет эту работу , возвращает статус и ожидает дальнейшей работы . Демоны slurmd обеспечивают отказоустойчивую иерархическую связь .

• Существует необязательный slurmdbd ( демон базы данных Slurm), который можно использовать для записи учетной информации для нескольких кластеров , управляемых Slurm, в одной базе данных .

• Существует необязательный slurmrestd ( демон Slurm REST API), который можно использовать для взаимодействия со Slurm через его REST API.

• Инструменты пользователя включают в себя :

• srun для запуска заданий

• scancel для завершения поставленных в очередь или запущенных заданий

• sinfo для отчета о состоянии системы

• очередь , чтобы сообщить о статусе заданий

• sacct для получения информации о заданиях и шагах задания , которые выполняются или завершены .

• sview графически сообщает о состоянии системы и задания , включая топологию сети .

• scontrol — это административный инструмент для мониторинга и / или изменения конфигурации и информации о состоянии кластера .

• sacctmgr — это административный инструмент , используемый для управления базой данных и используемый для идентификации кластеров , действительных пользователей , действительных банковских счетов и т . д . API- интерфейсы доступны для всех функций .

Управление рабочей нагрузкой Slurm для программного стека Lenovo HPC и AI

Slurm является частью программного стека Lenovo для высокопроизводительных вычислений и искусственного интеллекта , интегрированного в качестве гибкого современного решения с открытым исходным кодом , обеспечивающего высокомасштабируемые , отказоустойчивые политики , алгоритмы и отчеты по управлению рабочими нагрузками .

Программный стек Lenovo для высокопроизводительных вычислений и искусственного интеллекта представляет собой полностью протестированный и поддерживаемый , полный , но настраиваемый программный стек для высокопроизводительных вычислений , позволяющий администраторам и пользователям оптимально и экологически безопасно использовать свои суперкомпьютеры Lenovo.

Программный стек был разработан , чтобы отвлечь пользователей от сложностей оркестрации кластера HPC и управления рабочими нагрузками ИИ , что делает программное обеспечение HPC с открытым исходным кодом доступным для каждого клиента . Вместе с Lenovo мы делаем преимущества Slurm еще более доступными благодаря интеграции с веб - порталом , которая позволяет вашим командам сосредоточиться на своей работе , пока Slurm управляет их рабочими нагрузками . Пользователи могут использовать Slurm без необходимости изучения команд или понимания сложности кластера , просто используя очень интуитивно понятный и простой в освоении интерфейс , который предоставит преимущества Slurm большему количеству клиентов и пользователей .

Эти возможности позволяют клиентам Lenovo добиться более быстрой обработки заданий , оптимального использования специализированных системных ресурсов Lenovo и увеличения пропускной способности , что соответствует организационным приоритетам . Slurm обеспечивает оптимизированную производительность рабочих нагрузок для всех поддерживаемых Lenovo систем и серверов HPC/AI.

Интеграция LiCO в Slurm

Lenovo Intelligent Computing Orchestration (LiCO) — это программное решение , упрощающее использование кластерных вычислительных ресурсов для разработки и обучения моделей искусственного интеллекта ( ИИ ), а также рабочих нагрузок HPC. LiCO взаимодействует со стеком оркестрации программного обеспечения с открытым исходным кодом , обеспечивая конвергенцию ИИ в кластере высокопроизводительных вычислений .

LiCO поддерживает Slurm Workload Manager в качестве планировщика для управления очередями , включая просмотр , создание и изменение очередей . Пользователи HPC и AI вводят свои данные ( скрипты , контейнеры , запрошенные ресурсы ) через интерфейс LiCO, а LiCO создает пакетный сценарий Slurm на основе входных данных для развертывания и управления рабочей нагрузкой .

Версия Slurm, поддерживаемая в LiCO, — это версия последнего выпущенного пакета от Lenovo OpenHPC.

Развертывание решения осуществляется с помощью LiCO GUI Installer. LiCO GUI Installer — это инструмент , упрощающий развертывание кластера H PC и настройку LiCO. Он работает на узле управления и может использовать Lenovo Confluent для развертывания ОС на вычислительных узлах . По окончании установки и LiCO, и Slurm будут установлены в кластере , указанном заказчиком в установщике .

Главный узел Sl urm и узел управления LiCO должны быть развернуты на одном физическом узле в кластере .

Управление рабочей нагрузкой с помощью LiCO

Очереди позволяют администраторам подразделять оборудование на основе различных типов или потребностей . Slurm полностью интегрирован в LiCO, администраторы могут создавать и редактировать очереди прямо из LiCO, не заходя в планировщик Slurm напрямую через консоль . Это упрощает текущее управление корпоративными средами ИИ без опыта работы с программными инструментами для высокопроизводительных вычислений .

Для роли администратора в LiCO доступна страница « Планировщик », которая позволяет администраторам создавать , редактировать , удалять очереди , устанавливать состояние очереди и устанавливать состояние узла .

Рисунок 2. Страница управления планировщиком в LiCO

Очереди позволяют администраторам подразделять оборудование на основе различных типов или потребностей .

Создать очередь можно легко из интерфейса , что позволяет выполнять эту задачу даже пользователям , не знакомым с командной строкой . Интерфейс позволяет указать узлы , приоритет , максимальное время выполнения заданий , указать , могут ли вычислительные ресурсы ( отдельные ЦП ) в этой очереди совместно использоваться несколькими заданиями ( необязательный счетчик заданий указывает , сколько заданий может быть выделено для использования ). каждый ресурс ).

Администраторы могут установить состояние очереди , указывающее , могут ли задания распределяться по узлам или ставиться в очередь в той же очереди .

Для более опытных пользователей могут выполняться действия командной строки . В управлении очередями текущий пользователь может войти в головной узел и использовать командные строки планировщика Slurm. После завершения создания очереди и перезапуска сервисов , связанных со Slurm, вновь созданную очередь можно просмотреть в интерфейсе веб - портала . В последнее время очередь может быть изменена путем изменения файла конфигурации S lurm.

На той же странице веб - портала пользователи могут редактировать , удалять , устанавливать состояние очереди и устанавливать состояние узла .

Рисунок 3. Создание очереди в LICO

Качество обслуживания Slurm

Некоторые клиенты , особенно клиенты кластера ИИ , раньше не использовали планировщик высокопроизводительных вычислений , но им необходимо ограничить использование вычислительных ресурсов для разных пользователей или групп . LiCO поддерживает сложную стратегию планирования с Slurm Quality of Service, чтобы помочь удовлетворить эту потребность .

Качество обслуживания (QoS) — это метод , предоставляемый Slurm для определения правил ограничения вычислительных ресурсов кластера . Пользователи могут указать QOS для каждого задания , отправленного в Slurm. Администратор может динамически настраивать QoS с помощью команды Slurm, чтобы реализовать работу и обслуживание кластера . Чтобы правила QoS вступили в силу , необходимо установить отношения с очередями (Partition), группами пользователей (Account) и пользователями (User).

Общие конфигурации QoS:

• Используется для ограничения ресурсов и времени выполнения . Этот тип QoS часто ассоциируется с очередями .

• Используется для ограничения количества заданий . Этот тип QoS часто ассоциируется с группами пользователей . Использование указанных выше двух типов конфигураций QoS может в основном удовлетворить требования большинства ограничений ресурсов , и вы можете использовать командную строку для настройки QoS в соответствии с требованиями O&M.

Примечание . Текущая версия LiCO не поддерживает настройку QoS Slurm через веб - интерфейс , что необходимо сделать через командную строку .

Управление работой

Управление заданиями может осуществляться через интерфейс LiCO. Администратор может просматривать и выполнять задания , давая команды планировщику .

Примечание . Если задание отправлено через командную строку Slurm, оно не начнет выставление счетов в системе LiCO.

Поддержка Slurm Workload Manager

Хотя Slurm является менеджером рабочей нагрузки с открытым исходным кодом , внедрение передовых методов оптимизации расписания требует обучения и поддержки экспертов .

Lenovo предоставляет поддержку и услуги в партнерстве с SchedMD.

SchedMD является основной компанией Slurm, распространяющей и поддерживающей программное обеспечение диспетчера рабочей нагрузки . SchedMD также является единственным поставщиком поддержки , разработки , обучения и настройки Slurm. Защитите и улучшите свою среду Slurm с помощью SchedMD, чтобы ваше программное обеспечение не подвергалось риску и работало так , как вам нужно .

Безопасность

Лучший способ защитить вашу среду Slurm — это поддержка SchedMD. В случае нарушения безопасности конечные пользователи могут немедленно получить информацию об исправлениях от инженеров SchedMD.

Lenovo обеспечит поддержку взаимодействия для всех программных инструментов , определенных как проверенные с помощью LiCO, включая Slurm. Ошибки / проблемы с открытым исходным кодом и поддерживаемыми поставщиками будут регистрироваться и отслеживаться с соответствующими сообществами или компаниями , если это необходимо , без каких - либо гарантий со стороны Lenovo в отношении исправления ошибок .

Для поддержки программного обеспечения LiCO требуется подписка и поддержка , приобретаемые вместе с вашим решением . Для получения дополнительной информации обратитесь к торговому представителю Lenovo.

• Lenovo предоставляет поддержку на английском языке по всему миру и на китайском для Китая (24x7).

• Время ответа службы поддержки следующее :

• Реагирование на вопросы уровня серьезности 1 – 1 рабочий день .

• Другие вопросы : 3 рабочих дня

Техническая поддержка программного обеспечения означает предоставление Lenovo технической помощи по телефону или через Интернет техническим контактным лицам Заказчика в отношении любых дефектов программного обеспечения , ошибок и проблем с продуктом , проявляющихся в поддерживаемых конфигурациях Lenovo.

Техническая поддержка не распространяется на помощь при первоначальной установке продукта , инструкции по использованию программного обеспечения , обучение и / или настройку производственной среды . Если вам нужна помощь в этих областях , обратитесь к торговому представителю Lenovo или бизнес - партнеру Lenovo, чтобы получить наилучшие предложения по обслуживанию .

Служба поддержки Lenovo

Чтобы связаться со службой поддержки Lenovo:

• Перейдите на страницу https://datacentersupport.lenovo.com.

• Найдите LiCO-Lenovo Intelligent Computing Orchestration в поле поиска или выберите Solutions and Software -> LiCO-Lenovo Intelligent Computing Orchestration .

• Вы увидите оба телефонных номера Lenovo для поддержки в вашей стране , а также возможность отправить электронный запрос в службу поддержки .

Дополнительные сведения и дополнительную информацию о поддерживаемых компонентах см . на странице https://support.lenovo.com/us/en/solutions/HT507011 .

SchedMD является основным разработчиком и поставщиком услуг для Slur m, предоставляя услуги поддержки , консультирования , настройки , разработки и обучения для ускорения результатов рабочей нагрузки с помощью проверенных передовых методов и инноваций . SchedMD предлагает в 5-10 раз более сложные возможности планирования высокопроизводительных вычислений и искусственного интеллекта , включая половину самых больших систем в TOP500, для оптимизации скорости , пропускной способности и использования ресурсов для каждого уникального сочетания рабочих нагрузок , чтобы организации могли быстрее и проще получать больше результатов . Экспертные услуги SchedMD позволяют организациям быстро внедрять , максимизировать пропускную способность , управлять сложностью и легко наращивать свои высокопроизводительные рабочие нагрузки на решениях Lenovo HP C и AI.

Клиенты добавляют поддержку SchedMD Slurm для :

• Консультации и опыт внедрения , которые ускоряют настройку индивидуальной конфигурации для повышения пропускной способности и эффективности использования в сложных и крупномасштабных системах .

• Службы поддержки , которые гарантируют , что конфигурация управления рабочими нагрузками кластера постоянно обрабатывает рабочие нагрузки на пиковых уровнях по мере развития сочетания и масштабирования для повышения производительности .

• Уникальный опыт рабочих нагрузок HPC, который охватывает разработку Slurm, программную и компьютерную инженерию , а также системное администрирование для обеспечения скорости и качества решения без задержек эскалации .

• Лучшие практики для оптимальной производительности рабочих нагрузок от команды экспертов с опытом планирования в 5-10 раз более сложных высокопроизводительных вычислений , включая половину самых больших систем в TOP500.

• Индивидуальное обучение экспертов Slu rm, которое позволяет пользователям использовать возможности Slurm с технологиями Lenovo exascale для ускорения проектов и увеличения внедрения .

• Опыт управления облачными рабочими нагрузками и проверенные передовые методы для обеспечения оптимальной производительности и оптимизированного управления рабочими нагрузками в локальных системах , общедоступных и частных облаках .

Поддержка SchedMD Slurm для систем Lenovo HPC

Поддержка и услуги Slurm являются частью стека программного обеспечения Lenovo для высокопроизводительных вычислений и искусственного интеллекта , интегрированного в виде гибкого и современного решения с открытым исходным кодом для управления сложными рабочими нагрузками для более быстрой обработки и оптимального использования необходимых крупномасштабных и специализированных высокопроизводительных ресурсов и ресурсов искусственного интеллекта . за рабочую нагрузку , предоставляемую системами Lenovo.

Возможности службы поддержки SchedMD Slurm для систем Lenovo HPC включают :

• Поддержка уровня 3. Высокопроизводительные системы должны работать с высокой степенью использования и производительности , чтобы обеспечить конечным пользователям и руководству окупаемость инвестиций . Клиенты , охваченные контрактом на поддержку , могут обратиться к экспертам SchedMD Slurm, чтобы помочь решить сложные проблемы и вопросы управления рабочими нагрузками быстрее , включая подробные ответы непосредственно от команды разработчиков Slurm, вместо того , чтобы тратить недели или даже месяцы на их решение своими силами .

• Помощь в настройке : ценная помощь , когда клиентская система изначально настраивается для использования Slurm или модифицируется по мере изменения требований . Клиенты могут просмотреть требования к кластеру , операционную среду и организационные цели с помощью инженера Slurm, который будет работать с ними над оптимизацией конфигурации для достижения их потребностей .

• Индивидуальное обучение Slurm: SchedMD может предоставить индивидуальное обучение Slurm для клиентов Lenovo, которые в этом нуждаются или желают . Представители или клиенты Lenovo могут связаться со Стюартом Райтом по адресу SchedMD, stuart@schedmd.com , чтобы запросить стоимость обучения . Предварительный звонок клиента перед удаленным обучением или обучением на месте обеспечивает охват их конкретных вариантов использования и потребностей в углубленном и всестороннем техническом обучении Slurm, проводимом в формате практического лабораторного семинара , чтобы пользователи могли также ознакомиться с передовыми методами Slurm. как варианты использования для конкретных сайтов и оптимизация конфигурации .

Для дополнительной информации

Чтобы узнать больше об оркестровке вычислений Lenovo и Slurm, воспользуйтесь следующими ссылками или обратитесь к торговому представителю или бизнес - партнеру Lenovo:

• Коммерческая поддержка и развитие SchedMD Slurm
https://www.schedmd.com/

• Документация по Слёрму
https://slurm.schedmd.com/

• Руководство по продукту Lenovo Intelligent Computing Orchestration (LiCO)
https://lenovopress.lenovo.com/lp0858-lenovo-intelligent-computing-orchestration-lico

• Руководство по продукту Lenovo HPC & AI Software Stack
https://lenovopress.lenovo.com/lp1651-lenovo-hpc-ai-software-stack

• Конфигуратор Lenovo DCSC
https://dcsc.lenovo.com

Авторы

Ана Иримиа (Ana Irimiea) — менеджер по продукции Lenovo AI Systems & Solutions. Она определяет маркетинговые требования и участвует в процессе выполнения операций для каждого выпуска решения , чтобы возглавить следующее поколение платформ и решений для ИИ и высокопроизводительных вычислений . Она является менеджером по продуктам серверов Lenovo с мощными графическими процессорами и программным стеком HPC&AI. В настоящее время Ана живет в Бухаресте , Румыния , и имеет степень бакалавра системной инженерии и магистра управления в области информационных технологий , полученную в Политехническом университете Бухареста .

Виктория Хобсон — вице - президент по маркетингу компании SchedMD. Она устанавливает видение и развитие бренда , одновременно поддерживая маркетинговую деятельность в компании . Имея опыт работы в области маркетинга программного обеспечения и специализируясь на партнерских отношениях , Виктория возглавляет маркетинговые отношения между SchedMD и Lenovo. В настоящее время Виктория живет в Гринвилле , Южная Каролина , и имеет степень бакалавра в области медиакоммуникаций со степенью бакалавра в области международного бизнеса Университета Бригама Янга .

Связанные семейства продуктов

Семейства продуктов , относящиеся к этому документу , следующие :

• Искусственный интеллект

• Высокопроизводительные вычисления

Товарные знаки

Lenovo и логотип Lenovo являются товарными знаками или зарегистрированными товарными знаками Lenovo в США и / или других странах . Текущий список товарных знаков Lenovo доступен в Интернете по адресу https://www.lenovo.com/us/en/legal/copytrade/ .

Следующие термины являются товарными знаками Lenovo в США и / или других странах : Lenovo® , ThinkSystem®

Следующие термины являются товарными знаками других компаний :

Linux® является товарным знаком Линуса Торвальдса в США и других странах .

Другие названия компаний , продуктов или услуг могут быть товарными знаками или знаками обслуживания других лиц .

Публикации по теме
	Высокопроизводительные вычисления (HPC), параллельные файловые системы, HPC-СХД

	Новости Lenovo