Публикации
2023 г. – новый этап практического применения CXL, статья
VMware сдвигает акцент в проекте Capitola на CXL, статья
Dell Validated Design for Analytics — Data Lakehouse: интегрированное хранилище данных, статья
OCP Global Summit: решения для Computational Storage и компонуемых масштабируемых архитектур, статья
Samsung CXL MemoryySemantic SSD: 20M IOPs, статья
UCIe – открытый протокол для взаимосвязи чиплетов и построения дезагрегированных инфраструктур, статья
Omni-Path Express – открытый интерконнект для экзафлопных HPC/AI-систем, статья
GigaIO: CDI_решение на базе AMD для высшего образования, статья
Энергоэффективные ЦОД на примерах решений Supermicro, Lenovo, Iceotope, Meta, статья
От хранилищ данных и “озер данных” к open data lakehouse и фабрике данных, статья
EuroHPC JU развивает НРС-экосистему на базе RISC-V, статья
LightOS™ 2.2 – программно-определяемое составное блочное NVMe/TCP хранилище, статья
End-to-end 64G FC NAFA, статья
Computational Storage, статья
Технология KIOXIA Software-Enabled Flash™, статья
Pavilion: 200 млн IOPS на стойку, статья
CXL 2.0: инновации в операциях Load/Store вводаавывода, статья
Тестирование референсной архитектуры Weka AI на базе NVIDIA DGX A100, статья
Fujitsu ETERNUS CS8000 – единая масштабируемая платформа для резервного копирования и архивирования, статья
SmartNIC – новый уровень инфраструктурной обработки, статья
Ethernet SSD, JBOF, EBOF и дезагрегированные хранилища, статья
Compute, Memory и Storage, статья
Lenovo: CXL – будущее серверов с многоуровневой памятью , статья
Liqid: компонуемые дезагрегированные инфраструктуры для HPC и AI, статья
Intel® Agilex™ FPGA, статья
Weka для AI-трансформации, статья
Cloudera Data Platform – “лучшее из двух миров”, статья
Fujitsu ETERNUS DSP - разработано для будущего, статья
Технологии охлаждения для следующего поколения HPC-решений, статья
Что такое современный HBA?, статья
Fugaku– самый быстрый суперкомпьютер в мире, статья
НРС – эпоха революционных изменений, статья
Новое поколение СХД Fujitsu ETERNUS, статья
Зональное хранение данных, статья
За пределами суперкомпьютеров, статья
Применение Intel® Optane™ DC и Intel® FPGA PAC, статья
Адаптивные HPC/AI-архитектуры для экзаскейл-эры, статья
DAOS: СХД для HPC/BigData/AI приложений в эру экзаскейл_вычислений, статья
IPsec в пост-квантовую эру, статья
LiCO: оркестрация гибридныхНРС/AI/BigData_инфраструктур, статья
 
Обзоры
Все обзоры в Storage News
 
Тематические публикации
Flash-память
Облачные вычисления/сервисы
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
Современные СХД
Информационная безопасность (ИБ), борьба с мошенничеством
Рынки
Run:ai выпускает расширенные функции обслуживания моделей, чтобы помочь организациям упростить развертывание ИИ

21, июль 2022  — 

Функции, ориентированные на логические выводы, включая интеграцию с NVIDIA Triton Inference Server, делают Run:ai Atlas идеальной платформой управления инфраструктурой ИИ для разработки, обучения и производства.

Run:ai, лидер в области оркестровки вычислений для рабочих нагрузок ИИ, объявила сегодня о новых функциях своей платформы Atlas, включая двухэтапное развертывание модели, которое упрощает и ускоряет внедрение моделей машинного обучения в производство. Компания также объявила о новой интеграции с NVIDIA Triton Inference Server. Эти возможности в первую очередь ориентированы на поддержку организаций в развертывании и использовании моделей ИИ для рабочих нагрузок логических выводов на вычислениях с ускорением NVIDIA, чтобы они могли предоставлять точные ответы в режиме реального времени. Функции делают Run:ai Atlas единой унифицированной платформой, на которой команды специалистов по ИИ, от специалистов по данным до инженеров MLOps, могут создавать, обучать и управлять моделями в производстве с помощью одного простого интерфейса.

Модели ИИ могут быть сложными для внедрения в производство; несмотря на время и усилия, потраченные на создание и обучение моделей, большинство из них никогда не покидают лабораторию. Настройка модели, подключение ее к данным и контейнерам и выделение только необходимого объема вычислений — основные препятствия для работы ИИ в производственной среде. Развертывание модели обычно требует ручного редактирования и загрузки утомительных файлов конфигурации YAML. Новое двухэтапное развертывание Run:ai упрощает процесс, позволяя организациям быстро переключаться между моделями, оптимизировать использование графических процессоров для экономичного использования и обеспечивать эффективную работу моделей в производственной среде.

Run:ai также анонсировала полную интеграцию с NVIDIA Triton Inference Server, которая позволяет организациям развертывать несколько моделей — или несколько экземпляров одной и той же модели — и запускать их параллельно в одном контейнере. NVIDIA Triton Inference Server включен в программный пакет NVIDIA AI Enterprise, который полностью поддерживается и оптимизирован для разработки и развертывания ИИ. Оркестровка Run:ai работает поверх NVIDIA Triton и обеспечивает автоматическое масштабирование, распределение и расстановку приоритетов для каждой модели, что автоматически оптимизирует размер Triton. Использование Atlas от Run:ai с NVIDIA Triton приводит к увеличению использования вычислительных ресурсов при одновременном упрощении инфраструктуры ИИ. Платформа Run.ai Atlas — это приложение NVIDIA AI Accelerated, что указывает на то, что оно разработано на платформе NVIDIA AI для повышения производительности и надежности.

Выполнение рабочих нагрузок логических выводов в производственной среде требует меньше ресурсов, чем обучение, которое потребляет большие объемы вычислений и памяти графического процессора. Организации иногда запускают рабочие нагрузки логического вывода на CPU , а не на GPU , но это может означать более высокую задержку. Во многих случаях использования ИИ конечному пользователю требуется ответ в режиме реального времени: например, идентификация знака остановки, распознавание лиц на телефоне или голосовая диктовка. Вывод на основе CPU может быть слишком медленным для этих приложений.

Использование GPU для рабочих нагрузок вывода ( inference ) обеспечивает меньшую задержку и более высокую точность, но это может быть дорогостоящим и расточительным, если GPU используются не полностью. Ориентированный на модели подход Run:ai автоматически адаптируется к различным требованиям рабочей нагрузки. С Run:ai больше не требуется использовать полный GPU для одной облегченной рабочей нагрузки, что позволяет значительно сократить расходы при сохранении низкой задержки.

Другие новые функции Run:ai Atlas для рабочих нагрузок логических выводов включают:

•  Видимость и мониторинг. Новые метрики и информационные панели, ориентированные на логические выводы, дают представление о работоспособности и производительности моделей ИИ в производственной среде.

•  Развертывание моделей на фракционных GPU . Выбор правильного размера моделей и их развертывание на фракционных графических процессорах позволяет избежать потери ресурсов и обеспечивает соблюдение требований к производительности.

•  Автомасштабирование . Позволяет организациям автоматически масштабировать модели вверх или вниз на основе предопределенных пороговых значений с использованием встроенных и специфичных для графического процессора показателей. Это обеспечивает соблюдение типовых соглашений об уровне обслуживания (с точки зрения задержки).

•  Масштабирование до нуля ( Scale-to-Zero ) . Автоматически масштабирует развертывание до нуля, когда это возможно, высвобождая ценные ресурсы, что снижает затраты и позволяет перепрофилировать ресурсы для других рабочих нагрузок.

«Благодаря новым расширенным возможностям логического вывода платформа Altas от Run:ai теперь предлагает решение для всего жизненного цикла ИИ — от сборки до обучения и логического вывода — все это реализовано на одной платформе», — сказал Ронен Дар ( Ronen Dar ), технический директор и соучредитель Run:ai. . «Вместо использования нескольких различных MLOps и инструментов оркестровки специалисты по обработке и анализу данных могут воспользоваться одной унифицированной мощной платформой для управления всеми потребностями своей инфраструктуры искусственного интеллекта».

«Гибкость и мобильность сервера выводов NVIDIATriton, доступного с поддержкой NVIDIA AI Enterprise, обеспечивают быстрое и простое масштабирование и развертывание обученных моделей ИИ из любой среды на любой инфраструктуре на базе GPU или CPU», — сказал Шанкар Чандрасекаран ( Shankar Chandrasekaran ), старший менеджер по продуктам в NVIDIA. «Высокая производительность и простота использования Triton Inference Server вместе с оркестровкой на платформе Atlas от Run:ai делают его идеальной основой для развертывания модели ИИ».

Публикации по теме
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
 
Новости Run:ai

© "Storage News" journal, Russia&CIS
(495) 233-4935;
www.storagenews.ru; info@storagenews.ru.