Планирование задач ML и HPC с помощью платформы Shoc на базе Kubernetes

Аннотации

Авторы

  • Д. А. Петросян Институт проблем информатики и автоматизации НАН РА, Ереван, Армения

Аннотация

Высокопроизводительные вычисления (HPC) и задачи машинного обучения (ML) играют ключевую роль в научных исследованиях, моделировании и приложениях на основе искусственного интеллекта. Несмотря на широкое применение традиционных планировщиков, таких как Slurm, благодаря их точному управлению ресурсами и передовым возможностям планирования в условиях тесно связанных и ресурсоемких сред рост контейнеризации и облачно-нативных технологий привнес новые подходы к управлению задачами.

Kubernetes — ведущая платформа для оркестрации контейнеров — предоставляет динамическое выделение ресурсов, автомасштабирование и бесшовную интеграцию с облачными средами. Эти возможности делают Kubernetes подходящей для гибких и масштабируемых задач. Однако изначально Kubernetes не была разработана с учетом традиционных HPC-задач, что создает такие проблемы, как управление на уровне специфики оборудования и планирование с учетом  зависимостей.

Платформа Shoc (Serverless HPC Over Cloud) решает эти проблемы, расширяя возможности Kubernetes для поддержки разнообразных и сложных процессов HPC и ML. Рассматриваются архитектура и функции платформы Shoc, демонстрируется ее способность обеспечивать эффективное бессерверное управление задачами ML и HPC на базе Kubernetes, успешно преодолевая разрыв между традиционными планировщиками и современными облачно-нативными подходами.

Опубликован

2025-12-17

Выпуск

Раздел

Статьи