Мониторинг кластера HTCondor

Аннотации

Авторы

  • Е. Цамцуров
  • Н. Балашов

Аннотация

В рамках участия в различных экспериментах ОИЯИ предоставляет вы-
числительные ресурсы в виде batch-кластера, развернутого как виртуальные
машины в облаке ОИЯИ на базе системы HTCondor. Так как batch-система —
многокомпонентная сложная система, то одним из ключевых аспектов обеспе-
чения ее бесперебойной работы является постоянный мониторинг состояния ее
основных компонентов. Представлена разработанная система мониторинга кла-
стера HTCondor на базе стека технологий Node Exporter, Prometheus, Grafana.
Рассмотрена общая архитектура системы мониторинга, описаны процессы, про-
исходящие в ней. Разработки открыты и опубликованы, что позволяет свободно
интегрировать их в сторонние инфраструктуры.

Опубликован

2024-06-20

Выпуск

Раздел

Статьи