Мониторинг кластера HTCondor

Аннотации

Авторы

  • Е. Цамцуров Объединенный институт ядерных исследований, Дубна; Государственный университет «Дубна», Дубна, Россия
  • Н. Балашов Объединенный институт ядерных исследований, Дубна

Аннотация

В рамках участия в различных экспериментах ОИЯИ предоставляет вычислительные ресурсы в виде batch-кластера, развернутого как виртуальные машины в облаке ОИЯИ на базе системы HTCondor. Так как batch-система —  многокомпонентная сложная система, то одним из ключевых аспектов обеспечения ее бесперебойной работы является постоянный мониторинг состояния ее основных компонентов. Представлена разработанная система мониторинга кластера HTCondor на базе стека технологий Node Exporter, Prometheus, Grafana. Рассмотрена общая архитектура системы мониторинга, описаны процессы, происходящие в ней. Разработки открыты и опубликованы, что позволяет свободно 
интегрировать их в сторонние инфраструктуры.

Опубликован

2024-06-20

Выпуск

Раздел

Статьи