На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

В Институте динамики систем и теории управления СО РАН исследовался подход к созданию системы метамониторинга высокопроизводительной вычислительной среды, ориентированной на решение ресурсоемких вычислительных задач и состоящей из множества разнородных программно-аппаратных ресурсов.

06.08.2014

Интеграция вычислительных ресурсов в высокопроизводительные распределенные вычислительные среды (РВС) для сложных ресурсоемких расчетов в тех или иных предметных областях требует организации системы метамониторинга – программной надстройки над локальными средствами мониторинга отдельных ресурсов РВС, позволяющей обеспечить надежное и эффективное функционирование распределенной среды.

При создании системы метамониторинга РВС необходимо учитывать ряд факторов, в том числе разнородный характер РВС: входящие в состав среды вычислительные ресурсы отличаются разнообразием архитектуры и конфигурации программного и аппаратного обеспечения. В качестве узлов РВС, как правило, используются высокопроизводительные кластеры, работа которых контролируется локальными средствами мониторинга. Основная функция таких средств состоит в сборе и графическом отображении информации о состоянии узлов кластера (загрузке процессоров, ускорителей, оперативной и виртуальной памяти, коммуникационной среды и т.д.) за определенный временной интервал.

Предлагаемый к созданию системы метамониторинга РВС подход отличается от известных уникальным сочетанием свойств, к числу которых относятся автоматический контроль программно-аппаратных ресурсов с использованием мульти- агентных технологий, децентрализованное хранение данных метамониторинга, принятие решений с использованием экспертных систем.

Предполагалось, что система метамониторинга РВС должна удовлетворять следующим исходным требованиям:

-      обеспечивать интеграцию с локальными средствами мониторинга вычислительных ресурсов, предоставлять средства разработки модулей сбора данных на различных языках системного программирования (С, Perl, Bash и др.);

-      предоставлять прикладные программные интерфейсы на основе открытых стандартов для встраивания в другие программные комплексы;

-      включать средства унификации данных, получаемых из различных источников;

-      предоставлять средства сбора и анализа данных о функционировании оборудования вспомогательной (инженерной) инфраструктуры, обеспечивающей бесперебойную работу больших вычислительных установок;

-      предоставлять средства сбора и анализа данных пользовательских приложений, а также средства автоматизированного экспертного анализа данных мониторинга и генерации управляющих воздействий.

С целью создания системы метамониторинга, удовлетворяющей приведенным требованиям, была спроектирована и реализована архитектура (см. рис.), включающая следующие основные компоненты:

-      средства доступа пользователей, позволяющие взаимодействовать с системой метамониторинга как в пакетном, так и в интерактивном режимах;

-      подсистемы уровня доступа, осуществляющие контроль прав доступа к запрашиваемым данным и реализующие серверную часть графического интерфейса пользователя;

-      агент верхнего уровня, функционирующий в центральном узле РВС и выполняющий основную задачу по управлению системой метамониторинга;

-      агенты промежуточного уровня, функционирующие в промежуточных узлах и решающие задачу снижения нагрузки на агентов верхних уровней;

-      агенты нижнего уровня, функционирующие в узлах РВС и осуществляющие сбор и первичную обработку данных о состоянии узлов;

-      подсистема децентрализованного хранения данных, предоставляющая функции для работы с данными для агентов разных уровней.

Подробное описание дается в статье «Система метамониторинга высокопроизводительных вычислительных сред», авторы: Опарин Г.А., Новопашин А.П., Сидоров И.А., Скоров В.В. (Институт динамики систем и теории управления СО РАН, Иркутск).