Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В Институте динамики систем и теории управления СО РАН исследовался подход к созданию системы метамониторинга высокопроизводительной вычислительной среды, ориентированной на решение ресурсоемких вычислительных задач и состоящей из множества разнородных программно-аппаратных ресурсов.
06.08.2014Интеграция вычислительных ресурсов в высокопроизводительные распределенные вычислительные среды (РВС) для сложных ресурсоемких расчетов в тех или иных предметных областях требует организации системы метамониторинга – программной надстройки над локальными средствами мониторинга отдельных ресурсов РВС, позволяющей обеспечить надежное и эффективное функционирование распределенной среды.
При создании системы метамониторинга РВС необходимо учитывать ряд факторов, в том числе разнородный характер РВС: входящие в состав среды вычислительные ресурсы отличаются разнообразием архитектуры и конфигурации программного и аппаратного обеспечения. В качестве узлов РВС, как правило, используются высокопроизводительные кластеры, работа которых контролируется локальными средствами мониторинга. Основная функция таких средств состоит в сборе и графическом отображении информации о состоянии узлов кластера (загрузке процессоров, ускорителей, оперативной и виртуальной памяти, коммуникационной среды и т.д.) за определенный временной интервал.
Предлагаемый к созданию системы метамониторинга РВС подход отличается от известных уникальным сочетанием свойств, к числу которых относятся автоматический контроль программно-аппаратных ресурсов с использованием мульти- агентных технологий, децентрализованное хранение данных метамониторинга, принятие решений с использованием экспертных систем.
Предполагалось, что система метамониторинга РВС должна удовлетворять следующим исходным требованиям:
- обеспечивать интеграцию с локальными средствами мониторинга вычислительных ресурсов, предоставлять средства разработки модулей сбора данных на различных языках системного программирования (С, Perl, Bash и др.);
- предоставлять прикладные программные интерфейсы на основе открытых стандартов для встраивания в другие программные комплексы;
- включать средства унификации данных, получаемых из различных источников;
- предоставлять средства сбора и анализа данных о функционировании оборудования вспомогательной (инженерной) инфраструктуры, обеспечивающей бесперебойную работу больших вычислительных установок;
- предоставлять средства сбора и анализа данных пользовательских приложений, а также средства автоматизированного экспертного анализа данных мониторинга и генерации управляющих воздействий.
С целью создания системы метамониторинга, удовлетворяющей приведенным требованиям, была спроектирована и реализована архитектура (см. рис.), включающая следующие основные компоненты:
- средства доступа пользователей, позволяющие взаимодействовать с системой метамониторинга как в пакетном, так и в интерактивном режимах;
- подсистемы уровня доступа, осуществляющие контроль прав доступа к запрашиваемым данным и реализующие серверную часть графического интерфейса пользователя;
- агент верхнего уровня, функционирующий в центральном узле РВС и выполняющий основную задачу по управлению системой метамониторинга;
- агенты промежуточного уровня, функционирующие в промежуточных узлах и решающие задачу снижения нагрузки на агентов верхних уровней;
- агенты нижнего уровня, функционирующие в узлах РВС и осуществляющие сбор и первичную обработку данных о состоянии узлов;
- подсистема децентрализованного хранения данных, предоставляющая функции для работы с данными для агентов разных уровней.
Подробное описание дается в статье «Система метамониторинга высокопроизводительных вычислительных сред», авторы: Опарин Г.А., Новопашин А.П., Сидоров И.А., Скоров В.В. (Институт динамики систем и теории управления СО РАН, Иркутск).