ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

4
Publication date:
09 December 2024

The system of operative monitoring of supercomputer’s «URAN» temperature and power consumption

The article was published in issue no. № 4, 2011 [ pp. 120 – 123 ]
Abstract:The system of operative monitoring of supercomputer’s «URAN» temperature and power consumption is considered. The main advantage of the system is the compact monitoring data representation, which helps the administrator quickly diagnose the supercomputer using a couple of screens. The system based on the open source Zabbix software.
Аннотация:Рассматривается разработанная система оперативного мониторинга температуры и энергопотребления супер-компьютера «УРАН», ключевой особенностью которой является компактное представление данных мониторинга, позволяющее администратору быстро оценить работоспособность суперкомпьютера, просмотрев один-два экрана. Система основана на открытом ПО Zabbix.
Authors: (avs@imm.uran.ru) - , Russia, Ph.D, Goldshtein M.L (mlg@imm.uran.ru) - Institute of Mathematics and Mechanics Ural Branch of the Russian Federationn Academy of Sciences, Ekaterinburg, Russia, Ph.D, (mach@imm.uran.ru) -
Keywords: Zabbix, IPMI, operative monitoring, clusters, supercomputers
Page views: 12413
Print version
Full issue in PDF (5.83Mb)
Download the cover in PDF (1.28Мб)

Font size:       Font:

Институт математики и механики Уральского отделения РАН (УрО РАН) (г. Екатеринбург) располагает суперкомпьютером (СК) «УРАН» [1], который является основным вычислительным ресурсом УрО РАН и одним из четырех ресурсных центров информационно-вычислительной базы Уральского федерального округа. Корректная работа этой сложной и многокомпонентной системы существенно зависит от температурного режима и тесно связана с настройками электропитания, а следовательно, и с энергопотреблением. Поэтому непрерывный мониторинг и хранение данных о температуре и энергопотреблении компонентов СК «УРАН» являются актуальными задачами. Мониторинг СК осложняется большим количеством входящих в их состав компонентов и параметров, влияющих на работоспособность.

СК «УРАН» состоит из сотен вычислительных узлов (ВУ), каждый из которых имеет девять температурных датчиков. Выполнять мониторинг каждого датчика в отдельности неэффективно. Просмотр данных только о температуре входящего воздуха на всех ВУ через стандартный интерфейс управления и мониторинга Integrated Light Out Management (iLO), предоставляемый производителем HP, занимает у администратора более 45 минут, при этом большая часть времени тратится на переключения между экранами, показывающими состояние отдельных компонентов. Для обеспечения оперативного мониторинга система должна представлять администратору данные о состоянии СК в один-два экрана. Распространенные системы мониторинга такой возможности не имеют.

Хранение данных по температуре и энерго- потреблению СК позволяет осуществлять их статистическую обработку с последующим прогнозированием возможных сбоев на раннем этапе возникновения, тем самым увеличивая среднее время между отказами СК [2].

Статистический анализ данных по энергопотреблению в совокупности с данными запуска задач на СК позволяет выбирать оптимальный режим (в наличии имеются средства) управления питанием, что благоприятно сказывается на таком важном параметре, как производительность на единицу потребляемой мощности.

Целью работы является создание системы мониторинга температуры и энергопотребления СК «УРАН» для прогнозирования возможных сбоев на раннем этапе и обеспечения бесперебойного функционирования СК. Для достижения данной цели требуется решить следующие задачи:

-      круглосуточный мониторинг температуры компонентов СК и мощности потребляемого ими электропитания;

-      предупреждение специалистов о нештатных ситуациях с температурой и энергопотреблением СК;

-      сбор и хранение статистических данных по температуре и энергопотреблению СК;

-      обеспечение представления собранных данных в виде, пригодном для дальнейшего анализа.

Источники данных и методы доступа к ним

СК «УРАН» состоит из ВУ на основе блейд-серверов производства компании HP, моделей Proliant BL2x220c G5 и Proliant BL460c G5. Сбор данных производится с датчиков температуры ВУ, установленных в области процессоров, системной платы, памяти и на месте входа воздуха в ВУ, а также с датчика энергопотребления ВУ. Полученные данные необходимо хранить в течение среднего срока эксплуатации вычислительного оборудования (примерно три года).

Показания датчиков можно получать как из ОС Linux, которая работает на ВУ, так и через управляющий интерфейс HP iLO, который имеет собственный IP-адрес и выделенный сетевой интерфейс, подключенный к сети управления СК. Взаимодействие с HP iLO ведется по протоколам HTTP, SSH, SNMP и IPMI. Важной особенностью является работоспособность HP iLO при подключении питания к шасси с ВУ, при этом не требуется запуск ОС и питание самого сервера может быть выключено.

Существуют следующие методы доступа к данным о температуре и энергопотреблении ВУ.

·       SNMP (Simple Network Management Protocol) – стандартный протокол сетевого управления и мониторинга, поддерживаемый практически всеми современными аппаратными устройствами и ОС.

·       IPMI (Intelligent Platform Management Interface) – интерфейс удаленного управления серверами, разработанный компанией Intel, поддержанный многими производителями (в том числе HP) и ставший де-факто стандартом удаленного управления серверами. IPMI позволяет через сетевое соединение включать и выключать питание, получать доступ к консоли сервера, собирать данные о состоянии оборудования и показания встроенных в сервер датчиков.

·       Агент системы мониторинга – специальная программа, устанавливаемая на сервер, собирающая информацию о его работе и передающая ее системе мониторинга по стандартному (SNMP) или специально разработанному протоколу.

·       SSH-соединение с ОС Linux или адаптером iLO позволяет получать данные о показаниях датчиков с помощью командной строки.

Проанализировав методы сбора информации о температуре и энергопотреблении ВУ СК, авторы выбрали получение данных по протоколу IPMI через управляющий интерфейс HP iLO по следующим причинам:

-      возможность сбора и передачи данных при неработающей ОС или выключенном питании ВУ;

-      отсутствие трудоемких операций по установке и сопровождению агентов системы мониторинга;

-      возможность использования выделенной сети управления СК.

Кроме того, производительность IPMI выше, чем SSH и агентов систем мониторинга благодаря аппаратной реализации.

Обзор аналогов

В настоящее время для мониторинга СК используются системы трех типов:

1)     универсальные системы с открытыми исходными кодами: Ganglia (http://ganglia.source- forge.net), Nagios (http://www.nagios.org), Cacti (http://www.cacti.net);

2)     специализированные системы, разработанные производителями СК: SkifMon [3], Clustrx Watch, HP Cluster Management Utility, IBM Cluster Systems Management;

3)     специализированные системы, разработанные организациями, эксплуатирующими СК: Вычислительный центр ДВО РАН [4], Институт кибернетики им. В.М. Глушкова НАН Украины [5].

Институт математики и механики УрО РАН является академической организацией и ориентирован на преимущественное использование открытого ПО. Поэтому был выполнен анализ возможностей популярных бесплатных систем мониторинга СК Ganglia, Nagios, Cacti, Zabbix. Все системы поддерживают большое количество устройств (тысячи и сотни тысяч) и метрик мониторинга, имеют необходимую производительность, предоставляют web-интерфейс с возможностью просмотра данных мониторинга и построения графиков. Оценить применимость системы для мониторинга СК «УРАН» авторы предлагают с помощью следующего набора критериев:

-      С1 – поддержка интерфейса IPMI, используемого для сбора данных;

-      С2 – технология хранения данных, учитывающая тип репозитория, возможный срок хранения и интерфейс доступа к данным;

-      С3 – средства консолидированного представления информации, включающие единый отчет о состоянии, групповые функции и графики, настраиваемые карты и экраны;

-      С4 – средства предупреждения о проблемах: визуальная идентификация, отправка сообщений по e-mail или SMS;

-      С5 – поддержка пользовательского интерфейса на русском языке.

Качественный анализ открытых систем мониторинга приведен в таблице 1.

Таблица 1

Характеристика

Ganglia

Nagios

Cacti

Zabbix

Поддержка IPMI

Сторонний плагин

Нет

Есть

Тип репозитория

RRDTool

БД (MySQL, PostgreSQL Oracle и др.)

Средства консолидации представления данных

Групповые графики

Единый отчет о состоянии, карты

Нет

Единый отчет о состоянии, групповые функции, групповые графики, карты, экраны

Уведомление о проблемах

Нет

Есть

Нет

Есть

Прямой доступ к данным

Требуется предварительный экспорт

Есть, документированная структура БД

Средства доступа к данным

rrdfetch, rrdxport

SQL

Поддержка русского языка

Нет

Есть

Интегральный критерий оценки Ci рассчитывается по формуле Ci=0,2×С1+0,3×С2+0,3×С3+ +0,1×С4+0,1×С5.

Результаты экспертной оценки открытых систем мониторинга по предложенным критериям приведены в таблице 2.

Таблица 2

Критерий

Ganglia

Nagios

Cacti

Zabbix

С1

0,5

0,5

0,1

1

С2

0,5

0,5

0,5

1

С3

0,2

0,6

0,1

1

С4

0,1

1

0,1

1

С5

0

0

0

1

Сi

0,32

0,53

0,21

1

На основе результатов экспертной оценки можно сделать вывод, что система Zabbix более всего подходит для мониторинга температуры и энергопотребления СК «УРАН».

Практическая реализация

Система мониторинга СК «УРАН» выполнена на основе Zabbix на платформе Scientific Linux 6. Сбор данных обеспечен через управляющий модуль HP iLO 2 по интерфейсу IPMI. Для хранения данных используется СУБД MySQL, срок хранения – три года. Пользовательский интерфейс организован через web. Схему системы мониторинга можно представить выражением СК{СУ[МЦ ВУ(iLO)]}®МЦ(IPMI)®СМ(СZ+БД+Web), где СК – суперкомпьютер, СУ – сервер управления, МЦ – массовые цепи, ВУ – вычислительный узел, СМ – сервер мониторинга, CZ – сервер Zabbix, БД – база для хранения статистической информации, Web – интерфейс пользователя системы мониторинга.

Стандартный web-интерфейс Zabbix был су- щественно расширен в целях обеспечения оперативности мониторинга за счет предоставления администраторам компактной информации, позволяющей быстро оценить температуру и энергопотребление всех компонентов СК. Использованы групповые функции (среднее, минимальное и максимальное значения датчиков температуры, сумма значений датчиков энергопотребления), групповые графики для представления значений нескольких групповых функций, настраиваемые экраны для компактного представления показаний датчиков одного типа на всех ВУ СК (температура входящего воздуха, энергопотребление и др.). Возможно построение графика на основе данных за предыдущие периоды средствами web-интер­фейса Zabbix, что полезно при расследовании инцидентов с СК. Разработанные средства консолидированного представления данных позволяют найти проблему в работе СК, просмотрев всего несколько экранов системы мониторинга, что существенно сокращает затраты времени на диагностику.

В заключение можно отметить следующее. Созданная на базе открытого ПО Zabbix система оперативного мониторинга температуры и энергопотребления СК «УРАН» обеспечивает современный уровень эксплуатационной поддержки СК за счет быстрого обнаружения проблем и отправки сообщения администраторам для их устранения. Встроенные средства консолидации представления данных мониторинга позволяют оперативно получать информацию о работоспособности СК путем просмотра одного-двух экранов системы. Обеспечено долговременное хранение данных мониторинга в СУБД MySQL, что дает возможность проводить их обработку с помощью статистических методов в целях прогнозирования сбоев в работе СК. Дальнейшая работа направлена на исследование и практическую реализацию таких методов анализа данных мониторинга.

Литература

1. Рейтинг TOP 50 // Суперкомпьютеры. URL: http://top50. supercomputers.ru (дата обращения: 15.08.2011).

2. Московский А.А., Первин А.Ю., Стоцкий М.В. Прогнозирование аппаратных сбоев вычислительных кластеров с помощью систем мониторинга // Программные системы: тео-

рия и приложения (PSTA-2006): тр. Междунар. конф. М.: Физматлит, 2006. С. 277–283.

3. Гумин М.В., Стоцкий М.В. Система мониторинга и управления кластерными установками семейства СКИФ – SkifMon // Телематика'2010: телекоммуникации, веб-техноло­гии, суперкомпьютинг: сб. стат. участников Всерос. конкурса науч. работ студент. и аспирант. СПб: СПбГУ ИТМО, 2010. С. 183–186.

4. Тарасов А.Г. Расширяемая система мониторинга вычислительного кластера // Вычислительные методы и программирование. 2009. Т. 10. С. 147–158.

5. Головинский А.Л., Маленко А.Л., Белоус Л.Ф. Веб-портал системы управления суперкомпьютером // Вычислительные методы и программирование. 2010. Т. 11. С. 130–136.


Permanent link:
http://swsys.ru/index.php?id=2930&lang=en&page=article
Print version
Full issue in PDF (5.83Mb)
Download the cover in PDF (1.28Мб)
The article was published in issue no. № 4, 2011 [ pp. 120 – 123 ]

Perhaps, you might be interested in the following articles of similar topics: