Journal influence
Bookmark
Next issue
The system of operative monitoring of supercomputer’s «URAN» temperature and power consumption
The article was published in issue no. № 4, 2011 [ pp. 120 – 123 ]Abstract:The system of operative monitoring of supercomputer’s «URAN» temperature and power consumption is considered. The main advantage of the system is the compact monitoring data representation, which helps the administrator quickly diagnose the supercomputer using a couple of screens. The system based on the open source Zabbix software.
Аннотация:Рассматривается разработанная система оперативного мониторинга температуры и энергопотребления супер-компьютера «УРАН», ключевой особенностью которой является компактное представление данных мониторинга, позволяющее администратору быстро оценить работоспособность суперкомпьютера, просмотрев один-два экрана. Система основана на открытом ПО Zabbix.
Authors: (avs@imm.uran.ru) - , Russia, Ph.D, Goldshtein M.L (mlg@imm.uran.ru) - Institute of Mathematics and Mechanics Ural Branch of the Russian Federationn Academy of Sciences, Ekaterinburg, Russia, Ph.D, (mach@imm.uran.ru) - | |
Keywords: Zabbix, IPMI, operative monitoring, clusters, supercomputers |
|
Page views: 12826 |
Print version Full issue in PDF (5.83Mb) Download the cover in PDF (1.28Мб) |
Институт математики и механики Уральского отделения РАН (УрО РАН) (г. Екатеринбург) располагает суперкомпьютером (СК) «УРАН» [1], который является основным вычислительным ресурсом УрО РАН и одним из четырех ресурсных центров информационно-вычислительной базы Уральского федерального округа. Корректная работа этой сложной и многокомпонентной системы существенно зависит от температурного режима и тесно связана с настройками электропитания, а следовательно, и с энергопотреблением. Поэтому непрерывный мониторинг и хранение данных о температуре и энергопотреблении компонентов СК «УРАН» являются актуальными задачами. Мониторинг СК осложняется большим количеством входящих в их состав компонентов и параметров, влияющих на работоспособность. СК «УРАН» состоит из сотен вычислительных узлов (ВУ), каждый из которых имеет девять температурных датчиков. Выполнять мониторинг каждого датчика в отдельности неэффективно. Просмотр данных только о температуре входящего воздуха на всех ВУ через стандартный интерфейс управления и мониторинга Integrated Light Out Management (iLO), предоставляемый производителем HP, занимает у администратора более 45 минут, при этом большая часть времени тратится на переключения между экранами, показывающими состояние отдельных компонентов. Для обеспечения оперативного мониторинга система должна представлять администратору данные о состоянии СК в один-два экрана. Распространенные системы мониторинга такой возможности не имеют. Хранение данных по температуре и энерго- потреблению СК позволяет осуществлять их статистическую обработку с последующим прогнозированием возможных сбоев на раннем этапе возникновения, тем самым увеличивая среднее время между отказами СК [2]. Статистический анализ данных по энергопотреблению в совокупности с данными запуска задач на СК позволяет выбирать оптимальный режим (в наличии имеются средства) управления питанием, что благоприятно сказывается на таком важном параметре, как производительность на единицу потребляемой мощности. Целью работы является создание системы мониторинга температуры и энергопотребления СК «УРАН» для прогнозирования возможных сбоев на раннем этапе и обеспечения бесперебойного функционирования СК. Для достижения данной цели требуется решить следующие задачи: - круглосуточный мониторинг температуры компонентов СК и мощности потребляемого ими электропитания; - предупреждение специалистов о нештатных ситуациях с температурой и энергопотреблением СК; - сбор и хранение статистических данных по температуре и энергопотреблению СК; - обеспечение представления собранных данных в виде, пригодном для дальнейшего анализа. Источники данных и методы доступа к ним СК «УРАН» состоит из ВУ на основе блейд-серверов производства компании HP, моделей Proliant BL2x220c G5 и Proliant BL460c G5. Сбор данных производится с датчиков температуры ВУ, установленных в области процессоров, системной платы, памяти и на месте входа воздуха в ВУ, а также с датчика энергопотребления ВУ. Полученные данные необходимо хранить в течение среднего срока эксплуатации вычислительного оборудования (примерно три года). Показания датчиков можно получать как из ОС Linux, которая работает на ВУ, так и через управляющий интерфейс HP iLO, который имеет собственный IP-адрес и выделенный сетевой интерфейс, подключенный к сети управления СК. Взаимодействие с HP iLO ведется по протоколам HTTP, SSH, SNMP и IPMI. Важной особенностью является работоспособность HP iLO при подключении питания к шасси с ВУ, при этом не требуется запуск ОС и питание самого сервера может быть выключено. Существуют следующие методы доступа к данным о температуре и энергопотреблении ВУ. · SNMP (Simple Network Management Protocol) – стандартный протокол сетевого управления и мониторинга, поддерживаемый практически всеми современными аппаратными устройствами и ОС. · IPMI (Intelligent Platform Management Interface) – интерфейс удаленного управления серверами, разработанный компанией Intel, поддержанный многими производителями (в том числе HP) и ставший де-факто стандартом удаленного управления серверами. IPMI позволяет через сетевое соединение включать и выключать питание, получать доступ к консоли сервера, собирать данные о состоянии оборудования и показания встроенных в сервер датчиков. · Агент системы мониторинга – специальная программа, устанавливаемая на сервер, собирающая информацию о его работе и передающая ее системе мониторинга по стандартному (SNMP) или специально разработанному протоколу. · SSH-соединение с ОС Linux или адаптером iLO позволяет получать данные о показаниях датчиков с помощью командной строки. Проанализировав методы сбора информации о температуре и энергопотреблении ВУ СК, авторы выбрали получение данных по протоколу IPMI через управляющий интерфейс HP iLO по следующим причинам: - возможность сбора и передачи данных при неработающей ОС или выключенном питании ВУ; - отсутствие трудоемких операций по установке и сопровождению агентов системы мониторинга; - возможность использования выделенной сети управления СК. Кроме того, производительность IPMI выше, чем SSH и агентов систем мониторинга благодаря аппаратной реализации. Обзор аналогов В настоящее время для мониторинга СК используются системы трех типов: 1) универсальные системы с открытыми исходными кодами: Ganglia (http://ganglia.source- forge.net), Nagios (http://www.nagios.org), Cacti (http://www.cacti.net); 2) специализированные системы, разработанные производителями СК: SkifMon [3], Clustrx Watch, HP Cluster Management Utility, IBM Cluster Systems Management; 3) специализированные системы, разработанные организациями, эксплуатирующими СК: Вычислительный центр ДВО РАН [4], Институт кибернетики им. В.М. Глушкова НАН Украины [5]. Институт математики и механики УрО РАН является академической организацией и ориентирован на преимущественное использование открытого ПО. Поэтому был выполнен анализ возможностей популярных бесплатных систем мониторинга СК Ganglia, Nagios, Cacti, Zabbix. Все системы поддерживают большое количество устройств (тысячи и сотни тысяч) и метрик мониторинга, имеют необходимую производительность, предоставляют web-интерфейс с возможностью просмотра данных мониторинга и построения графиков. Оценить применимость системы для мониторинга СК «УРАН» авторы предлагают с помощью следующего набора критериев: - С1 – поддержка интерфейса IPMI, используемого для сбора данных; - С2 – технология хранения данных, учитывающая тип репозитория, возможный срок хранения и интерфейс доступа к данным; - С3 – средства консолидированного представления информации, включающие единый отчет о состоянии, групповые функции и графики, настраиваемые карты и экраны; - С4 – средства предупреждения о проблемах: визуальная идентификация, отправка сообщений по e-mail или SMS; - С5 – поддержка пользовательского интерфейса на русском языке. Качественный анализ открытых систем мониторинга приведен в таблице 1. Таблица 1
Интегральный критерий оценки Ci рассчитывается по формуле Ci=0,2×С1+0,3×С2+0,3×С3+ +0,1×С4+0,1×С5. Результаты экспертной оценки открытых систем мониторинга по предложенным критериям приведены в таблице 2. Таблица 2
На основе результатов экспертной оценки можно сделать вывод, что система Zabbix более всего подходит для мониторинга температуры и энергопотребления СК «УРАН». Практическая реализация Система мониторинга СК «УРАН» выполнена на основе Zabbix на платформе Scientific Linux 6. Сбор данных обеспечен через управляющий модуль HP iLO 2 по интерфейсу IPMI. Для хранения данных используется СУБД MySQL, срок хранения – три года. Пользовательский интерфейс организован через web. Схему системы мониторинга можно представить выражением СК{СУ[МЦ ВУ(iLO)]}®МЦ(IPMI)®СМ(СZ+БД+Web), где СК – суперкомпьютер, СУ – сервер управления, МЦ – массовые цепи, ВУ – вычислительный узел, СМ – сервер мониторинга, CZ – сервер Zabbix, БД – база для хранения статистической информации, Web – интерфейс пользователя системы мониторинга. Стандартный web-интерфейс Zabbix был су- щественно расширен в целях обеспечения оперативности мониторинга за счет предоставления администраторам компактной информации, позволяющей быстро оценить температуру и энергопотребление всех компонентов СК. Использованы групповые функции (среднее, минимальное и максимальное значения датчиков температуры, сумма значений датчиков энергопотребления), групповые графики для представления значений нескольких групповых функций, настраиваемые экраны для компактного представления показаний датчиков одного типа на всех ВУ СК (температура входящего воздуха, энергопотребление и др.). Возможно построение графика на основе данных за предыдущие периоды средствами web-интерфейса Zabbix, что полезно при расследовании инцидентов с СК. Разработанные средства консолидированного представления данных позволяют найти проблему в работе СК, просмотрев всего несколько экранов системы мониторинга, что существенно сокращает затраты времени на диагностику. В заключение можно отметить следующее. Созданная на базе открытого ПО Zabbix система оперативного мониторинга температуры и энергопотребления СК «УРАН» обеспечивает современный уровень эксплуатационной поддержки СК за счет быстрого обнаружения проблем и отправки сообщения администраторам для их устранения. Встроенные средства консолидации представления данных мониторинга позволяют оперативно получать информацию о работоспособности СК путем просмотра одного-двух экранов системы. Обеспечено долговременное хранение данных мониторинга в СУБД MySQL, что дает возможность проводить их обработку с помощью статистических методов в целях прогнозирования сбоев в работе СК. Дальнейшая работа направлена на исследование и практическую реализацию таких методов анализа данных мониторинга. Литература 1. Рейтинг TOP 50 // Суперкомпьютеры. URL: http://top50. supercomputers.ru (дата обращения: 15.08.2011). 2. Московский А.А., Первин А.Ю., Стоцкий М.В. Прогнозирование аппаратных сбоев вычислительных кластеров с помощью систем мониторинга // Программные системы: тео- рия и приложения (PSTA-2006): тр. Междунар. конф. М.: Физматлит, 2006. С. 277–283. 3. Гумин М.В., Стоцкий М.В. Система мониторинга и управления кластерными установками семейства СКИФ – SkifMon // Телематика'2010: телекоммуникации, веб-технологии, суперкомпьютинг: сб. стат. участников Всерос. конкурса науч. работ студент. и аспирант. СПб: СПбГУ ИТМО, 2010. С. 183–186. 4. Тарасов А.Г. Расширяемая система мониторинга вычислительного кластера // Вычислительные методы и программирование. 2009. Т. 10. С. 147–158. 5. Головинский А.Л., Маленко А.Л., Белоус Л.Ф. Веб-портал системы управления суперкомпьютером // Вычислительные методы и программирование. 2010. Т. 11. С. 130–136. |
Permanent link: http://swsys.ru/index.php?page=article&id=2930&lang=&lang=en |
Print version Full issue in PDF (5.83Mb) Download the cover in PDF (1.28Мб) |
The article was published in issue no. № 4, 2011 [ pp. 120 – 123 ] |
Perhaps, you might be interested in the following articles of similar topics: