На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

В Институте математики и механики УрО РАН разработана система оперативного мониторинга температуры и энергопотребления суперкомпьютера «УРАН»

28.03.2012

Институт математики и механики Уральского отделения РАН (УрО РАН) (г. Екатеринбург) располагает суперкомпьютером (СК) «УРАН», который является основным вычислительным ресурсом УрО РАН и одним из четырех ресурсных центров информационно-вычислительной базы Уральского федерального округа. Корректная работа этой сложной и многокомпонентной системы существенно зависит от температурного режима и тесно связана с настройками электропитания, а следовательно, и с энергопотреблением. Поэтому непрерывный мониторинг и хранение данных о температуре и энергопотреблении компонентов СК «УРАН» являются актуальными задачами. Мониторинг СК осложняется большим количеством входящих в их состав компонентов и параметров, влияющих на работоспособность.

СК «УРАН» состоит из сотен вычислительных узлов (ВУ), каждый из которых имеет девять температурных датчиков. Выполнять мониторинг каждого датчика в отдельности неэффективно. Просмотр данных только о температуре входящего воздуха на всех ВУ через стандартный интерфейс управления и мониторинга Integrated Light Out Management (iLO), предоставляемый производителем HP, занимает у администратора более 45 минут, при этом большая часть времени тратится на переключения между экранами, показывающими состояние отдельных компонентов. Для обеспечения оперативного мониторинга система должна представлять администратору данные о состоянии СК в один-два экрана. Распространенные системы мониторинга такой возможности не имеют.

Хранение данных по температуре и энерго потреблению СК позволяет осуществлять их статистическую обработку с последующим прогнозированием возможных сбоев на раннем этапе возникновения, тем самым увеличивая среднее время между отказами СК.

Подробное описание дается в статье «Система оперативного мониторинга температуры и энергопотребления суперкомпьютера «Уран», авторы: Созыкин А.В., Гольдштейн, Черноскутов М.А. (Институт математики и механики УрО РАН, г. Екатеринбург).