Журнал "Программные продукты и системы" - научные статьи в области информационных технологий

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

В Межведомственной суперкомпьютерном центре РАН совместно с Научно-исследовательским институтом «Квант» исследовались методы и алгоритмы машинного обучения для прогнозирования времени выполнения суперкомпьютерных заданий.

25.06.2020

Современные суперкомпьютеры, как правило, функционируют в режиме коллективного пользования. Для производства расчетов пользователь должен сформировать так называемое вычислительное задание, состоящее из расчетной программы, исходных данных и требований к объему (число процессорных ядер или узлов суперкомпьютера, размер оперативной или дисковой памяти и др.) вычислительных ресурсов и времени выполнения задания. Формализованное описание задания называется его паспортом. Система коллективного пользования суперкомпьютером, принимая в виде паспортов входной поток заданий от разных пользователей, формирует из поступивших заданий очередь. Процесс формирования и ведения очереди часто называют планированием заданий, которое осуществляется специальными программными системами, такими как SLURM, PBS, LSF, часто называемыми системами управления заданиями (СУЗ).

Планировщик СУЗ на основе информации из паспортов заданий формирует расписание их запусков. В соответствии с этим расписанием планировщик СУЗ выдает прогноз времени запуска каждого находящегося в очереди задания, основанный на заказанном (запрошенном) пользователем времени выполнения задания. При превышении заказанного времени задание в большинстве СУЗ снимается с выполнения с вероятной потерей результатов расчетов. Стараясь избежать таких потерь, пользователи часто при формировании задания существенно завышают необходимое для выполнения время. Например, статистика Межведомственного суперкомпьютерного центра РАН показывает, что пользователи в среднем завышают время выполнения на 86 %. Завышенная оценка требуемого времени выполнения приводит к необходимости переформирования расписания при каждом досрочном завершении задания, при этом возможны как простои досрочно освободившихся ресурсов, так и увеличение времени ожидания в очереди отдельных заданий.

Подробное описание дается в статье «Применение машинного обучения для прогнозирования времени выполнения суперкомпьютерных заданий», авторы Баранов А.В. (Межведомственный суперкомпьютерный центр РАН, Москва), Николаев Д.С. (Научно-исследовательский институт «Квант», Москва).