Эффективное функционирование железнодорожного транспорта Российской Федерации играет исключительную роль в создании условий для модернизации, перехода на инновационный путь развития и устойчивого роста национальной экономики, способствует созданию условий для обеспечения лидерства России в мировой экономической системе. Повышение уровня безопасности функционирования железнодорожного транспорта выделено в «Стратегии развития железнодорожного машиностроения до 2030 года» как одно из важнейших направлений научных исследований.
Технический и технологический уровень железнодорожного подвижного состава довольно низкий, оборудование, установленное на железнодорожных подвижных составах, часто выходит из строя. Как следствие, тратятся огромные суммы на обслуживание и ремонт подвижных составов.
В процессе эксплуатации вагонов часто возникают аварийные ситуации, обусловленные износом ресурсов парка подвижного состава, а также неисправностью установленного на подвижных составах оборудования. Поэтому одной из важнейших задач, поставленных ОАО «РЖД» до 2030 года, является создание комплексных систем диагностики и прогнозирования технического состояния инфраструктуры подвижного состава.
В публикациях на данную тему нет упоминаний об использовании подобных систем и средств на подвижных железнодорожных составах, представленных на российском рынке вагоностроения. Проблема обеспечения безопасности затрагивается лишь в области автостроения [1]. Она частично решается путем сведения ее к задаче автоматического выявления дефектов, а потому является актуальной и новой.
В качестве одного из подходов к решению проблемы в данной статье предлагается применение интеллектуальной информационной системы, ориентированной на решение задач прогнозирования неисправностей вагонного оборудования на железнодорожном транспорте.
Особенностями данной системы являются ее архитектура, допускающая декомпозицию на более узконаправленные независимые подсистемы, и использование методов эволюционного программирования, алгоритма машинного обучения и особой разновидности нейронной сети.
Архитектура интеллектуальной информационной системы и ее функционал
Представленная информационная система является распределенной, ее подсистемы выполняют разные функции и работают независимо друг от друга. Она включает в себя подсистемы сбора данных, предварительной обработки данных, оптимизации данных, прогнозирования.
В подсистеме сбора данных выполняется сбор данных с вагонного оборудования. Сбор производится локально на каждом вагоне, затем данные со всех вагонов собираются и сводятся в централизованную БД. В подсистеме формирования срезов из БД извлекаются необходимые данные и затем специальным образом обрабатываются. В подсистеме оптимизации на основе специальных алгоритмов данные обрабатываются и оптимизируются за счет сокращения лишних, не влияющих на дальнейшее прогнозирование данных. В подсистеме прогнозирования производится построение прогноза наличия или отсутствия конкретной неисправности.
Подсистемы имеют входы и выходы, причем выходные данные одних подсистем являются входными для других. Преимущества данной архитектуры в легкости изменения модулей, возможности применять и сравнивать различные алгоритмы, меняя подсистемы, но не изменяя концепцию системы в целом.
Подсистема сбора данных. В системе контроля, диагностики и управления (СКДУ) пассажирских вагонов [2] реализована подсистема сбора данных с вагонов, состоящая из модуля отслеживания изменений параметров устройств СКДУ вагона. Модуль реализован на языке python и запускается вместе с СКДУ вагона. В процессе работы СКДУ вагона он следит за параметрами и в случае их изменения фиксирует значения с системными временными метками.
Этот модуль снимает данные о возникающих неисправностях оборудования, зафиксированных СКДУ вагона, с системными временными метками возникновения.
Преимущество описанного способа сбора данных в том, что изменения параметров устройств вагона фиксируются по факту: невозможна ситуация, когда параметр имеет не зафиксированное в БД промежуточное значение, как в случае периодического снятия данных.
Сбор данных производится на различных уровнях данных подвижного состава:
- уровень устройства или системы устройств вагона;
- уровень вагона – совокупность устройств или систем устройств;
- уровень подвижного состава – совокупность вагонов.
Сбор данных производится как локально на каждом вагоне, так и на штабном вагоне с помощью СКДУ состава, владеющей основной информацией по всем вагонам состава. Данные накапливаются и хранятся в СКДУ вагона и СКДУ состава, а затем передаются и сводятся в централизован- ную БД под управлением СУБД SQLite [3, 4].
Способы передачи данных с вагонов могут быть разными: мобильная связь, физический носитель, спутниковая связь, Интернет. Каждый способ имеет свои преимущества и недостатки, в основном связанные со скоростью передачи данных, требованиями к обслуживанию и стоимостью реализации и сопровождения.
В СКДУ реализована передача данных с помощью физического носителя, предполагающая периодическое выполнение сервисными работниками процедуры копирования данных с СКДУ вагона на внешний накопитель, а затем физическую доставку данных в подсистему к серверу с БД и последующее наполнение БД.
Данный способ сравнительно недорогой, но не оперативный.
Подсистема предварительной обработки данных. После наполнения БД информацией, полученной с вагонов, производятся извлечение данных, связанных с конкретным объектом (устройством, системой, составом), и их обработка для последующего анализа.
БД удобна для структурированного хранения данных. Для более эффективной обработки данных с конкретных устройств используется срез данных, под которым понимается следующий набор данных: ti, Vi1, …, Vip, где ti – i-й момент времени снятия среза данных в формате «дд.мм.гггг ЧЧ:ММ:СС»; Vi1, …, Vip – значения переменных и неисправностей N1, …, Np в данный момент времени, причем переменные и неисправности могут быть из разных уровней данных подвижного состава. На рисунке 1 представлена схема срезов данных – значений переменных и неисправностей.
В момент времени ti переменная или неисправность с именем Nj будет иметь значение Vij при i Î {1, …, m}, j Î {1, …, p}.
В подсистеме формирования срезов данных производятся извлечение данных и формирование множества срезов данных с шагом в 5 секунд с помощью программных модулей, реализованных на языках Ruby и R [5].
Подсистема оптимизации данных. Следующий этап обработки – выявление зависимостей па- раметров и неисправностей между собой и фильтрация параметров, не влияющих на конкретные неисправности. Это задача подсистемы оптимизации данных. В данную подсистему входит модуль, основанный на алгоритме построения случайного леса [6], который заключается в использовании ансамбля деревьев принятия решений. Алгоритм сочетает в себе две основные идеи: метод бэггинга Бреймана и метод случайных подпространств Тин Кам Хо [7].
Разбиение узла в случайном лесе осуществляется на основании данных об оптимальном разбиении для данного узла случайно выбранного подмножества переменных (параметров и неисправностей) из срезов. Каждое дерево строится до полного исчерпания подмножества.
Алгоритм рассчитан на эффективную обработку больших объемов данных с большим ко- личеством переменных и, что важно в рамках этой задачи, предполагает методы оценивания значимости отдельных переменных в построенной модели.
В программном модуле учитываются следующие критерии значимости переменных при построении случайного леса:
- среднее снижение точности (%IncMSE), определяемое с помощью перестановки значений переменных тестового множества и сравнения прогноза значений переменных с прогнозом исходного множества, нормированного по стандартной ошибке;
- среднее снижение коэффициента Gini (IncNodePurity), отображающее качество NodePurity с помощью коэффициента Gini разделения дерева по переменным; от родителей к потомкам значение коэффициента Gini уменьшается, значимость переменной определяется суммой сокращений коэффицента Gini по всем деревьям.
Критерии %IncMSE и IncNodePurity пропорциональны значимости переменной.
Достоинством данного алгоритма является простая настройка – необходимо указать количество случайных узлов в подмножестве для каждого узла и количество деревьев принятия решений в случайном лесу.
Как и любой другой, алгоритм имеет недостатки: склонность к переобучению на сильно зашумленных задачах и порой большой размер памяти (требуется O(NK) для хранения модели, где K – число деревьев принятия решений, а N – количество примеров в обучающей выборке).
Программный модуль реализован на языке R с использованием пакетов rpart – для построения дерева принятия решений, randomForest – для построения случайного леса.
С помощью алгоритма построения случайного леса выявляются параметры с наибольшей важностью для исследуемой неисправности и выполняется последующая фильтрация исходных данных.
Подсистема прогнозирования. Состоит из модуля прогнозирования неисправностей, основанного на разновидности рекурсивных нейронных сетей, называемой нейронной эхо-сетью (НЭС) [8].
Архитектура НЭС (рис. 2) включает три слоя:
- входной слой, на который подаются входные массивы данных;
- скрытый слой, охваченный обратными связями и называемый также динамическим резервуаром;
- выходной слой, считывающий информацию из скрытого слоя.
На рисунке 2 – входной сигнал; – выходной целевой сигнал; n = = 1, …, T – дискретное время; T – число элементов в обучающем множестве; – получаемый сигнал; – вектор активаций нейронов резервуара; – матрицы входных весов, резервуара и выходных весов соответственно.
Мерой ошибки служит среднеквадратичная ошибка: .
Для оптимизации обучения НЭС был применен генетический алгоритм, позволяющий наилучшим образом обучить НЭС, а также получить оптимальный экземпляр [9].
Работа информационной системы на реальных данных
Представленная интеллектуальная информационная система внедрена и испытана при производстве двухэтажных вагонов Тверским вагоностроительным заводом. Для анализа было взято устройство КУЭВ, входящее в состав СКДУ вагона [10]. Параметры КУЭВ являются следующими структурами данных:
1) {V, S}, где VÎ{ON, OFF}, а SÎ{NORMAL, KZ, NA, FAULT};
2) {N, S}, где NÎR, а SÎ{NORMAL, KZ, NA, FAULT}.
Взятый образец КУЭВ содержит данные по 173 переменным. Из БД, содержащей данные за несколько дней, были взяты данные за 3 часа, сформировано множество срезов с периодом в 5 секунд. В качестве прогнозируемой выбрана неисправность устройства HEATEQ c кодом 17721 (далее – HEATEQ__17721). Период предсказания – 15 минут. Данное значение выбрано для достижения компромисса между скоростью работы нейронной сети и качеством предсказания.
Для массива срезов был построен случайный лес, выявлены наиболее значимые переменные и отфильтрованы исходные данные:
> IMP.global
[1] “CONFIG_7016” “HEATEQ_17721”
[3] “HEATEQ_17004” “HEATEQ_17003”
[5] “HEATEQ_17002” “OUT_UKV_PCH_PROTECT_RST”
[7] “IN_BOILER_COVER_OPENED” “IN_SIGNAL_LIGHTS”
[9] “IN_GANGWAY” “IN_LOW_HEAT_CARRIER_LEVEL”
[11] “OUT_SIGNAL_LIGHTS” “OUT_EM_VALVE_ON”
[13] “HEATEQ_17005” “CONFIG_7017”
[15] “OUT_2_2_PCH” “IN_UKV_SUPPLY_FAN”
[17] “OUT_UKV_COMPR_ON” “OUT_2_1_PCH”
Затем была построена НЭС с уровнем утечки α = 1.
Для проверки на вход НЭС подавались срезы из контрольной выборки, а затем вычислялось значение выходного вектора. Значения, полученные на выходе, сокращались и обрабатывались с помощью пороговой функции.
Выходной сигнал y(n) для неисправности HEATEQ__17721 представлен на рисунке 3 [11].
Значение среднеквадратичной ошибки равно 0,238.
Правильный прогноз был построен с точностью примерно 75 %, из которых примерно 78 % в случае возникновения неисправности и примерно 70 % в случае отсутствия неисправности.
Для оценки результатов работы алгоритма ис- пользовался метод ROC-кривой [12]. Он выража- ется в виде характеристики качества бинарного классификатора, а также зависимости доли верных положительных классификаций от доли ложных положительных классификаций при изменении порога решающего правила.
На основании результатов прогнозирования была построена ROC-кривая, представленная на рисунке 4.
Площадь под ROC-кривой называется интервалом AUC (Area Under Curve) – агрегированная характеристика качества классификации, не зависящая от соотношения цен ошибок [13]. Чем больше значение интервала AUC, тем лучше модель классификации в соответствии с таблицей.
Классификация качества модели по значению интервала AUC
Model quality classification by AUC interval value
Интервал AUC
|
Качество модели
|
0,9–1,0
|
Отличное
|
0,8–0,9
|
Очень хорошее
|
0,7–0,8
|
Хорошее
|
0,6–0,7
|
Среднее
|
0,5–0,6
|
Неудовлетворительное
|
В данном случае значение AUC = 0,811942, что свидетельствует о хорошем качестве построенной модели.
В заключение отметим, что в статье представлена интеллектуальная информационная система, ориентированная на решение задач прогнозирования неисправностей вагонного оборудования на железнодорожном транспорте, продемонстрированы и проанализированы ее возможности при работе на реальных данных.
Система во многих смыслах является адаптируемой и универсальной. Она ориентирована на применение на пассажирских вагонах, но в дальнейшем может быть применена и к другим элементам железнодорожного транспорта (к грузовым вагонам, локомотивам, электропоездам и так далее). Ее подсистемы не зависят друг от друга и дают возможность экспериментировать с применением различных алгоритмов в рамках подсистем, не затрагивая работу системы в целом.
Данная система реализована с использованием ресурсов Тверского вагоностроительного завода, оснащенных новейшей системой СКДУ вагонов и составов парка подвижного состава АО «ФПК», и рекомендуется для внедрения в производство и эксплуатацию вагонов в качестве прогнозирующей компоненты СКДУ. Внедрение интеллектуальной информационной системы позволит одновременно снизить расходы на обслуживание железнодорож- ного транспорта и увеличить его безопасность. Раннее прогнозирование неисправностей дает возможность предотвратить их или значительно снизить последствия их влияния на другие элементы как вагона, так и состава, а также сократить сроки и стоимость технического обслуживания железнодорожных составов.
В качестве развития данной системы предполагается составление статистики возникновения неисправностей и поведения вагонного оборудования в зависимости от них, что позволит выявить недостатки в технической и алгоритмической частях реализации оборудования, а также составить рейтинги качества поставщиков оборудования.
Литература
1. Ford Classification Challenge. 2007. URL: http://home. comcast.net/~nn_classification/ (дата обращения: 20.06.2015).
2. Иванова Е.И., Гордеев Р.Н., Михайлов В.В., Севе- ров А.В., Язенин А.В. Модель централизованной интеллек- туальной информационной системы для решения задач диаг- ностики и прогнозирования неисправностей вагонного обору- дования и управления им на железнодорожном транспорте // Нечеткие системы и мягкие вычисления. 2012. Т. 7. № 2. C. 51–71.
3. Гришина Е.Н., Иванова Е.И., Михайлов В.В., Севе- ров А.В., Солдатенко И.С., Судаков А.Г., Ханыгин М.А., Сорокин С.В., Язенин А.В. Интеллектуальная информационная система единого центра обработки данных ОАО «РЖД» для решения задач диагностики и прогнозирования нештатных ситуаций поведения вагонного оборудования подвижных составов на железнодорожном транспорте // Интеллектуальные системы на транспорте: сб. матер. IV Междунар. науч.-практич. конф. (С.-Петербург, 3–4 апреля 2014). СПб: Лик, 2014. С. 93–100.
4. Гришина Е.Н., Иванова Е.И., Михайлов В.В., Севе- ров А.В., Солдатенко И.С., Судаков А.Г., Ханыгин М.А., Сорокин С.В., Язенин А.В. Модель интеллектуальной информаци- онной системы прогнозирования неисправностей вагонного электрооборудования на железнодорожном транспорте // Интеллектуальные системы управления на железнодорожном транспорте ИСУЖТ-2013: тр. II науч.-технич. конф. М.: Изд-во НИИАС. C. 184–187.
5. Гришина Е.Н., Рыжова М.Н. Программа предварительной обработки и визуализации данных о состоянии оборудования железнодорожных вагонов // Свид. о гос. регистр. прогр. для ЭВМ № 2014615052.
6. Random Forest. URL: http://ru.wikipedia.org/wiki/Random_forest (дата обращения: 20.06.2015).
7. Чистяков С.П. Случайные леса: обзор // Тр. Карельского науч. центра РАН. 2013. № 1. С. 117–136.
8. Иванова Е.И., Сорокин С.В. Использование искусственных нейронных эхо-сетей в системе прогнозирования неисправностей вагонного электрооборудования на железнодорожном транспорте // Нечеткие системы и мягкие вычисления. 2013. Т. 8. № 1. С. 45–57.
9. Иванова Е.И., Сорокин С.В. Оптимизатор нейросетевых моделей прогнозирования неисправностей оборудования железнодорожных вагонов // Свид. о гос. регистр. прогр. для ЭВМ № 2014615050.
10. Сорокин С.В., Сорокина И.В., Язенин А.В. Прогнозирование неисправностей оборудования с использованием нейронных сетей и нечеткого вывода // Техника железных дорог. 2014. № 2 (26). С. 64–74.
11. Иванова Е.И. Методы прогнозирования неисправностей вагонного оборудования пассажирских железнодорожных подвижных составов на основе многослойной нейронной сети с использованием генетического алгоритма, а также нейронных эхо-сетей: сравнительный анализ // Вестн. ТвГУ. Сер. Прикладная математика. 2014. № 2. С. 67–79.
12. Plotting and Intrepretating an ROC Curve. URL: http://gim. unmc.edu/dxtests/roc2.htm (дата обращения: 20.06.2015).
13. The Area Under a ROC Curve. URL: http://gim.unmc. edu/dxtests/roc3.htm (дата обращения: 20.06.2015).