Качество питьевой воды определяется состоянием источника водоснабжения и надежностью работы станции очистки [1]. Ввиду возможного нарушения качества питьевой воды вследствие ухудшения физико-химических показателей источника водоснабжения необходима методика раннего предупреждения [2, 3] о возможности выхода одного или нескольких показателей качества воды за допустимые пределы. Показатели водоисточника (температура, цветность и др.) и качества питьевой воды (остаточный хлор, содержание алюминия и др.), а также управляемые факторы (например доза коагулянта) контролируются ежедневно. Измеренные значения этих показателей образуют систему временных рядов.
Предлагается система раннего предупреждения о возможной аномальной ситуации, использующая математический аппарат и процедуру моделирования и прогнозирования качества питьевой воды. Рассматриваемая процедура состоит из двух этапов: прогнозирование состояния водоисточника на заданный горизонт (Т дней) методом векторной авторегрессии и прогнозирование на основе полученных результатов качества питьевой воды на тот же период с помощью кусочно-линейных регрессий с разрывом по отклику. Разработанная система состоит из двух подсистем, реализующих данные этапы. На рисунке 1 показана схема взаимодействия подсистем.
Векторная авторегрессия
Для моделирования и прогнозирования процесса изменения физико-химических факторов водоисточника применяется модель векторной авторегрессии (ВАР). Это модель динамики взаимосвязанных временных рядов, в которой текущие значения контролируемых показателей зависят от прошлых значений этой же группы показателей. Модель предложена Кристофером Симсом как альтернатива системам одновременных уравнений, которые предполагают существенные теоретические ограничения: модели ВАР свободны от ограничений структурных моделей [4, 5].
В модель ВАР входят несколько переменных, зависящих как от собственных лагов, так и от лагов других переменных. В отличие от модели обычной регрессии в ней нет необходимости делить переменные на исследуемые параметры и независимые факторы. Любая переменная модели ВАР по умолчанию включается в состав исследуемых величин.
Каждое из уравнений содержит одни и те же регрессоры, и нет взаимных ограничений между уравнениями. Таким образом, эффективная оценка (метод максимального правдоподобия с полной информацией) упрощается до обычного метода наименьших квадратов [6, 7].
Пусть yi, i=1, …, k – i-й временной ряд. Модель для этого ряда имеет вид:
(1)
где t, t–1, …, t–p – моменты времени; k – количество временных рядов; p – порядок авторегрессии; – оцениваемые коэффициенты модели (m = 1, 2, …, p).
Более удобной и компактной является векторно-матричная запись модели. Для этого вводится вектор временных рядов . Уравнение (1) для каждого временного ряда можно записать в виде уравнения в векторной форме:
(2)
где Am – матрицы элементов .
Подсистема прогнозирования состояния водоисточника
Для выполнения первого этапа процедуры раннего предупреждения используется данная подсистема, которая решает задачи моделирования и прогнозирования методом ВАР параметров, характеризующих состояние водоисточника, а также визуализации полученных результатов и их сохранения в файл электронных таблиц Excel.
Исходная выборка делится на модельную и контрольную части. По модельной выборке строятся различные варианты модели, контрольная выборка используется для прогнозирования и оценки качества модели. При моделировании в автоматическом режиме осуществляется поиск оптимального порядка модели векторной авторегрессии (2) по критерию оптимальности где k – количество временных рядов; – внешнее среднеквадратичное отклонение (СКО) для i-го ряда; где n0 = Т – объем контрольной выборки; p – число слагаемых в модели; , yi – результат i-го наблюдения, – прогнозируемое значение по построенной модели.
Построенные модели с учетом найденного порядка авторегрессии применяются для дальнейшего прогнозирования. Точность аппроксимации оценивается по СКО для всей совокупности данных:
На рисунке 2 показан алгоритм работы подсистемы прогнозирования состояния водоисточника.
Кусочно-линейная регрессия с разрывом по отклику
При неоднородности физических свойств объекта на области значений регрессоров модели, построенные для всей области («глобальные»), могут обладать недостаточно высокой точностью. В этом случае целесообразно применять принцип кусочности, или «локальности», модели, то есть вариации ее параметров по области значений регрессоров. В качестве модели, прогнозирующей показатели качества питьевой воды, используется кусочно-линейная регрессия с разрывом по отклику [8]. В общем виде регрессионная модель представляется следующим образом:
где m – количество регрессоров модели; k – порядок авторегрессии; c – точка разрыва; X1, X2, …, Xm – регрессоры (физико-химические факторы, характеризующие состояние водоисточника); (Y(t)£c), (Y(t)>c) – логические выражения, принимающие значения: 1 – если истинно, 0 – если ложно; Y(t–1), …, Y(t–k) – значение отклика (показа- телей качества питьевой воды) в предыдущие моменты времени. Фактически данная модель состоит из двух регрессий, каждая из которых применяется для определенного уровня отклика.
Для прогнозирования по кусочно-линейной модели используется следующий подход. Вначале вычисляется прогноз по обоим «кускам» регрессии, полученные результаты сравниваются со значением в точке разрыва. Если прогноз по первому «куску» меньше или равен значению в точке разрыва, а прогноз по второму куску больше, то за итоговый результат принимается среднее арифметическое данных чисел. Если хотя бы для одного «куска» наблюдается нарушение неравенства, итоговым значением считается прогноз по тому «куску», для которого неравенство выполняется. Если же условия нарушаются для обоих случаев, также вычисляется среднее арифметическое.
Например, имеется кусочно-линейная регрессия Y = Y1×(Y£c)+ Y2×(Y>c), где Y1=(b01+b11×X1+… +bm1×Xm); Y2=(b02+b12×X1+ …+bm2×Xm); c – точка разрыва. Пусть на основе регрессий Y1 и Y2 получены прогнозы и , причем и . В данном случае имеется нарушение для второй регрессии, поэтому за итоговый прогноз берется .
Подсистема прогнозирования качества питьевой воды
Вторым этапом процедуры выявления возможной аномальной ситуации является прогнози- рование качества питьевой воды. Для этого используется подсистема, решающая задачи моделирования и прогнозирования значений показателей качества питьевой воды с помощью кусочно-линейной регрессии, предупреждения о возможном нарушении процесса (прогнозе выхода одного или нескольких контролируемых показателей за пределы допуска), сохранения полученных результатов. В качестве входных параметров, характеризующих состояние водоисточника, используются прогнозы, полученные с помощью соответствующей подсистемы.
Здесь в процессе моделирования ведется поиск оптимальной модели и оптимального объема моделирующей выборки (размера входных данных). Сравнение моделей осуществляется по минимальному значению среднего процента ошибки прогноза. В результате для каждого показателя качества воды Yi получается своя оптимальная модель. На рисунке 3 показан алгоритм работы подсистемы.
Численный эксперимент
Для проверки разработанной системы проведен численный эксперимент. В качестве исходных данных использовались результаты наблюдений за 45 дней шести физико-химических показателей водоисточника «Западный Кронштадт» (X1 – температура, X2 – цветность, X3 – мутность, X4 – уровень рН, X5 – щелочность, X6 – окисляемость), двух управляемых факторов (X7 – доза коагулянта, X8 – доза флокулянта), семи показателей качества питьевой воды (Y1 – цветность, Y2 – содержание алюминия, Y2 – уровень рН, Y4 – содержание хлоридов, Y5 – остаточный хлор, Y6 – окисляемость, Y7 – щелочность).
С использованием подсистемы прогнозирования состояния водоисточника были построены модели векторной авторегрессии оптимальных порядков, а также выполнен прогноз на четыре дня вперед (Т = 4). В качестве примера представим модель, полученную для параметра Х1 «температура»:
(3)
СКО ряда X1 равно 0,382, внешнее СКО равно 0,732.
На рисунке 4 показаны графики исходных данных и аппроксимации по соответствующей модели.
В подсистеме прогнозирования качества питьевой воды для каждого показателя была построена модель кусочно-линейной регрессии оптимального порядка. После чего, используя полученные прогнозы состояния водоисточника как входные данные, вычислялись будущие значения показателей качества. Например, для показателя Y1 («цветность») модель имеет вид:
На рисунке 5 показаны графики исходных данных (тонкая линия), аппроксимации по соответствующей модели (жирная линия), прогноза (штриховая линия), а также линия, соответствующая верхней границе допуска. Видно, что прогнозируемые на следующие 4 дня значения цветности далеки от граничных.
Таким образом, разработанная система позволяет прогнозировать возможные аномальные ситуации, когда показатели качества воды выходят за допустимые пределы. Результаты численного исследования свидетельствуют об эффективности применения векторной авторегрессии при моделировании и прогнозировании временных рядов состояния водоисточника и методики кусочно-линейных регрессий при моделировании и прогнозировании показателей качества воды. Использование многомерных контрольных карт позволит оценить стабильность контролируемых показателей качества питьевой воды [9, 10].
Литература
1. Герасимов Г.Н. Технический справочник по обработке воды: в 2-х т. Т. 1; [пер. с фр.]. СПб: Изд-во «Новый журнал», 2007. 1736 с.
2. Клячкин В.Н., Кувайскова Ю.Е., Алешина А.А., Кравцов Ю.А. Информационно-математическая система раннего предупреждения об аварийной ситуации // Изв. Самарского науч. центра РАН. 2013. № 4. С. 919–923.
3. Кувайскова Ю.Е., Клячкин В.Н., Бубырь Д.С. Прогнозирование состояния технического объекта на основе мониторинга его параметров // ХII Всерос. совещание по проблемам управления: сб. тр. М.: Из-во ИПУ РАН, 2014. С. 7616–7626.
4. Sims C.A. Macroeconomics and Reality. Econometrica, 1980, 48 р.
5. Stock J.H., Watson M.W. Vector Autoregressions. Journ. of Economic Perspectives, 2001, vol. 15, pp. 101–115.
6. Валеев С.Г. Регрессионное моделирование при обработке наблюдений. М.: Наука, 1991. 272 с.
7. Лоусон Ч., Хенсон Р. Численное решение задач метода наименьших квадратов; [пер. с англ.]. М.: Наука, 1986. 232 с.
8. Клячкин В.Н., Бубырь Д.С. Прогнозирование состояния технического объекта на основе кусочно-линейных регрессий // Радиотехника. 2014. № 7. С. 137–140.
9. Клячкин В.Н., Кравцов Ю.А. Повышение эффективности статистического контроля многопараметрического технологического процесса на основе карты Хотеллинга с предупреждающей границей // Автоматизация и современные технологии. 2013. № 10. С. 35–37.
10. Клячкин В.Н., Кравцов Ю.А., Святова Т.И. Методы повышения эффективности многомерного статистического контроля // Наукоемкие технологии. 2013. № 5. С. 53–58.