ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Публикационная активность

(сведения по итогам 2016 г.)
2-летний импакт-фактор РИНЦ: 0,493
2-летний импакт-фактор РИНЦ без самоцитирования: 0,389
Двухлетний импакт-фактор РИНЦ с учетом цитирования из всех
источников: 0,732
5-летний импакт-фактор РИНЦ: 0,364
5-летний импакт-фактор РИНЦ без самоцитирования: 0,303
Суммарное число цитирований журнала в РИНЦ: 5022
Пятилетний индекс Херфиндаля по цитирующим журналам: 355
Индекс Херфиндаля по организациям авторов: 499
Десятилетний индекс Хирша: 11
Место в общем рейтинге SCIENCE INDEX за 2016 год: 304
Место в рейтинге SCIENCE INDEX за 2016 год по тематике "Автоматика. Вычислительная техника": 11

Больше данных по публикационной активности нашего журнале за 2008-2016 гг. на сайте РИНЦ

Вход


Забыли пароль? / Регистрация

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
16 Декабря 2017

OLAP-система для моделирования риска здоровью населения от загрязнения воздуха

OLAP software for modeling environmental health risk from air pollution
Дата подачи статьи: 2014-09-29
УДК: 004.422.81
Статья опубликована в выпуске журнала № 4 за 2014 год. [ на стр. 234-241 ][ 11.12.2014 ]
Аннотация:В статье описан программный комплекс EHIPS (Environmental Health Information Processing System), предназначенный для расчетной оценки риска здоровью населения от загрязнения атмосферы выбросами предприятий и транспорта. Комплекс разработан в основном силами сотрудников Института космических исследований РАН. Он применялся для расчета риска от более чем 100 предприятий. Систему отличает ряд архитектурных особенностей, главной из которых является OLAP-подобное ядро работы с многомерными кубами данных, с помощью которых производятся все манипуляции с данными в системе. Другой особенностью является нестандартная схема работы с выходными результатами программы AERMOD, использующейся в системе для моделирования рассеяния и расчета концентраций загрязнителей, а именно – работа с временными рядами концентраций средствами системы, а не самой модели AERMOD. В системе применен ряд специальных методов работы с данными, например, агрегация многомерного куба концентраций или рисков с использованием стохастического представления выбросов с помощью метода Монте-Карло для учета импульсности источников выбросов. Просмотр многомерных кубов данных осуществляется в виде двумерных сечений-таблиц в специальном модуле системы, там же выполняются манипуляции над кубами, такие как бинарные операции над выбранными сечениями куба. В системе есть свой ГИС-подобный картографический модуль для работы с расположением источников выбросов и датчиков, для которых рассчитываются концентрации и риск, а также для пространственной визуализации результатов расчета. Представляется, что опыт создания и практического применения такой специализированной OLAP-системы может быть полезен не только в сфере оценки риска, но и в других областях, логика которых отличается от бизнес-логики, для которой в основном разрабатывается OLAP, но где естественным все-таки является представление данных в виде многомерных гиперкубов.
Abstract:The article describes EHIPS (Environmental Health Information Processing System). It is a software for model-based assessment of population health risk from industrial and transport emissions of pollutants to atmosphere. It has been developed mainly by the staff of the Space Research Institute of the Russian Academy of Sciences and used for more than 100 industrial plants. It has several original architectural features in-cluding the OLAP engine for handling the multidimensional data cubes, which is the main mode of data processing in the system. Another feature is a special way of handling the results of pollution dispersion modeling by the well-known AERMOD model: we process the full time series of modeled concentrations instead of using only a time aggregate produced by built-in AERMOD tools as usually done. There are several other special data pro-cessing methods. For example, stochastic representation of emissions from pulsed sources. Multidimensional cubes are visualized as two -dimensional sections within a special module of the system which is also used for manipulating the cube, e.g. for binary operations on s elected sections. Another module is a GIS-like mapping tool for handling the positions of emission sources and risk receptors and for spatial visualization of the resu lts of risk assessment. We think that this experience of developing and applying such a specialized OLAP system can be useful not only for risk assessment, but also in other domains where multidimensional hypercubes are a natural form of data, but where the logic is different from the logic of business appli-cations which are the mainstream in OLAP.
Авторы: Фаминская М.В. (faminskaya@mail.ru) - Российский государственный социальный университет, Москва, Россия, кандидат физико-математических наук, Балтер Д.Б. (db.balter@gmail.com) - Институт космических исследований РАН, Москва, Россия, Балтер Б.М. (Balter@mail.ru) - Институт космических исследований РАН, Москва, Россия, Стальная М.В. (stalnayam@mail.ru) - Институт космических исследований РАН, Москва, Россия
Ключевые слова: оценка риска, выбросы загрязнителей, aermod, olap, гиперкубы, монте-карло
Keywords: risk assessment, pollutant emissions, aermod, olap, hypercubes, monte carlo
Количество просмотров: 3026
Версия для печати
Выпуск в формате PDF (6.61Мб)
Скачать обложку в формате PDF (0.95Мб)

Размер шрифта:       Шрифт:

Программный комплекс EHIPS (Environmental Health Information Processing System) – система, предназначенная для расчета риска здоровью населения от индустриального загрязнения атмосферного воздуха [1]. Разработка системы началась в 1996 году в рамках проекта Environmental Management Project for Russia и продолжена в Институте космических исследований РАН. Начало разработки было связано с тем, что, несмотря на практическую важность и распространенность работ по оценке риска [2, 3], ПО для них было достаточно примитивным – на уровне макросов Excel. Описываемая же система рассчитана на более глубокую обработку информации и работу с большими объемами данных. Поэтому в ее основу положены решения типа OLAP (Online Analytical Processing) – работа с кубами (многомерными массивами) данных [4].

 

Расчет риска выполняется для предприятия, группы предприятий (промышленного узла), города и транспорта. Общая картина работы выглядит следующим образом (на примере завода). На территории завода располагается множество источников выбросов в атмосферу различных загрязняющих веществ. Это могут быть трубы, транспорт, неплотности соединений, отвалы различных материалов и т.д. Эти источники могут иметь разную высоту, диаметр, скорость выброса, моменты выбросов и общее время работы за год. Выбросы рассеиваются в атмосфере и определяют концентрацию загрязняющих веществ в воздухе в различных точках окрестности предприятия. Как именно рассеиваются выбросы, зависит от метеорологических факторов, например, скорость и направление ветра, устойчивость атмосферы, температура воздуха, а также от рельефа местности и характеристик поверхности земли, таких как альбедо. Данные об источниках выброса, метеорологии и местности вместе с картой точек-датчиков, где мы хотим рассчитать концентрации, подаются на вход модели рассеивания выбросов AERMOD. На выходе программа выдает концентрации в разбивке по датчикам и времени.

Следующий этап – определение отношений рассчитанных концентраций к соответствующим референтным концентрациям из справочника и суммирование этих отношений по группам заболеваний. Эта сумма и есть значение риска по данной группе заболеваний. Существуют два основных вида риска – острый и хронический. Острый риск рассчитывается на основе максимальных разовых концентраций, а хронический – на основе среднегодовых концентраций. Загрязнитель может иметь одновременно как хроническое воздействие, так и острое. Риск рассчитывается с учетом разбиения населения на группы, которые могут иметь разную чувствительность к загрязнению и разные сценарии экспозиции, в том числе миграции между разными загрязненными территориями.

Системные проблемы

Оценка риска – задача не новая. Особенность описываемой системы заключается в гибкости, которую дают примененные в ней решения технических и принципиальных проблем, возникающих при оценке риска.

В принципе количество выходной информации при расчете риска не так велико. Главное – карты рассчитанных концентраций и карта риска. Объем этой информации равен числу расчетных датчиков, которых, как правило, несколько сотен, умноженному на число загрязнителей или видов риска, которых, как правило, меньше десяти. Но, в отличие от штатного режима работы AERMOD, при котором вся необходимая информация получается в результате работы с временными рядами внутри себя и на выходе выдается один итоговый (обычно годовой) временной интервал [5], мы вынуждены работать с полным временным рядом (о причинах такого подхода речь пойдет далее). Он порождает одну из основных проблем – огромный и многомерный объем данных. Эти данные имеют разрезы по загрязнителям, датчикам, времени и в некоторых случаях по источникам.

Проблемой также является то, что модель рассеяния AERMOD поставляется разработчиком (департаментом защиты окружающей среды США) в виде консольной программы со входом и выходом в виде текстовых файлов. Выходной файл содержит список концентраций одного загрязнителя по датчикам и либо по каждому часу, либо в виде одного агрегата (среднего, максимума) за год или другой период времени. Реальное использование этих результатов требует их преобразования в карты, таблицы и др. Для этого в США используются достаточно дорогие специализированные программы, которые, в отличие от AERMOD, свободно не распространяются. Кроме того, в данном случае даже полный комплект почасовых выходных данных AERMOD недостаточен – его еще нужно дополнительно обрабатывать. Одна из главных причин этого – проблема нерегулярных источников: при расчете рассеяния есть данные о количестве часов работы такого источника за год, но нет более детальной информации о конкретных моментах выброса в течение года. Для корректного моделирования концентраций в такой ситуации необходим механизм стохастического прогноза выбросов от нерегулярных источников. В AERMOD подобный механизм начал разрабатываться только в последние годы [6, 7] и пока не включен в штатном режиме, поэтому расчет концентраций от редко работающих источников может давать завышенные концентрации и риск. В описываемой системе эта проблема нерегулярных выбросов решается с помощью метода Монте-Карло, который заключается в дополнительной обработке выдаваемых AERMOD полных временных рядов.

Еще одна техническая проблема, которую призвана решать система, связана с тем, что при подготовке информации о географическом распо- ложении источников выбросов часто обнару- живаются ошибки координат в инвентаризации источников, предоставляемой предприятием. Для визуального контроля расположений источников эти данные накладывают на космический снимок территории предприятия. При этом возникает проблема установления правильного соответствия координат космическому снимку с учетом разных систем координат у разных площадок предприятия. Для этого и последующего ручного исправления ошибочных данных система предоставляет соответствующий сервис.

Архитектура системы  

Гиперкубы данных. Ядром системы, придающим ей гибкость, и главным средством работы является OLAP-модуль, поддерживающий многомерные кубы данных (гиперкубы). Гиперкуб – это многомерный числовой массив с измерениями (осями) различной длины [8]. Измерения могут иметь иерархическую структуру, в которой интервалы находятся на различных уровнях иерархии и интервалы более низкого уровня объединяются группирующим интервалом более высокого уровня (рис. 1).

Идентификация интервалов в измерениях ведется по их именам. Наиболее используемые виды кубов перечислены далее.

·       Куб выбросов за год имеет три измерения: загрязнитель, источник и вид выброса – граммы в секунду или тонны в год. Измерение «источник» имеет иерархический вид и отображает группировку источников по площадкам предприятия. Каждая ячейка куба содержит число – значение выброса данного вида у данного источника по данному загрязнителю.

·       Куб метеорологических данных содержит временной ряд значений различных метеопараметров, таких как скорость ветра, направление ветра, температура, высота инверсного слоя и т.п. Он состоит из двух осей: в первой – типы метеопараметров, во второй – список почасовых интервалов за рассчитываемый период. ·       Куб географических данных содержит координаты источников и датчиков, перечисленных в одном измерении и сгруппированных в интервалы «источники» и «датчики».

·       Куб рассчитанных концентраций от совокупности всех источников обычно имеет следующие измерения: загрязнитель, датчик, время. Ось датчиков имеет иерархический вид, датчики на обсчитываемой территории сгруппированы в районы. Ось времени содержит почасовые интервалы за год и состоит из четырех уровней: год → ме- сяц → день → час.

·       Куб рисков содержит те же оси, что и куб концентраций, но добавляет иерархию в ось загрязнителей: они объединены по группам заболеваний, например NO2 и SO2 – в группу «органы дыхания».

Метод Монте-Карло использует куб рассчитанных индивидуальных концентраций от источников, взятых по отдельности; он имеет те же измерения, что и куб концентраций от совокупности источников, плюс ось источников.

Важной особенностью устройства всех кубов и работы с ними в системе является строгое соответствие основных физических сущностей номерам осей (измерений): для различных физических величин мы используем однозначно определенные номера измерений. При операциях системы, где требуется в автоматизированном режиме взять из куба срез по какой-то величине, она обращается к строго определенному измерению куба, например, для оси времени – к измерению номер 3. Таким образом, система не манипулирует названиями измерений и не меняет их: это не требуется.

На носителях каждый куб сохраняется в виде нескольких файлов. Один файл – бинарный числовой массив данных. В нем нет никакой информации о структуре этих данных, то есть об их расположении по измерениям. Остальные файлы текстовые, содержащие иерархическую структуру измерений. Для каждого измерения имеется свой файл, в котором интервалы записаны построчно, а иерархический уровень интервала отображается соответствующим количеством символов табуляции. При чтении куба с носителя в память система сначала читает структуры измерений, а затем, в соответствии с количеством и структурой измерений, читает бинарный файл с числовыми данными. Таким образом, файл данных куба является интерпретируемым.

Для создания кубов и редактирования структур измерений в программе есть специальный интерфейс. В нем можно редактировать названия интервалов, менять их местами, изменять уровень в иерархии, создавать группирующие иерархические интервалы, подгружать структуры измерений из файлов. Существуют два вида изменений структуры куба. При первом добавляются или новые интервалы в оси, или целые измерения, то есть размерность куба меняется. Автоматически создается новый пустой куб с новой структурой, и в него копируются данные из старого в соответствии с именами интервалов. При втором виде изменений размерность куба не меняется – происходит редактирование названий интервалов, типов группировки (но не самой группируемой структуры интервалов) и уровней вложенности. При таких изменениях структура куба, его данные и физическое расположение интервалов в памяти не изменяются, изменяется только интерпретация куба: текстовые названия интервалов и их уровни.

Операции между сечениями и кубами. OLAP-модуль может выполнять массу базовых служебных бинарных операций по преобразованию од- ного сечения куба в другое с соединением информации из этих сечений: сложение, вычитание, умножение, деление, обнуление, заполнение числами и т.д. В интерфейсе системы все эти операции вызываются перетаскиванием одного сечения на другое в режиме показа двумерной таблицы, ортогональной этим сечениям (рис. 2). Хотя операции бинарные и в большинстве случаев выполняются между сечениями «ячейка в ячейку», существует ряд операций, таких как расчет корреляции, в которых преобразование данных идет как «диапазон ячеек в диапазон ячеек».

Операции бинарного перетаскивания можно выполнять и для целых кубов, при этом данные копируются из одного куба в другой. Однако могут быть выбраны и другие варианты: сложение кубов, умножение, вычитание, фильтрация данных одного куба значимыми данными в другом кубе и др. Кубы при этом необязательно должны быть одинаковой структуры: операции производятся только по совпадающим измерениям и совпадающим названиям интервалов. Кроме того, для имен интервалов существует ключевое слово «все». При его использовании в названии интервала в исходном кубе-источнике этот интервал будет скопирован во все интервалы соответствующего измерения куба-цели вне зависимости от структуры измерения, куда входит этот интервал. Это позволяет производить операцию вкладывания куба меньшей размерности в генерируемый на его основе куб большей размерности, что часто требуется. При этом копируемый куб меньшей размерности становится сечением целевого куба большей размерности, размноженным по добавляемому измерению (рис. 3).

Агрегация и Монте-Карло. Вторая группа важных операций, которые может выполнять модуль OLAP, – операции агрегации. Агрегатом можно сделать любой группирующий интервал оси куба. При выполнении агрегации этот интервал заполняется результатом вычисления заданной функции над интервалами оси, сгруппированными под ним (рис. 4). Простыми и самыми используемыми функциями агрегации являются сумма, среднее арифметическое, среднее геометрическое, максимум и т.д. Также в систему заложены более сложные необходимые при оценке риска функции, вычисление которых в кубе реализовано в виде агрегации по набору интервалов-аргументов: расчет категории устойчивости атмосферы, высоты солнца над горизонтом, высоты атмосферной инверсии, вертикальной толщины шлейфа и др.

Одна из важнейших операций в системе – стохастическое моделирование моментов времени выброса от нерегулярных (импульсных) источников и расчет соответствующих концентраций с помощью метода Монте-Карло [9] – реализуется в виде агрегации по оси «время». Для выбросов от каждого импульсного источника по отдельности и для неимпульсных источников как группы рассчитываются соответствующие сечения куба концентраций. Этот куб содержит концентрации, которые были бы, если бы импульсные источники работали постоянно. Для учета импульсности на этот куб надо наложить маску, которая отразит тот факт, что импульсные источники могут в течение года срабатывать заданное количество часов, разбросанных по этому году любым способом. Для каждого импульсного источника применение метода Монте-Карло выглядит следующим образом: стохастически генерируются достаточно много (обычно 100) вариантов срабатываний источника за год так, чтобы соблюсти известное общее количество часов, затем для каждого из этих вариантов рассчитывается максимум годовой концентрации в каждом датчике и для каждого датчика из этих вариантов вычисляется среднее. В итоге в каждом датчике получается оценка математического ожидания максимума N-кратной выборки концентраций за год (N – количество срабатываний источника за год) (рис. 5). Следует отметить, что при большом количестве импульсных источников для каждого из них генерируется свой набор выбросов, так как у источников разное количество выбросов в год. Но при этом сами варианты генерируются для всей совокупности источников, то есть каждый вариант описывает сгенерированную ситуацию разового выброса для всех источников сразу. Варианты одни и те же для всех загрязнителей и всех клеток. Генерировать варианты срабатываний можно и для определенных временных интервалов, например для рабочих часов. Для этого в кубе концентраций, в котором производится агрегация с использованием метода Монте-Карло, в оси часовых временных интервалов оставляют только интервалы, соответствующие рабочим часам.

При наличии нескольких разных агрегатов одних и тех же данных эти данные не дублируются. Поддерживается система ссылок: интервал с одним и тем же именем может входить в ось несколько раз и на разных уровнях. При этом физически данные этого интервала хранятся в кубе один раз, но адресация к ним возможна из других интервалов оси по имени. Это позволяет проводить различные варианты агрегации над одним и тем же набором данных без его дублирования. Эта функциональность необходима, например, при расчете риска: один и тот же загрязнитель может иметь разные по направленности воздействия и, соответственно, несколько раз входить в разные группы заболеваний в рамках одного измерения «загрязнитель».

Модули системы. Помимо OLAP-модуля, в системе есть еще модуль главного управляющего окна, модуль таблиц, модуль карт, модули модели рассеяния и модели формирования риска и другие (рис. 6).

Интерфейс главного окна включает в себя управляющие элементы для загрузки и сохранения кубов, вызова окна карт и таблиц, также в нем вызываются бинарные операции «куб–куб» над кубами в целом.

Модуль модели рассеяния занимается вызовом модели AERMOD для расчета рассеяния с конвертацией между кубами и входными и выходными текстовыми файлами AERMOD. Модуль имеет интерфейс, позволяющий устанавливать множество параметров расчетной модели, в частности, выбрать уровни в иерархии каждого измерения куба, которые будут использоваться для перевода в формат входных файлов AERMOD. В зависимости от режима использования модели модуль перебирает ось загрязнителей или ось источников и т.д. и для каждого интервала по этой оси формирует входной файл и запускает AERMOD. Как было сказано выше, предлагаемая логика работы с моделью AERMOD отличается от задуманнной ее создателями. Так как AERMOD производит свертку временного ряда концентраций внутри себя и на выходе имеет только один временной интервал, а для работы нужен полный временной ряд концентраций, работа осуществляется не с итоговым агрегированным по времени выходным файлом, а с промежуточным, в который AERMOD пишет временной ряд концентраций. Этот файл имеет текстовое форматирование и большой размер. Например, почасовой расчет одного загрязнителя за год на сетке из 1 000 датчиков создает файл размером 2–3 Гб. Парсинг системой такого файла и перенос результатов в куб концентраций занимает больше времени, чем работа самой модели AERMOD по расчету этого файла.

Модуль модели формирования риска рассчитывает различные виды риска на основе концентраций загрязнителей, токсичности каждого загрязнителя по отношению к каждому виду риска и с учетом разбиения населения на группы, которые могут иметь разные сценарии экспозиции к загрязнению, в том числе разные параметры миграции между разными загрязненными территориями.

Модуль таблиц занимается показом двумерных сечений куба в виде таблицы. Он позволяет выбирать пару осей, образующих строки и столбцы таблицы, и уровни иерархии для показа. В нем вызываются бинарные операции по преобразованию сечений, описанные выше. Здесь же можно вызывать унарные операции по заполнению сечений числами, их стиранию, производить бинарные арифметические действия «сечение–фиксирован­ное число».

Модуль цветокодирует значения в кубе по отношению к заданному порогу, например референтной концентрации, раскрашивая ячейки таблицы. Механизм цветокодирования значений является мощным инструментом визуальной оценки результатов расчета. Имеется возможность загружать списки «загрязнитель–порог» и, соответственно, цветокодировать значения в одной и той же таблице, используя разные пороги для разных загрязнителей. Эта возможность часто используется для визуальной оценки концентраций и рисков и для создания отчетных таблиц.

Картографический модуль предназначен для картографического отображения расположения источников и датчиков, в том числе результатов расчета концентраций и рисков. Он выполняет ряд функций, характерных для ГИС-систем. В нем есть несколько слоев: растровый слой подложки, обычно содержащий космический снимок территории, векторный слой источников и векторный слой датчиков. Карта имеет декартову систему координат с началом отсчета, выбираемым поль- зователем. Координаты источников и датчиков измеряются относительно этого начала. И векторному, и растровому слоям можно задавать прозрачность. Датчики на карте показываются в виде клеток с центром в координатах этих датчиков. При создании сетки клеток выделяется область, которую требуется покрыть, задается количество или размер клеток и далее клетки сортируются по регионам. Из иерархии «регион–клетка» формируется измерение датчиков для куба расчетных концентраций. Модуль карт показывает числовые значения из среза куба вдоль оси «датчики» или «источники» в цветокоде с задаваемой пользователем нормировкой. Помимо этого, в модуле есть ряд специализированных функций. Например, здесь можно задать типы землепользования на местности (лес, болото, пашня и т.п.), подготовить данные для предпроцессора AERSURFACE, который формирует данные о поверхности для AERMOD, импортировать карты высот источников и датчиков, сгенерировать цепочки точечных источников и/или датчиков вдоль автомобильных трасс, синтезировать RGB-изображение из трех разных карт и др.

Система реализована на платформе Delphi в виде монолитной однопользовательской программы для рабочего стола ОС Windows XP/7/8.

  Последовательность работы

Работа по оценке риска включает несколько этапов (рис. 7).

Первый этап – подготовка четырех кубов исходных данных: куба выбросов, куба географических данных, куба метеорологии и куба дополнительной информации (например, характеристик частиц для расчета их оседания). Эти кубы подаются на вход модуля модели, который преобразует данные из этих кубов во входные файлы программы AERMOD и запускает ее для расчета рассеяния. Выходной файл модели преобразуется в куб концентраций с осями «загрязнитель–датчик–время». Далее этот куб фильтруется по времени, например, для удаления ненужных временных интервалов. Концентрации делятся на соответствующие загрязнителям референтные концентрации и группируются по направлениям воздействия, тем самым формируя риски. Далее в кубе рисков считается агрегат по времени как среднее или максимум, обычно с применением метода Монте-Карло для учета импульсности источников. Получившийся куб и является основным кубом рассчитанных рисков. По этому кубу строятся карты каждого типа рисков с использованием модуля карт и/или таблицы в разрезе «тип риска–район», для чего проводится агрегация по оси датчиков для расчета агрегатов-районов. Имеется возможность автоматического формирования простых форм отчета на основе карт и таблиц риска. В отчетах активно используется описанное выше цветокодирование таблиц.

С математической точки зрения основные операции, совершаемые в описанной выше последовательности работы, состоят из трех видов операций над кубами: 1) свертка двух кубов по общей переменной, например, куба расчетных концентраций и куба референтных концентраций по оси «загрязнитель» в риск; 2) формирование прямого произведения двух кубов, где набор измерений результата – это совокупность измерений составляющих (в том числе расчет по модели); 3) сокращение числа измерений за счет полной агрегации по одному или нескольким измерениям. На рисунке 7 эти виды отражены через спецификацию измерений кубов на входе и выходе каждой операции в последовательности работы. 

  Сходство с другими OLAP-системами и их отличия

Строго говоря, ядро описываемой программы не является OLAP-системой в прямом значении этой аббревиатуры – online analytical processing (аналитическая обработка в реальном времени). Авторы используют гиперкубы, исходя из других потребностей, чем это делается в бизнесе. В бизнесе таким способом анализируется информация, причем сам обсчет информации не требует многомерного представления данных и гиперкубы используются просто как средство просмотра данных, так как являются естественным для пользователя способом разностороннего представления данных и оперирования ими при анализе. В данном случае, хотя техническая реализация и напоминает OLAP-решения, цели у нее другие: гиперкубы используются не ради удобства анализа и исследований, а потому, что сама структура задачи включает в себя свертки и развертки многомерных данных и естественной реализацией этого являются многомерные кубы и операции агрегации над ними.

В техническом плане ядро системы является MOLAP, то есть классическим многомерным вариантом OLAP, в котором не используются реляционные БД в качестве источника или хранилища данных и агрегатов [10]. Соответственно, в нем нет аналогов таких обычных для OLAP понятий, как таблица фактов и меры. Если все же описывать систему в терминах OLAP, можно сказать, что в ней факт состоит из одной меры. Так же, как и во всех других MOLAP-системах, в нашей системе гиперкубы – это непосредственное хранилище всех данных, причем оно единственное, никакого другого ассоциированного с кубами контекста, кроме других кубов, нет. Сгенерированные AERMOD значения попадают сразу в куб концентраций. Гиперкубы как исходный контекст данных используются в научных системах чаще, чем в бизнесе, однако в сфере оценки риска и расчета рассеяния загрязнителей такое применение гиперкубов происходит впервые.

В силу отличной от бизнес-систем логики применения гиперкубов в данной системе нет необходимости в хранении множества вариантов агрегатов по одним и тем же интервалам данных. В бизнес-системах эта необходимость обусловлена требованиями к скорости реакции на запросы пользователя, анализирующего данные и желающего посмотреть различные варианты агрегации без больших задержек. В этом причина одной из основных проблем MOLAP-систем – сильного увеличения размера кубов. В рассматриваемой системе такое требование не предусмотрено, так как работа в основном не исследовательского характера, нет неопределенности в желаниях пользователя и требуемые виды агрегации над данными определены заранее. Этих агрегатов немного, поэтому проблема увеличения размера кубов не так выражена. Основное время уходит на однократную агрегацию, которая, как было сказано выше, проводится сразу по всему кубу единожды.

Важным отличием является очень малая разреженность данных в базовых кубах концентраций, с которыми идет большая часть работы. Это обусловлено физической осмысленностью всех измерений куба, так что ячейки на любом пересечении координат куба, как правило, заполнены значимыми величинами концентраций или рисков. Этим объясняется довольно большой размер кубов, с которыми приходится работать, – от сотен мегабайт до 10 гигабайт. Однако разреженность возникает в некоторых случаях и в рассматриваемой системе, когда осуществляется расчет вкладов отдельных источников по загрязнителям, так как не все источники выбрасывают все возможные загрязнители. Данная система не использует какие-либо способы борьбы с разреженностью.

Еще одним отличием является то, что работа с кубами происходит только в оперативной памяти и теоретический размер обрабатываемых кубов ограничен размером оперативной памяти компьютера, на котором с этим кубом работают.

На основании изложенного можно сделать следующие выводы. Описанная в статье программная система EHIPS предназначена для оценки риска здоровью населения от загрязнения атмосферы выбросами предприятий и транспорта. Система обладает рядом архитектурных особенностей, главной из которых является OLAP-подоб­ное ядро работы с многомерными кубами данных, с помощью которых производятся все манипуляции с данными в системе. Система включает оболочку вокруг программы AERMOD, разработанной U.S. EPA и использующейся в системе для моделирования рассеяния и расчета концентраций загрязнителей. Однако при этом применяется нестандартная схема: работа с временными рядами концентраций средствами системы, а не самой модели AERMOD. Применен ряд специальных методов работы с данными, наиболее нестандартный из которых – агрегация многомерного куба концентраций или рисков с использованием стохастического представления выбросов с помощью метода Монте-Карло для учета импульсности источников выбросов. Система показала удобство и гибкость в большом числе работ по оценке риска от промышленных предприятий, и в ряде случаев с ее помощью получены уникальные результаты, которые вряд ли могли быть получены с помощью других программных систем, используемых при оценке риска. Представляется, что опыт создания и практического применения такой специализированной OLAP-системы может быть полезен не только в сфере оценки риска, но и в других областях, логика которых отличается от бизнес-логики основного потока работ по OLAP, но где, тем не менее, естественным является представление данных в виде многомерных гиперкубов.

Авторы выражают благодарность Васильеву А.Н. за разработку первоначальной версии OLAP-механизма, Егорову В.В. за участие в начальном этапе разработки системы, а также Авалиани С.Л. и Ревичу Б.А. за участие в работах по оценке риска с помощью системы.

  Литература   1.     Balter B.M., Stalnaya M.V. and Egorov V.V. Comparing Two Alternative Pollutant Dispersion Models and Actual Data within an Environmental Health Information Processing System (EHIPS). Modeling of Environmental Chemical Exposure and Risk, NATO ASI Series, 2001, vol. 2, pp. 151–164. 2.     Field R.A., Eisenberg N.A., Compton K.L. Quantitative environmental risk analysis for human health. Wiley-Interscience, 2007, 390 p. 3.     Ricci P.F. Environmental and health risk assessment and management. Springer, 2006, 478 p. 4.     Wrembel R., Koncilia C. Data warehouses and OLAP: concepts, architectures, and solutions. IRM Press, 2007, 332 p. 5.     User's Guide for the AMS/EPA Regulatory Model – AERMOD. EPA-454/B-03-001, 2004, 216 p. 6.     Hamel R., Paine R., Heinold D., Kumar N. and Knipp- ing E. EMVAP: an Emissions Variability Processor for Modeling Applications. Air and Waste Management Association Annual Meeting. 2012, vol. 105, no. 1, pp. 873–886. 7.     Murray D.R., Newman M.B. Probability analyses of combining background concentrations with model-predicted concentrations. J. Air Waste Manag. Assoc. 2014, vol. 64, no. 3, pp. 248–254.

8.     Nagabhushana S. Data Warehousing. OLAP and Data Mining. New Age Intern. Ltd, Publ., 2006, 332 p.

9.     Bradimarte P. Handbook in Monte-Carlo Simulation: Applications in Financial Engineering, Risk Management, and Economics. Wiley, 2014, 662 p. 10.  Tatsuo Tsuji, Akihiro Hara, Ken Higuchi. An extendible multidimensional array system for MOLAP. SAC '06, Proc. of the ACM Symposium on Applied Computing, 2006, pp. 503–510.

References

1.  Balter B.M., Stalnaya M.V., Egorov V.V. Comparing two alternative pollutant dispersion models and actual data within an Environmental
Health Information  Processing System (EHIPS).  Modeling of Environmental Chemical Exposure and Risk,  NATO ASI Series.  2001,  vol. 2,
pp. 151–164.

2.  Field R.A., Eisenberg N.A., Compton K.L.  Quantitative  Environmental Risk Analysis  for  Human Health. Wiley-Interscience Publ., 2007,
390 p.

3.  Ricci P.F. Environmental and Health Risk Assessment and Management. Springer Publ., 2006, 478 p.

4.  Wrembel R., Koncilia C. Data Warehouses and OLAP: Concepts, Architectures, and Solutions. IRM Press, 2007, 332 pp.

5.  User's Guide for the AMS/EPA Regulatory Model – AERMOD. EPA-454/B-03-001. 2004, 216 pp.

6.  Hamel R., Paine R., Heinold D., Kumar N., Knipping E. EMVAP: an Emissions Variability Processor for Modeling Applications.  Air and
Waste Management Association Annual Meeting. 2012, vol. 105, no. 1, pp. 873–886.

7.  Murray D.R., Newman M.B.  Probability analyses of combining background concentrations with model-predicted concentrations. J. Air Waste
Manag. Assoc. 2014, vol. 64, no. 3, pp. 248–254.

8.  Nagabhushana S. Data Warehousing. OLAP and Data Mining. New Age Int. Ltd Publ., 2006, 332 p.

9.  Bradimarte  P. Handbook in Monte Carlo Simulation: Applications in Financial Engineering, Risk Management, and Economics. Wiley Publ.,
2014, 662 p.

10.  Tsuji T., Hara A., Higuchi K. An extendible multidimensional array system for MOLAP. SAC '06, Proc. of the ACM Symp. on Applied Com-puting. 2006, pp. 503–510.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=3929&lang=
Версия для печати
Выпуск в формате PDF (6.61Мб)
Скачать обложку в формате PDF (0.95Мб)
Статья опубликована в выпуске журнала № 4 за 2014 год. [ на стр. 234-241 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик: