Разработка метода интеграции информационных систем на основе метамоделирования и онтологии предметной области

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Разработка метода интеграции информационных систем на основе метамоделирования и онтологии предметной области

Статья опубликована в выпуске журнала № 1 за 2008 год.
Аннотация:
Abstract:

Авторы: Вагин В.Н. (vagin@appmat.ru) - Московский энергетический институт (технический университет), г. Москва, Россия, доктор технических наук, Михайлов И.С. (fr82@mail.ru) - Национальный исследовательский университет «Московский энергетический институт», Москва, Россия, кандидат технических наук
Ключевые слова: метамоделирование, интеграция, информационные системы
Keywords: , integration, information systems
Количество просмотров: 20210	Версия для печати Выпуск в формате PDF (1.92Мб)

Информационные системы (ИС) представляют широкий класс программного обеспечения, используемого различными предприятиями для автоматизации их работы. Поскольку объем обрабатываемой информации огромен, уже в каждой организации существует своя информационная система. Такая система является комплексным программным продуктом, объединяющим различные современные технологии по доступу, накоплению, обработке данных, по работе в сети и др.

В ходе развития или слияния фирм должно происходить масштабирование и интеграция их ИС. Как известно, одну и ту же ИС можно построить по-разному. В результате интегрируемые хранилища данных могут быть несовместимы, даже если они решают схожие задачи. Складывается ситуация, когда расширение требований или объединение систем вызывает потребность их перепроектирования или создания заново.

В настоящее время для решения такого рода задач используются частные средства компьютерной конвертации данных, которые разрабатываются для определенной узкой задачи и не проводят анализ преобразуемой информации.

На сегодняшний день возникает необходимость в создании метода, обеспечивающего объединение ИС, а также программного средства, осуществляющего данное объединение.

В данной статье рассматривается разработка универсального метода интеграции ИС, функционирующих в одной предметной области, с использованием метаданных ИС и онтологии предметной области.

Интеграция ИС и понятиеинтероперабельности

При интеграции ИС основополагающую роль играет свойство интероперабельности ИС. Под интероперабельностью понимается способность ИС взаимодействовать с другими ИС. Такое взаимодействие может выражаться в виде обмена данными, распределенного выполнения поисковых запросов, согласованного изменения БД и т.д. Необходимость обеспечения интероперабельности возникает при связывании бизнес-процессов предприятий-партнеров, согласовании работы существующей ИС с принятыми стандартными решениями.

Также свойство интероперабельности используется при интеграции нескольких ИС, включении в создаваемую систему БД ранее использованных хранилищ данных, при разработке комплексных АСУ, построении сетей информационных хранилищ, а также во многих других случаях.

Проблема обеспечения интероперабельности ИС имеет фундаментальный характер. Она актуальна как для унаследованных систем, которые требуется связать с вновь создаваемыми (либо, как минимум, получить возможность использования их БД), так и для проектируемых хранилищ данных, в которых необходимо предусмотреть возможности реализации взаимодействия с другими ИС в перспективе, при изменении требований к ним [1].

Выделяется два аспекта интероперабельности: структурный и семантический. Структурный аспект интероперабельности систем означает способность к структурному согласованию сущностей систем. Семантический аспект означает возможность установления соответствия между смыслами единиц ИС.

Существующие методы достижения интероперабельности главным образом касаются ее синтаксических (структурных) аспектов, то есть направлены на согласование и преобразование структур данных за счет стандартизации их форматов и использования расширяемых метаязыков. Универсальные подходы к обеспечению интероперабельности ИС на семантическом уровне в настоящее время отсутствуют. Решения соответствующих задач являются частными, относящимися к конкретным хранилищам данных, и предусматривают ручное построение отображений между их сущностями, реализуемое в средствах преобразования данных.

Метод решения задачи обеспеченияинтероперабельности ИС

В данном исследовании предлагается общее решение задачи интероперабельности путем описания метаданных ИС в рамках разработанной методологии и осуществления отображения сущностей и связей ИС друг в друга в терминах общего информационного поля, задаваемого онтологией предметной области.

Поскольку знания, хранящиеся в ИС, в достаточной мере структурированы, представляется возможным автоматизированное построение моделей и метамоделей этих знаний.

Концептуальные модели ИС создаются в соответствии со стандартами схем XML и RDF. Технология XML используется для формализации структуры и отношений в ИС, RDF – для выделения и формализации семантических единиц в конкретных предметных областях использования данных ИС. Построенные таким образом концептуальные модели ИС могут использоваться для создания общей метамодели, объединяющей в себе представления сущностей двух и более хранилищ данных. Также определяются правила преобразования сущностей и их связей одной ИС в интерпретации сущностей и их связей другой ИС.

Технологии XML и RDF

Наиболее важной заслугой технологии XML видится то, что программы различных производителей получили возможность взаимодействовать на одном языке. Взамен многочисленных разрозненных способов представления данных появился один универсальный синтаксис, который лег в основу передачи информации между программами, работающими в различных точках Интернета.

Важным качеством указанного стандарта является его открытость и независимость от конкретных сфер применения и разделов знания. Его задача состоит в том, чтобы предоставить возможность пользователям и программам общаться между собой и друг с другом, не ограничиваясь какой-то конкретной предметной областью [2].

Указанный универсализм привел к созданию стандартных средств поддержки XML и дополнительных технологий, а также к появлению стандартных программных интерфейсов для взаимодействия с ними. Использование технологии XML позволяет наглядно представить систему связей, иерархию концептов предметной области, в которой функционируют интегрируемые ИС.

Однако при всех своих достоинствах XML не в состоянии стать подходящим средством выражения семантики размеченных данных. Позволяя закодировать любую информацию и давая разработчику возможность без особого труда получить синтаксический анализатор и средства манипулирования данными, XML удовлетворяет потребностям программистов иметь универсальное средство разметки, обладающее синтаксической интероперабельностью. Но при этом он не в состоянии адекватно справиться с задачей семантической интероперабельности.

На пути к осуществлению поставленной задачи обеспечения семантической интероперабельности можно выделить несколько трудностей. С одной стороны, программы должны понимать язык соответствующей предметной области, с другой – должны уметь сопоставлять связанные термины различных предметных областей. Это требование является существенным, поскольку в противном случае программы смогли бы работать лишь с отдельными сферами знаний, описанными, например, специализированными XML-языками. Целью же семантической интероперабельности является создание непрерывного информационного поля.

Здесь можно привести следующий пример. Предположим, что в одной ИС размещены данные о какой-либо компании и ее сотрудниках, в другой системе – информация о людях, в третьей – об адресах. Очевидно, что компании, люди и адреса принадлежат к отдельным, относительно независимым областям знаний. С другой стороны, в непрерывном информационном поле программа должна без особого труда суметь сопоставить сотрудников и людей, адреса этих людей и предметную область адресов как таковых.

Итак, если синтаксическая интероперабельность неразрывно связана с синтаксическим анализом данных, то семантическая требует анализа самой информации, ее внутренней связности, установления соответствия терминов и словарей одной предметной области элементам другой.

XML не может стать средством, обеспечивающим связь различных данных по ряду причин. Основное его ограничение состоит в том, что XML лишь описывает грамматику. Выделить семантическую единицу в конкретной предметной области нельзя, поскольку этот язык ориентирован на структуру документа и не предполагает общей интерпретации данных, содержащихся в нем.

XML оказывается слишком гибким средством описания данных и позволяет одну и ту же информацию разметить различными способами.

С этой проблемой можно было бы попытаться справиться: либо всем заинтересованным сторонам договориться об используемом формате описания, либо прибегать к преобразованию одной грамматики в другую. Однако очевидно, что первый из этих способов не реален, поскольку заинтересованных сторон, как правило, много и состав их регулярно меняется, а второй способ крайне громоздок, и оба они по-прежнему не решают проблему выделения семантической единицы предметной области. Поэтому для эффективного представления фактов необходимо вводить некие ограничения на уровне самого языка.

Следующая сложность, которую следует отметить, связана с неудобством использования XML для задания метаданных по причине значимого порядка элементов. Факты в информационном поле должны быть упорядочены только тогда, когда этот порядок важен с точки зрения самих данных, а не их записи.

Последняя причина заключается в том, что разметка, допускающая смесь из текста и вложенных элементов, сложна для вычленения данных и установления связи между ними. Эта сложность возникает, если необходимо отразить, что объект имеет некоторое свойство, а его значение представлено не значением простого типа и не вложенным поддеревом, а смешанной разметкой.

Следует отметить, что для семантически интероперабельных ИС, в которых программы смогут автоматически анализировать содержание ресурсов, необходимо новое средство выражения семантики данных, а не только их записи.

Проблемы могут быть решены, если для определения метаданных и правил преобразования данных при переходе от одной интегрируемой ИС к другой использовать XML вместе с иной моделью данных, например, моделью семантической сети. Формально семантическую сеть можно определить при помощи модели RDF.

Технология описания ресурсов RDF была разработана для решения задач, связанных с описанием семантики. Основополагающим для RDF является понятие модели данных. Это есть набор фактов и семантических связей между ними. Базовый строительный блок модели данных – утверждение, представляющее собой тройку: ресурс, именованное свойство и его значение. В терминологии RDF эти три части утверждения называются соответственно субъект, предикат и объект.

Ресурсом является все, что описывается средствами RDF. Это может быть, например, отдельная таблица или какая-то ее часть.

Под свойством следует понимать некий аспект, характеристику, атрибут или отношение, используемое для описания ресурса. Каждое свойство имеет свой специфический смысл, допустимые значения, тип ресурсов, к которым оно может быть применено, а также отношения с другими свойствами. Разработанные производителями нотации RDF основаны на XML.

Для более точного понимания связи RDF с XML и другими языками сериализации можно привести следующую аналогию. Знание, присутствующее в голове человека, не зависит от способа его передачи другим людям. Например, его можно было бы выразить при помощи английского языка, а можно и по-русски. В этой абстракции RDF-модель данных эквивалентна знанию, а XML – английскому языку, который, хотя и является всего лишь одним из возможных способов представления, но имеет статус международного средства общения. Две существующие XML-нотации в этом случае можно сравнить с различными диалектами одного языка.

В модели RDF имена концептов выбираются из определенного словаря концептов и определенного пространства имен, поэтому их представление более унифицировано, в отличие от XML-разметки. В предлагаемой модели одному концепту предметной области соответствует множество понятий-синонимов предметной области. Это помогает избежать различия представления их связей без потери полноты представления.

В семантической сети порядок элементов не важен, поскольку она представляет собой размеченный граф.

Смешанная XML-разметка в модели RDF представляется многоуровневой семантической сетью. То есть детализацией определенного концепта сети может стать другая сеть связанных между собой понятий. Построенная таким образом многоуровневая структура значительно упрощает анализ этой системы концептов.

Таким образом, совместное использование с технологией XML модели RDF позволит отразить семантику концептуальных моделей ИС, а также избежать изложенных ограничений XML.

Онтология предметной области

Механизмом для создания непрерывного информационного поля является онтология, включающая в себя совокупность терминов и правила, по которым эти термины могут быть скомбинированы для построения достоверных утверждений о состоянии рассматриваемой системы в некоторый момент времени. На основе этих утверждений, могут быть сделаны выводы, позволяющие вносить изменения в систему для повышения эффективности ее функционирования [3].

В любой системе существуют две основные категории предметов восприятия, такие как сами объекты, составляющие систему (физические и интеллектуальные), и взаимосвязи между этими объектами, характеризующие состояние системы. В терминах онтологии понятие взаимосвязи однозначно описывает зависимости между объектами системы в реальном мире, а термины, соответственно, описывают сами реальные объекты.

Онтологическая модель представляет наиболее важные утверждения в предметной области. Дополнительно эта модель помогает описывать поведение объектов и изменение взаимосвязей между ними (поведение системы). Таким образом, онтология представляет собой словарь данных, включающий и терминологию, и модель поведения системы. Поскольку каждая концептуальная модель предметной области является подмножеством онтологии, задача интеграции ИС сводится к задаче объединения метамоделей ИС, то есть построения отображений между этими метамоделями в терминах онтологии.

В данной задаче онтология служит для построения соответствий между концептами ИС. Онтология также помогает установить связи между семантическими единицами внутри каждой концептуальной модели предметной области интегрируемых ИС при определении метаданных.

Описание онтологии, как и метаданных ИС, осуществляется на основе технологии XML и модели RDF. Разработка онтологии проводилась в соответствии со стандартом IDEF5.

После определения метаданных ИС и построения общей метамодели хранилищ данных становится возможным интерпретировать информацию из одной ИС средствами другой ИС.

Таким образом, обеспечивается интероперабельность, а следовательно, необходимый уровень интеграции ИС.

Схема алгоритма интеграции ИС

Разработанный алгоритм интеграции ИС состоит из следующих основных шагов.

1. Анализ сущностей БД, их атрибутов и отношений между ними. На данном этапе приложением осуществляется построение схем данных.

2. Анализ семантических значений сущностей и атрибутов. На данном этапе строятся концептуальные модели ИС. Для получения и анализа семантических значений используется онтология предметной области.

3. Уточнение семантических соответствий. С помощью онтологии определяются недостающие связи между концептами.

4. Построение единой метамодели. Данная метамодель строится как объединение двух концептуальных моделей ИС. На данном этапе онтология используется для разрешения возможных противоречий.

5. Вывод результирующих отображений между сущностями и атрибутами ИС.

Подпись: Схема алгоритма интеграции двух ИС

Данная схема рассматривает интеграциюИС-А и ИС-В. Задача интеграции – обеспечение взаимодействия между ИС. Для этого необходимо определить соответствия сущностей ИС-А сущностям ИС-В и правила их преобразования. С этой целью вначале из ИС извлекаются их схемы данных, при помощи анализа которых в отдельности возможно установление лишь структурной интероперабельности, то есть правил преобразования типов полей и сущностей ИС друг в друга.

Для обеспечения семантической интероперабельности требуется понимание назначения элементов ИС. Поэтому необходимо использовать вторую составляющую часть метаданных – концептуальную модель предметной области. Она является надстройкой над схемой данных и задает систему связей между концептами предметной области, установленную в данной ИС. Построение данной модели осуществляется при помощи онтологии предметной области. Онтология содержит словарь концептов предметной области и хранит общую сеть связей между этими концептами. То есть каждая концептуальная модель является подмножеством онтологии предметной области. Использование онтологии позволяет определять концептуальные модели в одних терминах и анализировать связи между их концептами.

Далее на базе концептуальных моделей ИС-А и ИС-В осуществляется построение метамодели предметной области интегрируемых ИС. Данная метамодель объединяет и согласует в себе обе концептуальные модели. На этапе ее построения также используется онтология. Метамодель определяет соответствия сущностей ИС-А сущностям ИС-В и правила их преобразования, позволяя установить взаимодействие между указанными ИС.

Практическая реализация

Разработанные концепции были применены при решении задачи интеграции БД системы измерений параметров нефте-водо-газовой смеси «Ультрафлоу» (VarPro) и ИС нефтяного месторождения АДКУ 2000 ООО «Лукойл-Пермь».

Для определения расходов и дебитов нефти на каждом месторождении устанавливается измерительный комплекс, в состав которого входит ИС. В данную ИС по радиоканалам собирается информация о текущих параметрах нефтяных скважин со всех кустов месторождения. После обработки информация предоставляется операторам.

Хранилища данных такого типа, как правило, достаточно велики и содержат порядка 200 базовых сущностей, с этим связана большая трудоемкость их анализа и обработки. Интеграция базы данных нового измерительного прибора в данную систему, произведенная вручную, вызвала бы необходимость ручного определения отображений сущностей ИС, то есть установления подмножества сущностей АДКУ 2000, которому соответствуют сущности ИС VarPro. Самым сложным этапом является определение отображения связей сущностей АДКУ 2000 на связи сущностей ИС VarPro.

Более того, установка прибора на другом месторождении с другой штатной ИС вызвала бы повторное ручное построение таких отображений без использования накопленного опыта. Ручное построение данных отображений осуществляется без применения строгого стандартного алгоритма в силу субъективности точек зрения операторов на функционирование ИС.

Перечисленными выше факторами была обусловлена необходимость создания в составе информационного комплекса VarPro программного средства, осуществляющего построение отображения системы связанных сущностей ИС VarPro в систему связанных сущностей другой ИС.

Таким образом, данное программное средство обеспечивает интерпретацию ИС VarPro другими ИС, а значит, интероперабельность ИС VarPro.

Интеграция указанных ИС была проведена с использованием изложенных концепций. Для этой цели была создана программа Var Pro Integrator, которая вначале позволяет пользователю определить метаданные для хранилищ данных с использованием онтологии предметной области, а затем на их основе устанавливает структурные и семантические отображения ИС.

В результате данного исследования была разработана методология создания интероперабельных ИС. После выполнения данной процедуры ИС включается в единое информационное поле, задаваемое онтологией, и получает возможность взаимодействовать с другими хранилищами данных из данной предметной области. Разработанная методология позволяет значительно ускорить и упростить интеграцию ИС. Кроме того, она обеспечивает успешное эволюционирование хранилищ данных в ходе развития предприятий, где они используются.

Список литературы

1. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии: Учеб. пособие. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. – 304 с.

2. Когаловский М.Р. Перспективные технологии информационных систем. – М.: ИТ-Экономика, 2003. - 288 с.

3. W3C Recommendation 10 February 2004, RDF/XML Syntax Specification, http://www.w3.org/

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=89	Версия для печати Выпуск в формате PDF (1.92Мб)
Статья опубликована в выпуске журнала № 1 за 2008 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Разработка метода интеграции информационных систем на основе метамоделирования и онтологии предметной области