Авторитетность издания
Добавить в закладки
Следующий номер на сайте
Классификация взаимосвязей в схемах данных
Аннотация:
Abstract:
Автор: Юмагужин Н.В. () - | |
Ключевое слово: |
|
Ключевое слово: |
|
Количество просмотров: 10703 |
Версия для печати Выпуск в формате PDF (2.31Мб) |
Во многих коммерческих, государственных и научных организациях распространена ситуация, когда отдельные информационные системы работают на разных программных платформах и используют разные локальные справочники, никак не связанные между собой. Это ставит перед разработчиками программных продуктов ряд задач, связанных с интеграцией данных: ведение централизованных справочников, конвертация и синхронизация данных и др. Первым шагом в решении подобных задач является сопоставление схем данных, которое проводится разработчиками совместно с экспертами в предметной области. На сегодняшний день есть средства, которые автоматически предлагают соответствия между схемами на основе их синтаксического анализа (см.: E. Rahm, P.A. Bernstein. A survey of Approaches to Automatic Schema Matching. VLDB Journal. 10(4):334-350, 2001) либо на основе семантических данных, задаваемых экспертами (см.: S. Spaccapietra, C. Parent. View Integration: A Step Forward in Solving Structural Conflicts. TKDE. 6(2):258-274. 1994). Однако применение этих средств не дает ответа на вопрос о гарантированной возможности решения той или иной задачи интеграции данных. В случае определения соответствий на основе семантических данных от экспертов обычно требуется абстрактное высокоуровневое проектирование: детальное описание объектной модели предметной области либо определение формальной онтологии разрешения конфликтов (см.: S. Ram, J. Park. Semantic Conflict Resolution Ontology (SCROL): An Ontology for Detecting and Resolving Data and Schema-Level Semantic Conflict, TKDE. 16(2). 189-202, 2004). Подход, описанный в данной статье, напротив, не требует от экспертов ничего, кроме указания конкретных взаимосвязей между атрибутами. Рассмотрим задачу сопоставления информации из двух схем данных, содержащих одни и те же физические сущности. При этом допускается, что схемы имеют различные системы кодирования, то есть один и тот же объект может иметь в этих схемах различные идентификаторы. Допускается, что названия таблиц, атрибутов и распределение атрибутов по таблицам могут различаться. Но предполагается, что между схемами существуют взаимосвязи, которые могут быть заданы экспертами. Нашей задачей будет классифицировать типы возможных взаимосвязей и найти необходимые условия для решения различных задач интеграции данных на основе этих взаимосвязей. Пусть некоторая сущность описывается в первой схеме данных отношением A, содержащим кортежи Классификация взаимосвязей доменов 1. Смысловая взаимосвязь доменов. Наиболее общим типом взаимосвязи можно считать случай, когда мы хотя бы можем определить, совпадают ли объекты по атрибутам x и y или не совпадают. Другими словами, задана функция смысловой эквивалентности: 2. Существует конвертирующее отображение из X в Y, если для любого значения
3. Существует обобщающее отображение из X в Y (Y – обобщение X), если для любого значения
4. Существует обобщающее отображение X на Y (X – детализация Y), если для любого значения 5. Изоморфизм доменов, если существуют отображение Кроме приведенных типов взаимосвязей, рассмотрим следующие. 2¢. Существует конвертирующее отображение из Y в X. 3¢. Существует обобщающее отображение из Y в X. 4¢. Существует обобщающее отображение Y на X. Нетрудно доказать следующие свойства приведенной классификации. · Классы взаимосвязей, определяемые условиями 1-5, 2¢-4¢, не совпадают между собой. · Каждое условие с меньшим номером следует из условия с большим номером (в отдельности для условий без штрихов и со штрихами). · Из условия 4 следует 2¢, а из 4¢ следует 2. · Если условия 3 и 3¢ выполняются одновременно, то выполняется условие 5. Классификация взаимосвязей схем данных Будем считать, что объект, заданный кортежем
для всех
такие что Замечание. Для задачи устранения дублирования можно рассматривать не бинарную функцию P, а отображение на отрезок.
В прикладных задачах к этой формуле могут добавляться весовые коэффициенты или использоваться более специфические формулы. Например, если мы решаем задачу сопоставления списков юридических лиц и у нас заданы функции смысловой взаимосвязи:
Обозначение. Множество пар индексов Перейдем к классификации взаимосвязей между схемами данных. 1. Соответствие объектов. Если Select From Where 2. По кортежу из A можно определить кортеж в B. Если существует потенциальный ключ Такой способ проверки применяется при решении задачи переноса данных из одной системы в другую, чтобы избежать возникновения дубликатов. Но для переноса данных необходимы еще два дополнительных условия: 1) переменная-отношение B должна быть обновляемой (либо это должна быть таблица); 2) для всех атрибутов 3. По кортежу из A можно однозначно определить кортеж в B. Если существует потенциальный ключ Теорема. Если в B существует потенциальный ключ K, такой что для всех Пример. Проиллюстрируем действие теоремы задачей сопоставления юридических лиц. Предположим, что во второй из интегрируемых систем реализовано устранение дублирования, не допускающее в переменной-отношении B двух кортежей с одинаковым значением ИНН в атрибуте 4. Отношения A и B синхронизируемы. Если по кортежу из A можно однозначно определить кортеж в B и по кортежу из B можно однозначно определить кортеж в A, будем говорить, что отношения A и B синхронизируемы. Смысл этого условия в том, что если перенести некоторый кортеж a из A в B, а потом обратно, то гарантировано не будет создано новой записи a¢, дублирующей a. Этот факт следует из предыдущей теоремы. Действительно, если по кортежу из B можно однозначно определить кортеж в A, то первичный ключ кортежа b может входить в таблицу соответствия не более одного раза и, следовательно, не может соответствовать кортежам a и a¢ одновременно. Замечание. Не требуется, чтобы потенциальные ключи A и B лежали в В данной статье построена классификация взаимосвязей между доменами и между схемами данных. На основе построенной классификации найдены необходимые условия для решения различных задач интеграции данных: выполнение запросов, получающих информацию из обеих схем данных, перенос (конвертация) данных из одной схемы в другую, cинхронизация данных. В качестве возможного продолжения работы остается поиск достаточных условий для перечисленных задач и дальнейшее изучение свойств построенной классификации. Автор благодарит своего руководителя чл.-корр. РАН, д.ф.-м.н. С.М. Абрамова за постановку задачи и полезные обсуждения. |
Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=347 |
Версия для печати Выпуск в формате PDF (2.31Мб) |
Статья опубликована в выпуске журнала № 3 за 2007 год. |
Возможно, Вас заинтересуют следующие статьи схожих тематик: