На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

1
Ожидается:
24 Декабря 2024

Диалоговый программный комплекс для формирования онтологии  единого цифрового пространства научных знаний

Дата подачи статьи: 01.01.1970
Статья опубликована в выпуске журнала № 4 за 2024 год.
Аннотация:
Abstract:
Авторы: Власова С.А. (svlasova@jscc.ru) - Межведомственный суперкомпьютерный центр (МСЦ) РАН – филиал ФГУ ФНЦ Научно-исследовательский институт системных исследований (НИИСИ) РАН (ведущий научный сотрудник), Москва, Россия, кандидат технических наук, Калёнов Н.Е. (nkalenov@jscc.ru) - Межведомственный суперкомпьютерный центр (МСЦ) РАН – филиал ФГУ ФНЦ Научно-исследовательский институт системных исследований (НИИСИ) РАН (профессор, главный научный сотрудник), Москва, Россия, доктор технических наук
Количество просмотров: 60
Версия для печати

Размер шрифта:       Шрифт:

Введение. Структурированная информационная среда Единое цифровое пространство научных знаний (ЕЦПНЗ) объединяет сведения о различных объектах, связанных с наукой, в качестве которых могут выступать цифровая копия физической сущности (например, книги, музейного предмета, архивного документа и т.п.), база данных, информация об ученом, научном мероприятии, научном факте и т.п. [1, 2].

Учитывая основные тренды современного развития информатики, связанные с автоматизацией обработки научной информации и применением искусственного интеллекта во многих областях науки, ЕЦПНЗ необходимо строить на принципах Semantic Web [3, 4], а при его разработке использовать онтологический подход [5].

Для описания онтологий и проектирования на их основе информационных систем существует много языков, основой которых явля- ется принятый в качестве стандарта OWL,  базирующийся на представлении данных  в структурах RDF (http://www.w3.org/TR/2004/ REC-rdf-concepts-20040210/) и RDFS (https:// www.w3.org/TR/rdf-schema/). На базе этих стан- дартов консорциумом W3 разработана модель организации знаний SKOS (Simple Knowledge Organization System), унифицирующая структуру представления тезаурусов, относящихся к различным областям знаний (https://www.w3. org/TR/skos-reference/).

В Сети представлено значительное количество публикаций, посвященных разработкам на основе OWL-онтологий, описывающих отдельные направления науки и техники как за рубежом (например, [6–8]), так и в России (например, [9–11]).

Однако, как показывает анализ, использование OWL затруднительно при описании объектов, обладающих многоуровневыми атрибутами (свойствами – в терминологии OWL), такими как численность населения страны или города по годам, расход воды в водопадах по месяцам, работа персоны в той или иной организации  в разных должностях в разное время и т.п.  Эта проблема и сложности ее преодоления подчеркнуты, в частности, в [12]. Отражая динамику развития различных областей науки,  в том числе в историческом плане, онтология ЕЦПНЗ должна учитывать такие аспекты, как переименование населенных пунктов, изменение принадлежности территорий тем или иным государствам, различные обозначения единиц измерения и т.п.

Необходимо отметить, что в информатике существует ряд трактовок термина «онтология» применительно к различным задачам.  В данной работе под онтологией будем понимать структурированные данные, отражающие информацию об элементах ЕЦПНЗ и их связях.

Элементы онтологии ЕЦПНЗ

ЕЦПНЗ представляет собой совокупность тематических подпространств (ПП), связанных единой онтологией – унифицированными правилами отражения информации об объектах и их связях, а также собственно связями между объектами различных ПП.

Структура онтологии ЕЦПНЗ описана  в [13–15] и представлена в виде элементов справочника CDSSK на сайте ЕЦПНЗ (http:// dirsmsc.ru/cdssk/structure/). Чтобы облегчить понимание работы программного комплекса, приведем основные определения, относящиеся к структуре онтологии ЕЦПНЗ.

Объект ЕЦПНЗ характеризуется фиксированным набором атрибутов (свойств), каждый из которых принимает определенное значение (или ряд значений) для конкретного объекта. Перечень атрибутов объектов определяется  задачами ЕЦПНЗ, к решению которых имеет отношение данный объект.

Объекты ПП с одинаковыми наборами атрибутов объединяются в классы.

Между парами любых объектов и значений атрибутов могут быть установлены связи, каждая из которых характеризуются видом, типом и (факультативно) значением.

Структуры классов, атрибутов объектов и связей определяются унифицированными спра- вочниками и соответствующими объектами класса «форматы» универсального ПП.

Каждый элемент ЕЦПНЗ имеет свое уникальное имя (URN). Упростить обработку дан- ных для формирования URN позволяют следующие введенные мнемонические правила.

Каждому формируемому ПП присваивается префикс, который в общем случае может состоять из фиксированного числа символов, определяемого в справочнике ЕЦПНЗ. В данной версии префикс ПП состоит из двух буквенно-цифровых символов, включающих стандартную латиницу и кириллицу.

URN класса объектов состоит из четырех буквенно-цифровых символов: первые два являются префиксом ПП, к которому принадлежит данный класс, два других – префиксом класса. Классы с одним и тем же префиксом, обозначающим группу описываемых сущ- ностей, могут принадлежать различным ПП  и иметь разный, но пересекающийся набор атрибутов. Например, персоны, включаемые в универсальное ПП, имеют более широкий набор атрибутов, чем персоны, включаемые  в тематическое ПП; объекты класса «местоположение» универсального ПП имеют существенно меньше атрибутов, чем те же объекты, описываемые в ПП, относящихся к географии, и т.п. Эквивалентность отдельных объектов из разных ПП устанавливается с помощью соответствующей связи. В качестве URN класса не используются буквосочетания REUN, REQU, RESP, зарезервированные для обозначения универсальных, квазиуниверсальных и специфических связей.

Справочники ЕЦПНЗ представляют собой кортежи, их размерность определяется видом элемента, который они описывают (ПП, класс, атрибут, связи).

Значения атрибутов объектов и связей хранятся в словарях одного из двух видов – статических или динамических. Статические словари (в справочниках они обозначены буквой S) содержат стандартизованные значения атрибутов (перечень ученых степеней и званий персон, классификационные индексы, виды отношений между объектами различных классов  и т.п.). Их элементы формируются либо при первоначальной загрузке системы в пакетном режиме, либо в процессе формирования справочников разработанным программным комплексом. Словари значений второго типа формируются в процессе наполнения контента ЕЦПНЗ (в справочниках они обозначены буквой D).

Предлагаемый программный комплекс предназначен для формирования справочников элементов ЕЦПНЗ всех видов и для наполнения статических словарей значений атрибутов объектов и связей. Он ориентирован на администратора, формирующего и редактирующего структуру определенного ПП с его классами  и связями объектов.

Результатом работы комплекса является система связанных справочников и статических словарей, URN которых построены по установленным правилам. Элементы справочников и статических словарей динамически формируются в виде реляционной базы данных. а также текстовых строк заданной структуры [14].

 

Рис. 1. Простая связь

Fig. 1. Simple relation

 

Рис. 2. Составная связь первого рода

Fig. 2. Composite relation of the first kind

 

Рис. 3. Составная связь второго рода

Fig. 3. Composite relation of the second kind
Одной из основных составляющих справочников ЕЦПНЗ является указание на формат представления элемента, к которому относится справочник. Каждый элемент формата представляет собой объект вспомогательного клас- са универсального ПП «форматы», имеющий  6 атрибутов [16] – «тип представления данных», «вид формата», «признак обязательности», «признак уникальности», «ограничения по структуре», «описание». Значения атрибутов формируются данным программным комплексом и хранятся в соответствующих статических словарях, а их комбинации, характеризующие правила представления конкретных атрибутов и связей, – в словаре форматов. URN соответствующих элементов словаря форматов являются обязательными составляющими всех справочников атрибутов объектов и связей.

Классификация связей ЕЦПНЗ

Для упрощения алгоритмов формирования справочников связей и сокращения диалога  с администратором введена классификация связей. Каждая связь определяется типом и ви- дом.

Выделены пять типов связей:

– универсальная связь между объектами;

– универсальная связь между значениями атрибутов;

– универсальная связь между значениями конкретного объекта;

– квазиуниверсальная связь между объектами;

– специфическая связь между объектами.

Связь определенного типа может относиться к одному из следующих видов:

– простая связь, представляющая собой аналог триплетов RDF и содержащая указания на связи «субъект» и «объект» (здесь и далее приводимые в кавычках понятия «субъект» и «объект» понимаются в терминах триплета RDF,  на рисунках они обозначены как О1 и О2 соответственно) (рис. 1);

– составная связь первого рода, содержащая (дополнительно к указаниям «субъект» и «объ- ект») URN значений атрибутов связи, приведенных в соответствующих словарях, определяемых справочником атрибутов связи (рис. 2);

– составная связь второго рода, содержащая неразветвленную иерархическую цепочку значений атрибутов, когда все значения атрибута данного уровня имеют одни и те же подчиненные атрибуты (рис. 3);

– составная связь третьего рода – разветвленная иерархическая цепочка, в которой каждый атрибут верхнего уровня имеет свои атрибуты следующего уровня (рис. 4).

 

Рис. 4, Составная связь третьего рода

Fig. 4. Composite relation of the third kind
Типы атрибутов объектов ЕЦПНЗ

Атрибуты могут иметь простые или составные значения, а также принимать значения связей.

Простое значение атрибута определяется элементом словаря значений атрибута, заданного в его справочнике.

Составное значение атрибута может состоять из нескольких значений одного уровня (одноуровневый составной атрибут) или из нескольких иерархических значений (многоуровневый составной атрибут). К одноуровневым составным атрибутам относятся, например, количественные и временные характеристики объекта – высота, длина, скорость и т.п. Значение такого атрибута состоит из единицы измерения и ее числового выражения. Примером многоуровневого составного атрибута может служить расход воды в водопаде или реке (количественная характеристика в зависимости от времени года), численность населения административной единицы с указанием года, скорость звука в различных средах и т.п.

Значение атрибута как связи может вводиться для удобства пользовательского интерфейса при диалоговом вводе данных. Так, при формировании метаданных доклада на конференции удобнее запросить ввод атрибута «автор доклада», чем запрашивать связь доклада  с персоной.

Вид атрибута определяется его справочником, содержащим указание на соответствую- щий элемент формата, имя словаря значений атрибута и имя справочника подчиненного атрибута (при его наличии). Для простого атрибута в справочнике будет указано имя словаря значений атрибута, для составного атрибута – имя словаря соответствующего объекта, для атрибута как связи – имя словаря соответствующей связи.

Для автоматического формирования системы связанных справочников и статических словарей ЕЦПНЗ разработан специальный диалоговый программный комплекс ФОНТ ЕЦПНЗ. Он создан на основе технологии Microsoft ASP.NET на платформе Microsoft .NET Frame- work в среде разработки Microsoft Visual Studio.

 

Структура программного комплекса  ФОНТ ЕЦПНЗ

 

Комплекс включает модули создания элементов ЕЦПНЗ (ПП, классов объектов, атрибутов объектов и связей) и редактирования их справочников и статических словарей значений атрибутов.

В модуле создания ПП пользователю предоставляется список наименований имеющихся ПП (рис. 5). Наименования являются активными ссылками, обеспечивающими получение данных о ПП с возможностью их редактирования. Для регистрации нового ПП необходимо ввести наименование ПП, префикс (2 символа), описание ПП (рис. 5).

Модуль формирования классов предлагает список наименований имеющихся ПП, из него нужно выбрать то, в котором будет создан класс. Для регистрации нового класса нужно ввести его наименование и префикс (2 символа). Автоматически будет сформирован URN справочника атрибутов для данного класса, который при необходимости можно изменить.

Для создания атрибута из списка наименований имеющихся ПП выбирается нужное, затем из списка классов данного ПП выбирается класс, в котором будет создан атрибут. На рисунке 6 показана страница создания справочника нового атрибута в классе «административные единицы» ПП «Социально-экономическая география». В правой части экрана выдается список наименований имеющихся атрибутов данного класса. Наименования являются активными ссылками, обеспечивающими получение данных справочника атрибута и словаря его значений.

Просмотр данных атрибута «вид объекта»:

Наименование атрибута

вид объекта

URN атрибута A_39AU.2

Формат представления значений атрибута

UNFT.42

URN словаря значений атрибута

N_A_39AU.2

Тип словаря значений S

Словарь значений атрибута

часть света

страна

регион / область / штат / край

город / поселок / деревня

 

Создание нового атрибута начинается с вво- да его названия в левой части экрана (рис. 6).

Далее определяется формат атрибута. Из списка имеющихся типов формата выбирается нужный тип, например, выбор типа формата для атрибута «численность населения»:

 

 

Рис. 5. Регистрация нового ПП

Fig. 5. Registration of a new subspace

 

Рис. 6. Создание справочника атрибута класса «административные единицы»

Fig. 6. Creating a directory of the class attribute “administrative units”
Подпространство: Социально-экономическая география

Класс: административные единицы

Наименование атрибута: числен- ность населения

Тип формата

o    текст

o    изображение

o    видео

o    аудио

o    любое число

o    ссылка на внешний ресурс

o    дата в формате гггг[.мм[.дд]]

o    количественная характеристика

o    временная характеристика

 

Затем из списка форматов указанного типа выбирается формат, например, для атрибута «численность населения»:

Выберите формат

o   Количественная характеристика

атрибут

обязательный, значение повторяющееся

o   Количественная характеристика

атрибут факультативный, значение повторяющееся

o   Факультативная уникальная коли-

чественная характеристика

o   Другой вид формата

Если нужного формата в списке нет, то система предоставляет возможность ввода нового формата.

После выбора формата автоматически формируется URN словаря значений атрибута.  В данном случае выбран URN словаря значений атрибута «количественная характеристика» (рис. 7). При вводе простого формата по умолчанию формируется имя словаря его значений в форме N_<URN справочника атрибута>, которое можно при необходимости изменить. В случае формирования атрибута «как связь» или составного атрибута (тип формата атрибута «количественная характеристика», «временная характеристика» и т.п.) URN словаря значений атрибута изменить нельзя. Для завершения формирования справочника атри- бута нужно указать тип словаря значений (S – статический или D – динамический) и при необходимости ввести дополнительную инфор- мацию (рис. 7). Для словарей типа S предоставляется возможность ввода значений для данного атрибута.

 

Рис. 7. Создание справочника 
для атрибута «численность населения»

Fig. 7. Creating a directory
for “population size” attribute
После формирования справочника нового атрибута можно перейти к формированию атрибута второго уровня. Так, например, для  атрибута «численность населения» можно сфор- мировать подчиненный атрибут «дата указания количества населения» с форматом «дата в фор- мате гггг[.мм[.дд]], атрибут необязательный, значение уникальное».

В программном комплексе ФОНТ ЕЦПНЗ модули создания ПП, классов и атрибутов связаны между собой удобной навигацией. После регистрации нового ПП можно сразу перейти к созданию классов для него. После регистрации класса перейти к созданию справочников атрибутов данного класса. При создании нового атрибута следует сразу ввести его значения в соответствующий статический словарь.

Программный комплекс предусматривает возможность редактирования наименований и описаний ПП и классов. Специальный модуль редактирования атрибутов позволяет изменять наименование и описание атрибута, URN и тип словаря значений (если атрибут еще нигде не использовался), добавлять и редактировать значения словаря атрибута (http://www.swsys.ru/ uploaded/image/2024-4/4.jpg).

Модуль создания связей

В данном модуле процедура формирования новой связи определяется ее форматом. При создании любой связи необходимо вводить ее наименование и описание. Формирование квазиуниверсальной связи требует определения объекта связи, а специфической – и субъекта, и объекта. При создании связи с форматами «универсальная составная связь первого рода между объектами», «универсальная составная связь первого рода между значениями атрибутов», «квазиуниверсальная составная связь пер- вого рода», «специфическая составная связь первого рода» формируются справочник атрибута связи и словарь значений атрибута.

В связях с форматами «универсальная составная связь второго рода между объектами», «универсальная составная связь второго рода между значениями атрибутов конкретного объекта», «специфическая составная связь второго рода» формируется справочник атрибута свя- зи. Если тип словаря значений атрибута статический, то вводятся значения атрибута. Также формируются справочники атрибутов второго уровня (относятся ко всем значениям атрибута первого уровня) и вводятся их значения (в случае статического типа словаря значений).

При создании связи с форматом «специфическая составная связь третьего рода» формируются справочник атрибута связи и словарь значений атрибута. Запрашивается количество подчиненных связей. Выбирается значение атрибута, для него формируются справочники подчиненных атрибутов и вводятся значения для этих атрибутов (в случае статического типа словаря значений). Последняя процедура повторяется для всех значений атрибута первого уровня, у которых должны быть подчиненные атрибуты.

Работу модуля формирования связей рассмотрим на примере создания связи персоны с публикацией. После выбора типа связи «Специфическая связь» предоставляется список имеющихся специфических связей и предлагается ввести наименование новой связи и ее описание (http://www.swsys.ru/uploaded/image/ 2024-4/5.jpg). Затем формируются префикс субъекта связи (выбирается «Универсальное пространство», класс «Персоны»), префикс объекта связи (выбирается «Универсальное пространство», класс «Публикации») и выбирается формат связи «специфическая составная связь первого рода»:

 

Наименование связи: связь персоны

с публикацией

Префикс класса субъекта: UNPS

Префикс класса объекта: UNPB

Формат представления связи

o    специфическая простая связь

o    специфическая составная связь

первого рода

o    специфическая составная связь

второго рода

o  специфическая составная связь

третьего рода

 

Рис. 8. Пример формирования справочника атрибута связи

Fig. 8. Example of a relation attribute directory generating
Далее для формирования справочника атрибута вводится его наименование (в данном примере – «роль персоны в создании публикации»), выбирается формат атрибута «текст, только буквы, атрибут обязательный, значение повторяющееся», указывается тип словаря значений атрибута «S – статический» (рис. 8). После ввода значений словаря данного атрибута (например, «автор», «редактор», «составитель») формирование связи будет полностью завершено. Представим все данные сформированной связи:

Наименование связи связь персоны

с публикацией

URN связи RESP.5

Префикс класса субъекта UNPS

Префикс класса объекта UNPB

Формат представления связи UNFT.53

специфическая составная связь пер-

вого рода

URN справочника атрибута связи  A_RESP.5

Наименование атрибута роль персоны

в создании публикации

Формат значений атрибута UNFT.9

Текст, только буквы, атрибут

обязательный, значение повторяю- щееся

URN справочника атрибута A_RESP.5.1

URN справочника значений атрибута

N_A_RESP.5.1

Тип словаря значений S

Словарь значений атрибута

автор

редактор

составитель

автор перевода

художник

Специальный модуль редактирования связей позволяет вносить изменения в атрибуты связей и в словари их значений.

Заключение

Комплекс ФОНТ ЕЦПНЗ находится в стадии опытной эксплуатации и используется для моделирования процессов формирования различных элементов ЕЦПНЗ и связей между разнородными объектами, отражающими научные знания. В частности, сформирована онтология и загружены атрибуты и связи объектов, им- портированных из БД публикаций сотрудников МСЦ РАН, в стадии загрузки находится одна из коллекций музейных объектов. В дальнейшем предполагается реализовать многоплатформенную версию комплекса. Сформированные с помощью комплекса варианты онтологии отдельных ПП являются базой для реализации унифицированных программных средств ЕЦПНЗ, обеспечивающих пакетную  и диалоговую технологии наполнения пространства разнородными реальными научными данными, что составляет одну из очередных задач в области формирования ЕЦПНЗ.

Список литературы

1.   Антопольский А.Б., Каленов Н.Е., Серебряков В.А., Сотников А.Н. О едином цифровом пространстве научных знаний // Вестн. РАН. 2019. Т. 89. № 7. С. 728–735. doi: 10.31857/S0869-5873897728-735.

2.   Савин Г.И. Единое цифровое пространство научных знаний: цели и задачи // Информационные ресурсы России. 2020. № 5. С. 3–5. doi: 10.51218/0204-3653-2020-5-3-5.

3.   Хорошевский В.Ф. Пространства знаний в сети Интернет и Semantic WEB (часть 1) // ИИиПР. 2008. № 1.  С. 80–97.

4.   Хорошевский В.Ф. Пространства знаний в сети Интернет и Semantic WEB (часть 2) // ИИиПР. 2009. № 4.  С. 15–36.

5.   Каленов Н.Е., Серебряков В.А. Об онтологии Единого цифрового пространства научных знаний // Информационные ресурсы России. 2020. № 5. С. 10–12. doi: 10.51218/0204-3653-2020-5-10-12.

6.   Alromema W., Alahmadi A.H. Ontology building for patient bioinformatics of the smart card domain using OWL. IJCC, 2022, vol. 11, no. 4, pp. 316–329. doi: 10.1504/IJCC.2022.124796.

7.   Luo Yu., Xiong X., Jin Sh., Liu Z. VIM: Research on OWL-based vocabulary ontology construction method for units of measurement. Electronics, 2023, vol. 12, no. 18, art. 3783. doi: 10.3390/electronics12183783.

8.   Kosińska J., Brotoń G., Tobiasz M. Knowledge representation of the state of acloud-native application. STTT, 2024, vol. 26, no. 1, pp. 21–32. doi: 10.1007/s10009-023-00705-2.

9.   Загорулько Ю.А., Боровикова О.И. Использование системы разнородных паттернов онтологического проектирования для разработки онтологий научных предметных областей // Программирование. 2020. № 4. С. 27–35. doi: 10.31857/S0132347420040068.

10. Загорулько Ю.А., Сидорова Е.А., Загорулько Г.Б., Ахмадеева И.Р., Серый А.С. Автоматизация разработки онтологий научных предметных областей на основе паттернов онтологического проектирования // Онтология проектирования. 2021. Т. 11. № 4. С. 500–520. doi: 10.18287/2223-9537-2021-11-4-500-520.

11. Митрофанова О.А., Митрофанов Е.П., Буре Н.А. Применение онтологического подхода к проектированию геопространственной базы опытных данных для информационного обеспечения исследований в точном земледелии // Вестн. СПбГУ. Прикладная математика. Информатика. Процессы управления. 2022. Т. 18. № 2. С. 253–262. doi: 10.21638/11701/spbu10.2022.206.

12. Марчук А.Г., Марчук П.А. Базовая онтология неспецифических сущностей BONE и ее использование для построения информационных систем // Вестн. СибГУТИ. 2014. № 4. С. 118–128.

13. Каленов Н.Е., Сотников А.Н. Структура онтологии единого цифрового пространства научных знаний // НТИ. Сер. 2. 2023. № 7. С. 20–26. doi: 10.36535/0548-0027-2023-07-3.

14. Kalenov N.E., Sobolevskaya I.N., Sotnikov A.N. Common digital space of scientific knowledge ontology structurization. Lobachevskii J. of Math., 2023, vol. 44, pp. 2733–2743. doi: 10.1134/S1995080223070235.

15. Kalenov N.E., Sotnikov A.N. Common digital space of scientific knowledge as an integrator of polythematic information resources. Doklady Math., 2024, vol. 109, pp. 93–99. doi: 10.1134/S106456242470176X.

16. Власова С.А., Каленов Н.Е., Сотников А.Н. Онтология вспомогательных и политематических предметных классов единого цифрового пространства научных знаний // Электронные библиотеки. 2024. Т. 27. № 1. С. 22–42. doi: 10.26907/1562-5419-2024-27-1-22-42.


Постоянный адрес статьи:
http://swsys.ru/index.php?id=5115&page=article
Версия для печати
Статья опубликована в выпуске журнала № 4 за 2024 год.

Назад, к списку статей