Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В Институте динамики систем и теории управления им. В.М. Матросова СО РАН описан метод автоматизированного создания онтологических схем в формате OWL2 DL на основе анализа и преобразования данных, извлекаемых из электронных таблиц.
30.06.2021Использование технологий семантического веба, в том числе онтологий, является широко распространенной практикой при создании интеллектуальных систем и баз знаний. В большинстве случаев онтологии используются системными аналитиками и экспертами предметной области на этапах концептуализации и формализации знаний. При этом применяется различный инструментарий (например, Protégé, ONTOedit, Menthor Editor, Semaphore Ontology Editor, OntoStudio, WebOnto, Fluent Editor), который в основном обеспечивает только ручное манипулирование концептами и отношениями. Слабая интеграция подобных систем с другими информационными источниками (например, с БД, текстами, таблицами, концептуальными моделями и др.) в части импорта понятий и отношений предметной области снижает эффективность данного процесса.
В качестве источника информации для автоматизированного формирования онтологий могут выступать электронные таблицы. В настоящее время в мире циркулирует большой объем электронных таблиц, представленных в форматах HTML, XLS, XLSX, CSV. Информация в данных таблицах характеризуется большим разнообразием и разнородностью компоновок, стилей, содержания, форм и форматов представления, а также высокой скоростью роста ее объема. Большой объем и свойства структуры таких таблиц делают их ценным источником в приложениях науки о данных и бизнес-аналитики. Однако, как правило, они не сопровождаются явной семантикой, необходимой для машинной интерпретации своего содержания так, как задумано их автором. Накапливаемая в таблицах информация часто является неструктурированной и нестандартизированной. Для проведения анализа этих данных необходимы их предварительное извлечении и трансформация к структурированному представлению в соответствии с заданной формальной моделью.
В работах предложен подход к автоматизированному анализу и преобразованию электронных таблиц в концептуальные модели предметной области в виде диаграмм классов UML. В данном исследовании предлагается применить этот подход для создания онтологических схем (онтологий на терминологическом уровне T-Box) в формате OWL2 DL. В качестве источника знаний и основы для автоматизированного формирования онтологических схем выбраны электронные таблицы, представленные в формате MS Excel, который является наиболее распространенным на сегодняшний день средством для представления структурированной информации в виде таблиц.
Таким образом, постановку задачи можно формализовать следующим образом: необходимо определить оператор T преобразования произвольных электронных таблиц:
T: ASXLSX -> OSOWL,
где ASXLSX – исходная произвольная электронная таблица в формате Excel (XLSX); OSOWL – целевая онтологическая схема в формате OWL2 DL.
Особенностью подхода является использование определенной канонической (реляционной) формы представления электронных таблиц, обеспечивающей унификацию входных данных.
Предлагаемый подход реализован в форме программного модуля расширения, а именно плагина PKBD.Onto для системы прототипирования продукционных экспертных систем – Personal Knowledge Base Designer (PKBD). Также рассмотрен пример применения предлагаемого подхода и модуля для создания онтологических схем в формате OWL при решении учебной задачи.
Подробное описание дается в статье «Разработка схем онтологий на основе преобразования электронных таблиц», авторы Н.О. Дородных, А.Ю. Юрин, А.В. Видия (Институт динамики систем и теории управления им. В.М. Матросова СО РАН, г. Иркутск).