ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

4
Publication date:
09 December 2024

Automatic searching system of physical effects by natural language query

The article was published in issue no. № 1, 2010
Abstract:This paper describes the way of building searching natural language querying system of physical effects and the architecture this system. This paper bases requirements of this system and results of applying it. The system uses physical knowledge ontology, designed by author. This ontology allow to simplify using methods of analyses of natural language.
Аннотация:В статье описаны способ построения и архитектура системы поиска физических эффектов по запросу на естественном языке. Приводятся обоснование необходимости такой системы и результаты ее апробации. В системе используется разработанная автором онтология представления физических знаний, позволяющая упростить методы анализа естественного языка.
Author: (k_man@mail.ru) -
Keywords: representation of knowledge, object-oriented approach, search, physical effect, natural language, semantic analysis
Page views: 13720
Print version
Full issue in PDF (4.03Mb)
Download the cover in PDF (1.25Мб)

Font size:       Font:

Физические знания представляют собой некоторую совокупность понятий и суждений о реальных физических явлениях. Ученые нуждаются в постоянном текущем информировании о новых и существующих экспериментальных данных в своей предметной области и смежных областях. Такими данными являются количественные зависимости между физическими величинами конкретных объектов, а также различные явления и эффекты, экспериментально наблюдаемые в физических объектах.

Для повышения эффективности работы с этими данными разработаны различные компьютерные системы хранения и поиска информации. В качестве модели представления данных в настоящее время используется модель описания физического эффекта (ФЭ) в виде трехкомпонентной структуры. Реализовано несколько программных систем, осуществляющих работу с ФЭ. Некоторые из них пока находятся на стадии прототипа, другие успешно внедрены, третьи распространяются на коммерческой основе. Но ни в одной из этих систем модель представления ФЭ не реализована в полном объеме.

Современные автоматизированные информационно-поисковые системы дают возможность использовать один из этих запросов для поиска. Вместе с тем существует ряд проблем, затрудняющих применение таких автоматизированных систем, а именно:

·     сложность восприятия задачи в терминах модели ФЭ из-за малой осведомленности о значении ее компонентов;

·     неполнота реализации модели и, как следствие, невозможность использования всех критериев, заложенных в модель;

·     сложность ввода формализованного описания в поисковую систему из-за непростого описания компонентов ФЭ;

·     сложность в использовании полученных результатов вследствие их нерелевантности;

·     сложность в составлении структурированного описания ФЭ.

Подобная ситуация негативно сказывалась на эффективности применения автоматизированной системы, так как эти недостатки требовали от пользователя глубокого знания теории физических эффектов и дополнительных временных затрат на преобразование своего запроса в термины системы.

Для повышения эффективности было принято решение реализовать поиск по запросу на естественном языке. В Волгоградском государственном техническом университете на кафедре САПР и ПК была разработана система поиска физических эффектов. Для поиска использовался метод дескрипторного поиска, что заставляло формализовать запросы в виде модели ФЭ.

Система, описанная в настоящей статье, создавалась с целью решения данной проблемы. Для этого в ней реализован механизм естественно-языкового поиска.

Разработанная система решает следующие задачи:

·     семантический анализ текста описания ФЭ и запроса пользователя;

·     составление индекса для ускорения поиска;

·     проведение поиска по запросу пользователя;

·     расширение хранимой информации о физическом эффекте;

·     обновление БЗ системы.

Система рассчитана на работу в двух режимах: индексация описаний ФЭ и поиск по ним. Индексация производится при добавлении нового описания ФЭ в БД или при изменении уже имеющегося. Она позволяет сократить время обработки документов при поиске за счет сохранения в индексе результатов промежуточного анализа. Этим режимом пользуется только администратор БД. Второй режим, основной, реализован в виде диалога с пользователем. От пользователя ожидается запрос на выборку данных. Результатом обработки запроса являются названия ФЭ, соответствующие запросу. На основе результата пользователь решает или продолжить поиск, уточнив запрос, или просмотреть найденные описания.

Модули системы и их взаимодействие представлены на рисунке. Основным компонентом системы является семантический анализатор. Он используется для анализа текста описания и запросов пользователя. В его основе лежит модель формализации языка, использующая объектно-ориентированный подход к построению онтологии. Применение объектного подхода представляется более наглядной, структурированной и легко формализуемой методологией для построения знаний.

В рамках данной методологии предметная область представляется в виде классов понятий, например, металл, полупроводник, длина волны, напряжение и т.п. Каждый класс имеет ряд ха- рактерных для него свойств и специфическое свойство «составные части», с помощью которого описывается структура понятия. Например, составными частями ФЭ являются входное физическое воздействие, выходное физическое воздействие и физический объект. При наследовании структуры действует правило: каждый элемент структуры родительского класса переходит в наследуемый класс в неизменном виде либо класс элемента заменяется классом, являющимся дочерним по отношению к классу элемента. Например, в классе «длинноволновый фотовольтаический эффект», который является дочерним по отношению к классу «физический эффект», элемент «физический объект» заменяется элементом «полупроводник», дочерним по отношению к классу «физический объект».

Кроме свойств, классы имеют методы. В методах описана последовательность действий. Они отражают такие связи области знаний, как последовательность течения явления, участники явления и условия выполнения.

Во время работы семантический анализатор обращается за помощью к морфологическому и синтаксическому анализаторам. Морфологический анализатор построен на словаре морфологических признаков слова. Если слово отсутствует в словаре, делается попытка определить его морфологические признаки с помощью блока морфологического анализа [1]. Если же и он не справляется, пользователю предлагается определить морфологические признаки слова самостоятельно. В дальнейшем планируется дополнить морфологический анализатор методами автоматизированного определения морфологических признаков.

Подпись:  
Модули системы поиска ФЭ по запросу на ЕЯСинтаксический анализатор для своей работы использует общие правила русской грамматики. Правила были получены эмпирически в процессе анализа различных описаний ФЭ. Применение правил осуществляется в несколько проходов, это позволяет использовать правила, ранжированные по степени значимости. Весь процесс синтаксического анализа разбит на два этапа: получение дерева синтаксических связей, где, в отличие от традиционного подхода, в вершине находится подлежащее, а не сказуемое; получение программы на внутреннем языке на основе дерева.

Необходимость использования внутреннего языка продиктована стремлением получить универсальное гибкое средство описания последовательности элементарных операций над элементами модели. К таким операциям относятся создание объекта, установка свойства в определенное значение, выполнение метода, проверка условия, то есть необходимый минимум функционального языка программирования. Вместе с тем обработка такого языка гораздо более простая задача, чем работа с естественным языком. Выполнение команд этого языка происходит с помощью встроенного интерпретатора. Тело методов также описано на этом языке, поэтому при его выполнении команды в теле метода обрабатываются тем же интерпретатором.

Достоинством модели представления данных является то, что можно не проводить полный анализ предложения, достаточно лишь определить общие грамматические связи между словами. Это существенно упрощает как правила для проверки синтаксиса, так и сам алгоритм.

Индексация выполняется в режиме работы администратора БД после добавления новых или изменения существующих описаний ФЭ. Вначале производится семантический анализ индексируемого описания, результатом которого является некоторое пространство объектов. Затем из по- лученного пространства выбирается основной объект, о котором идет описание. Этот объект определяется исходя из полноты указания его свойств и упоминания методов в описании. На основе полученной информации формируется поисковый образ документа и сохраняется в БД индексации.

Анализом запроса пользователя занимается соответствующий модуль. Задача модуля – определить объект, который запрашивает пользователь, а также его ключевые свойства, отмеченные в запросе.

Данный объект и значения его свойств передаются на вход модуля поиска, который по ним формирует поисковый образ запроса и производит выборку документов из БД индексации на основе сравнения поискового образа запроса (ПОЗ) с индексом документа – поисковым образом документа (ПОД).

Алгоритм сравнения следующий.

1.   Если объект ПОЗ совпадает с основным объектом описания ПОД (сравнение происходит с учетом иерархии объектов, то есть объект ПОЗ может быть таким же, как объект ПОД, или быть его родителем), документ включается в результат выборки (из подготовленного ПОД выбираются заголовок, адрес, релевантность определяется по степени родства объектов ПОД и ПОЗ (при совпадении максимальная)).

2.   Если объект ПОЗ совпадает с одним из часто встречаемых объектов ПОД (без учета родства), документ включается в результат выборки (из ПОД выбираются заголовок и адрес документа, релевантность назначается как 0,5 от максимальной).

По данному алгоритму проверяются все ПОД из БД. Результаты, отсортированные по релевантности, представляются пользователю. Пользователь либо формирует новый запрос к уже отобранным данным, либо просматривает описания найденных ФЭ, загружая их из БД ФЭ по ссылке.

Все программные модули написаны на языке MS Visual С# 2005 и работают под управлением Windows 2000/XP/Vista. Использована бесплатная СУБД – MS SQL Express 2005.

Всего проанализировано 1300 эффектов. Также была использована древовидная структура словарей входов/выходов и объектов ФЭ из старой версии системы.

В результате построена онтология, содержащая порядка 1000 понятий предметной области. В онтологии присутствуют связи различных понятий, отражающие соотношения понятий в рамках конкретных ФЭ. Данная онтология является основой для разработанной системы.

Как было отмечено выше, построение онтологии осуществлялось на основе автоматизированного анализа описаний ФЭ, которые имелись в банке данных поиска ФЭ по запросу на естественном языке. В рамках этой работы разработан алгоритм автоматического представления запроса на естественном языке в терминах объектно-ориенти­рованного представления физических данных и осуществления поиска.

К перспективам использования данной системы можно отнести возможность построения на ее основе обучающих систем. Отраженные в ее БЗ зависимости позволяют строить различные наглядные представления физических знаний с разной степенью детализации, а в дополнение к алгоритму поиска по запросу на естественном языке можно получить обучающую систему в виде «вопрос – ответ» с произвольными вопросами из области физических знаний.

Еще одним направлением использования описанной системы является разработка системы автоматизации начальных этапов проектирования, где можно автоматизировать построение физического принципа действия, проверив ограничения, и затем преобразовать его в набор готовых технических решений с определенными параметрами (выбранными элементами конструкции, материалами и т.п.).

Литература

1. Русская морфология для программистов. URL: http://www.aot.ru/download/RusLemmatizer.zip (дата обращения: 27.10.2009).

2. Кобозева И.М. Лингвистическая семантика. М.: Книжный дом «ЛИБРОКОМ», 2009. 352 с.

3. Перспективные технологии: итоги и прогнозы / С.В. Асмаков [и др.] // КомпьютерПресс. 2008. № 1 (217). С. 24–25.


Permanent link:
http://swsys.ru/index.php?id=2424&lang=en&page=article
Print version
Full issue in PDF (4.03Mb)
Download the cover in PDF (1.25Мб)
The article was published in issue no. № 1, 2010

Perhaps, you might be interested in the following articles of similar topics: