Идентификация объектов текста в информационных системах

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Идентификация объектов текста в информационных системах

Статья опубликована в выпуске журнала № 2 за 2009 год.
Аннотация:
Abstract:

Авторы: Канн Д.А. () - , Лебедев И.С. () - , Сухопаров Е.А. () -
Ключевые слова: вычисление связей между словами, обработка текстовой информации, семантический и синтаксический анализ, естественный язык
Keywords: , , , natural language
Количество просмотров: 9993	Версия для печати Выпуск в формате PDF (4.72Мб)

Огромное количество информации в виде текстов на естественном языке требует создания мощных и разноплановых методов ее анализа и обработки. Практически в каждом документе содержатся некие данные и знания, которые можно было бы использовать в определенных ситуациях, но для этого их необходимо правильно вычислять. Основная проблема любой информационной системы, работающей с текстом, – его отражение в автоматическом режиме в базу знаний. Только в случае ее решения можно говорить о построении естественно-языковых (ЕЯ) интерфейсов, вопросно-ответных, контролирующих и обучающих систем, позволяющих в интерактивном режиме вычислять ЕЯ вопросы и формировать ответы. Но для этого необходимо не только синтаксически обрабатывать конструкции текстов, но и правильно и точно отражать их смысл в базы данных и знаний.

Современные модели языкового использования строятся на уровневой основе: морфология, синтаксис, семантика и прагматика. Восприятие текста – это не только понимание его отдельных слов, но и возможность синтеза из них различных фактов [1, 2]. В зависимости от того, насколько качественно решены и проработаны все уровни, можно говорить о полноте и точности извлекаемой информации.

Модель представления текстовой информации в таких системах должна ориентироваться не на уровни, а на комплексность описания: от понимания слов к пониманию составных частей предложения и сложных предложений, а затем к последовательностям предложений и самым высшим структурам текста.

Для использования элементов искусственного интеллекта в системах автоматической обработки текста необходимо отразить текст в некоторую базу знаний. С этой целью любой ЕЯ текст должен быть представлен на семантическом языке.

В формальном семантическом языке, в отличие от естественного, всякое слово рассматривается анализатором как некая функция f, значение которой определяется ее аргументами x1, ..., xn: f(x1, ..., xn).

Формализованное предложение – конечный набор функций, связанный в единую суперпозицию [3]. Это означает, что предложение – также некоторая функция P, аргументами которой являются другие функции fi(x1, ..., xn), связанные между собой посредством определенных для них грамматических типов: P(f1(x1, ..., xn), f2(x1, ..., xn),..., fk(x1, ..., xn)).

Грамматический тип, определяемый предлогом и падежной формой, позволяет установить синтаксические заголовки слов в словаре. Но эта информация будет неполной, если не определить роль частей речи в грамматической конструкции предложения. В формализованном синтаксисе все части речи равнозначны, нет главных и второстепенных членов предложения [4]. Аналогично можно описать и семантические конструкции. Основное отличие будет состоять в том, что в семантическом словаре каждому слову приписываются свой идентификатор класса и жесткий набор классов, которые могут с ним употребляться и образовывать связи. Каждый член предложения – это функция со своими аргументами. Роль и поведение таких функций определяются значением их аргументов [5].

Таким образом, если P({xi}, {yj}) (i=1,n, j=1,k) является предложением, где xiX – множество слов; yjY – множество конструкций слов, то, обозначив через А множество описателей морфологической информации по предложению, необходимо найти такое их подмножество, которое конкретному набору слов предложения однозначно сопоставит его конструкцию.

В абстрактной глагольной функции G в качестве ее аргументов выступает морфологическая информация о падежно-предложных формах слов в предложении P=G.

Таким образом, задача анализатора сводится к нахождению адекватных морфологических и семантических описателей.

Алгоритм нахождения следующий.

По каждому слову предложения xk, используя морфологический анализатор, находим его морфологический описатель mk: xk→mk.

Если морфологические описатели совпадают, этот набор и определяет соответствующую конструкцию Y, в свою очередь, означая, что подобный набор соответствует конкретному множеству описателей информации по данному предложению и, таким образом, достигается соответствие между словами и их конструкциями (словосочетаниями, причастными, деепричастными оборотами) в предложении Xk→Yk.

Описание семантики синтаксиса предложений позволило разработать механизм сборки синтаксических конструкций в синтаксические шаблоны. Под синтаксическим шаблоном понимается такое представление информации о предложении в компьютере, по которому анализатор способен построить грамматически верную конструкцию предложения [2, 3]. В дальнейшем синтаксические шаблоны послужили основой для словарных описателей семантического словаря. Механизмы сборки, адаптированные под семантическую модель, позволяют строить правильное дерево связей (граф) более чем из 90 % предложений естественного языка.

Сравнение в вопросно-ответных системах основывается на том, что вопрос на естественном языке – это обычное предложение, в котором одно из слов вопросительное. Идентификация предложения запросу осуществляется по совпадению классов. В идеальном случае совпадают все классы и слова, а вопросительное слово указывает на связь.

Создание ЕЯ интерфейсов, вопросно-ответных систем зависит от решения проблемы вычисления объектов текста, связей между объектами и отражения текстовой информации в базу знаний.

Основой конструкции семантического языка являются объекты, образующие между собой связи. Идентификация объектов и вычисление значения их связей основываются на модели представления естественного языка, на способе представления текстовой информации и зависят друг от друга. Не вычислив связь, нельзя понять, является ли множество слов семантической конструкцией, и наоборот, не выявив объект, сложно говорить о связях, которые он может образовывать с другими объектами [5]. Формализация связей, способность их вычисления – основная проблема, от решения которой зависит построение фактов и правил работы с ними.

Любой объект текста можно рассматривать как связь между двумя словами, где первое слово присоединяет к себе следующее за ним:

лекция (какая? по чему?) по математике,

лекция (какая? кого?) профессора,

лекция (какая? от чего?) от 5 сентября.

В результате в приведенном примере получается некая сущность, лекция, которая обладает набором свойств или атрибутов:

лекция СОДЕРЖАНИЕ: математика,

лекция ВЛАДЕЛЕЦ профессор,

лекция ВРЕМЯ от 5 сентября.

Само свойство определяется присоединяемым словом или глаголом, с которым определяемое слово имеет связь. Каждое существительное принадлежит определенному классу, практически однозначно предписывающему набор атрибутов. В этом случае можно вычислять не только вопросы типа «какая лекция?», но и, например, «какое содержание лекции?».

Любой класс объектов по-своему уникален, в каждом из них могут встречаться определенные атрибуты. Например, маловероятно встретить атрибут формы у существительных класса «газы» (например, «квадратный воздух»).

Анализаторы, созданные на основе формализованной модели естественного языка профессора СПбГУ В.А. Тузова [1, 4], позволяют оперировать двумя типами связей между объектами.

Первый тип показывает отношения между объектами, второй – конкретизирует объект, например:

Стол находится в комнате Ивана.

находится (@Им Стол @Где в (@Пред комнате (@Род Ивана))).

Используя семантический словарь, строим объекты отношений:

НАХОДИТЬСЯ Loc(Z1,МЕСТО:Z2)

Z1:@ОНЪ$17 => СТОЛ $121344

Z2:$1~@Где => В КОМНАТА $123314

Приведенный объект показывает отношение местонахождения объектов СТОЛ $121344 и КОМНАТА $123314. Используя базовые функции и подставляя объекты в формулы, вычисляем значения атрибутов.

Второй тип связан с конкретизацией объекта. В приведенном примере объекту КОМНАТА приписан атрибут ИВАН $1241301000.

КОМНАТА$123314 (Z1)

Z1:@Род => ИВАН $1241301000

Первый тип связи определен семантико-грамматическим типом связи (например @Где), однозначно указывающим на атрибут, которому следует присвоить значение. Второй тип связи может определяться базисными функциями, предложно-падежными формами, поэтому его реализация сводится к построению алгоритмов, вычисляющих значения базисных функций.

Областью определения базисных функций и предложно-падежных форм является множество объектов текста. Отметим, что, например, родительный падеж можно рассматривать как двухаргументную функцию, определенную на множестве классов существительных, значением которой является имя атрибута первого аргумента [4].

Аналогичная ситуация возникает с любой предложно-падежной формой.

И в первом, и во втором случаях присваивается значение атрибуту объекта, и главная проблема здесь – установить имя этого атрибута.

Рассматривая текст, можно определить набор подобных сущностей и их атрибутов. В тексте объект может иметь разные наименования, которые выражаются словом или словосочетанием, на него может указывать местоимение. Решение этих задач основывается на идентификации множества ближайших предложений, внутри которых необходимо проводить анализ.

Результатом работы синтаксического анализатора является запись на семантическом языке, основу которого составляют сравнительно небольшой набор базисных функций и набор базовых понятий. Разные записи на семантическом языке могут иметь (как и на любом другом языке) одинаковый смысл.

Определив базисные функции и базовые понятия как функции с областью значений реальной действительности, можно сделать запись на семантическом языке, вычислив тем самым смысл этой записи в виде значения из реальной действительности.

Литература

1. Тузов В.А. Компьютерная семантика русского языка. СПб: Изд-во СПбГУ, 2004. 400 с.

2. Кондратьев А.В., Кривцов А.Н., Лебедев И.С. Анализаторы текстов формальной модели русского языка для компьютера // Процессы управления и устойчивость: тр. XXIX науч. конф. студ. и аспирант. фак-та ПМ-ПУ. СПб: НИИ Химии СПбГУ, 1998. С. 142–154.

3. Комаров И.И., Кривцов А.Н., Лебедев И.С. Принципы построения семантической модели текста и ее применение в системах лингвистического обеспечения // Процессы управления и устойчивость: тр. XXXIII науч. конф. студ. и аспирант. фак-та ПМ-ПУ. 2002. С. 373–382.

4. Тузов В.А. Семантический анализатор текстов на русском языке: сб. тр. / СПб: СПб ЭМИ РАН, 2000. Вып. 9. С. 181–192.

5. Лебедев И.С. Способ формализации связей в конструкциях текста при создании естественно-языковых интерфейсов // Информационно-управляющие системы. 2007. № 3. С. 23–26.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=2279	Версия для печати Выпуск в формате PDF (4.72Мб)
Статья опубликована в выпуске журнала № 2 за 2009 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Идентификация объектов текста в информационных системах