Извлечение смысла из предложений естественного языка

Send article

Journal influence

Higher Attestation Commission (VAK) - К1 quartile

Russian Science Citation Index (RSCI)

Bookmark

Next issue

№4

Publication date:

09 December 2024

Issues

2024

2023

№4 2023

all issues

Extracting meaning from sentences of natural language

The article was published in issue no. № 4, 2012 [ pp. 87-90 ]
Abstract:It was proposed a unified form of logical-linguistic model, which is based on the syntactic structure of a sentence of natural language, the meaning of which is to determine reference between the subject (the subject) and the predicate (predicate). The research of various types of sentences was carried out by means of constructing their logicallinguistic models. This proves that the author’s proposed unified form is a kind of template owing by we can formalize all types of sentences. Semantic references between words can be traced in the context formed phrases. The construction of these models allows to compare the texts in the context and to extract knowledge from text information, as well as to find out among them the controversy. Verification of the proposed ideas to represent text information in the form of logical-linguistic models of unified form is an intellectual system CSOFLLM (computer-aided system of forming logical-linguistic models), which is based on the principles of expert systems.
Аннотация:Предложена унифицированная форма логико-лингвистической модели, в основе которой лежит синтаксическая структура предложения естественного языка, определяющего отношения между подлежащим (субъектом) и сказуемым (предикатом). Исследованы различные типы предложений с помощью построения их логико-лингвистических моделей. Это позволило убедиться в том, что предложенная автором унифицированная форма является своеобразным шаблоном, благодаря которому можно формализовать все типы предложений. Семантические связи между словами прослеживаются в разрезе сформировавшихся словосочетаний. Построение таких моделей дает возможность сравнивать тексты по смыслу, извлекать знания из текстовой информации, а также искать в них противоречия. Верификацией предложенной идеи представления текстовой информации в виде логико-лингвистических моделей унифицированной формы является интеллектуальная система САФЛЛМ (система автоматизированного формирования логико-лингвистических моделей), в основе которой лежат принципы работы экспертных систем.

Authors: (a_vavilenkova@mail.ru) - , Ph.D

Keywords: formalization, structural linguistics, unified form, a predicate, the extraction of meaning, logicallinguistic model, semantics
Page views: 8289	Print version Full issue in PDF (9.63Mb) Download the cover in PDF (1.26Мб)

Следуя основным положениям структурной семантики и когнитивной лингвистики, можно сделать вывод, что лексические единицы передают смысл либо за счет непосредственно вещей, о которых идет речь (экстенция), либо за счет их общих свойств (интенция) [1]. Но, если основываться на том, что анализу подлежат тексты, в которые заведомо заложен определенный смысл, то нет необходимости проверять истинность каждого высказывания. Тогда, абстрагируясь от необходимости подтверждения корректности употребления в тексте тех или иных слов, то есть переходя к формализму, можно сказать, что извлечение смысла из предложений естественного языка предусматривает понимание и выявление основного свойства каждого предложения – его предикативность.

В математике абсолютно точно установлено, что смысл высказывания – это предикат, который выражается данным высказыванием, аргументами такого предиката являются переменные, присутствующие в нем. В этом случае предложение естественного языка можно отождествить с математической формулой, записанной по определенным правилам, а смысл предложения – с предикатом. Способом формализации текстовой информации, математической формулой, с помощью которой можно представить предложения естественного языка и извлечь из него смысл, является логико-лингвистическая модель.

Такая формула базируется на синтаксической структуре предложения естественного языка:

, (1)

где P – предикат, отображающий смысл предложения; x1 – предикатная переменная (субъект), находящаяся в предикативном отношении с P; – предикатная константа, указывающая на признак субъекта; d1 – номер предикатной константы, указывающий на признак субъекта; C1(x1) – множество предикатных констант субъекта x1; Xq – предикатная переменная (аргумент); q – номер предикатной переменной (аргумента), начальное значение которого q=2; X(S) – множество предикатных переменных (аргументов); – предикатная константа, указывающая на признак q-й предикатной переменной (аргумента или объекта); d2 – номер предикатной константы, указывающий на признак предикатной переменной (аргумента); C2(xq) – множество предикатных констант предикатной переменной xq; J(S) – множество предикатных переменных, исполняющих в предложении равносильную роль; q1 – номер предикатной переменной из множества J(S); если предложение не имеет иерархического строения или в нем не встречаются аргументы, равносильные по своей роли, то J(S)=Æ [2].

Так, логико-лингвистическая модель простого предложения «Главным грамматическим средством формирования предикативности является категория наклонения» согласно предложенной формуле будет иметь вид:

(2)

(3)

Учитывая возможные типы отношений между простыми предложениями естественного языка в сложном, можно сформулировать следующую унифицированную форму записи логико-лингвистической модели:

,(4)

где Bv и Cv – логические выражения, описывающие части сложного предложения; Bv – логическое высказывание, описывающее простое предложение с помощью формулы (1).

Например, сложноподчиненное предложение «Гибридный поход предполагает, что синергетическая комбинация моделей достигает полного спектра возможностей» согласно формуле (4) будет представлено следующей логико-лингвистической моделью:

(5)

(6)

Логико-лингвистическая модель сложноподчиненного предложения «Смысл отдельного предложения может пониматься как условие, при котором информация, содержащаяся в данном предложении, передается надлежащим образом» будет иметь вид:

(7)

(8)

В модели (7)–(8) присутствуют слова, которые несут один и тот же смысл, поэтому некоторые предикатные переменные можно отождествить: , , . Но, поскольку на данном этапе каждое предложение рассматриваются отдельно, эта замена не делается. Однако в дальнейшем при учете вхождения предложений естественного языка в контекст некоторого текста или абзаца и отслеживания смысла всего документа такое преобразование будет считаться необходимым.

Таким образом, продемонстрированные примеры показывают, что формирование логико-лингвистических моделей для различных типов предложений естественного языка осуществляется по единому принципу: общая форма, шаблон, который заполняется для каждого предложения предикатными переменными и константами в соответствии с тем, какую синтаксическую роль выполняет то или иное слово. То есть смысл каждого предложения естественного языка фактически представляет собой определение отношений между подлежащим (субъектом) и сказуемым (предикатом), а также их общее отношение к тому, что они выражают в действительности, и формируют основное грамматическое свойство предложения – его суть, предикативность. Семантические связи между словами прослеживаются в разрезе сформировавшихся словосочетаний.

В формализованном виде характеристики каждого слова можно представить как одномерный массив:

, (9)

где даны грамматические характеристики, обозначающие: – часть речи (существительное, прилагательное, числительное, местоимение, глагол, причастие, деепричастие, наречие, предлог, союз или частица соответственно); – падеж; – число; – род; – время; – способ действия; – лицо.

Таким образом, каждое слово рассматриваемого предложения характеризуется набором цифр, например, если слово Si имеет характеристики {1, 1, 1, 1, 0, 0, 3}, значит, это существительное в именительном падеже, в единственном числе, мужского рода, третьего лица.

Для того чтобы проследить связи между словами, используется система продукций, в которую входят формализованные правила формирования словосочетаний типа:

(10)

Это правило читается следующим образом: «Если два слова, которые рассматриваются, употреблены в одном падеже, роде, числе и лице, причем первое из них прилагательное, а второе существительное, то слова образуют словосочетание». Примером может быть словосочетание «информационная система». Такие правила дают возможность установить парадигматические отношения между словами предложений естественного языка.

Верификацией предложенной идеи представления текстовой информации в виде логико-лингвистических моделей унифицированной формы является интеллектуальная система автоматизированного формирования логико-лингвистических моделей (САФЛЛМ), в основе которой лежат принципы работы экспертных систем. САФЛЛМ не базируется на стандартных шаблонах, в которых содержатся основные слова, касающиеся конкретной предметной области, например медицины, диагностирования, продаж и т.д., поэтому пользователь не должен ограничивать себя в употреблении определенной терминологии. Пример преобразования предложения естественного языка «Вона ходить до дитячого садочку» в формулу:

Всего предложений 1

Ходить(Вона..[садочку{дитячого}])

Pr(x0.[Do1{ Oz1}]

Здесь Pr – «ходить» – предикат, который отображает смысл предложения; x0 – «вона» – предикатная переменная (субъект), находится в пре- дикативном отношении с Pr; Do1 – «садочку» – предикатная переменная (аргумент, объект); Oz1 – «дитячого» – предикатная константа, указывающая на признак объекта.

Содержание высказывания – это вся семантико-прагматическая информация, которую пользователь передает на вход системы. Лингвистический процессор САФЛЛМ осуществляет анализ текстовой информации, выделяя сущности, свойства и концептуальные связи между ними, что обеспечивается наличием трех баз знаний, которые содержат правила формирования словосочетаний, определения синтаксических ролей и типов предложений.

Полученные вследствие автоматизированного построения логико-лингвистические модели решают проблему структурной лингвистики – за- дачу описания того, как произвольный текст, написанный на естественном языке, может быть порожден единицами речи с помощью конечного набора формальных правил касательно действий с этими единицами (словами).

Построение таких моделей в дальнейшем может использоваться для сравнения текстов, в машинном переводе, при извлечении знаний из текстовой информации, а также для поиска в них противоречий. Получение практических результатов работы САФЛЛМ дает возможность выдвигать гипотезы о том, как порождается язык человеком. Произвольная модель может рассматриваться как кибернетическое устройство, которое строится по определенным правилам цепочки элементов. Очевидно, что человек также руководствуется конкретными правилами [3]. Поэтому, если определенная модель достаточно простым и логическим способом порождает фразы естественного языка, можно допустить, что аналогично работает и мозг человека.

Литература

1. Шiроков В.А., Бугаков О.В., Грязнухiна Т.О. Корпусна лінгвістика. К.: Довіра, 2005. 471 с.

2. Звягинцев В.А. Новое в зарубежной лингвистике. Лингвистическая семантика. М.: Прогресс, 1981. 566 с.

3. Вавіленкова А.І. Обробка текстової інформації через призму аналізу та інтерпретації елементів формальної системи // Системи підтримки прийняття рішень. Теорія і практика: зб. доп. наук.-практ. конф. з міжнар. участю. Київ: ІПММС НАНУ, 2009. С. 198–201.

4. Вавіленкова А.І. Логіко-лінгвістична модель як засіб відображення синтаксичних особливостей текстової інформації // Математичні машини та системи. 2010. № 2. С. 134–137.

5. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М.: Наука. Физматлит, 1985. 144 с.

Permanent link: http://swsys.ru/index.php?id=3316&lang=en&page=article	Print version Full issue in PDF (9.63Mb) Download the cover in PDF (1.26Мб)
The article was published in issue no. № 4, 2012 [ pp. 87-90 ]

Perhaps, you might be interested in the following articles of similar topics:

Back to the list of articles

Software & Systems

Journal influence

Bookmark

Next issue

Issues

Extracting meaning from sentences of natural language