Формализация лексико-синтаксической информации для распознавания регулярных конструкций естественного языка

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Формализация лексико-синтаксической информации для распознавания регулярных конструкций естественного языка

Статья опубликована в выпуске журнала № 4 за 2008 год.
Аннотация:
Abstract:

Авторы: Большакова Е.И. (eibolshakova@gmail.com) - Московский государственный университет им. М.В. Ломоносова, кандидат физико-математических наук, Васильева Н.Э. () -
Ключевые слова: искусственный интеллект, обработка текста, алгоритм, распознование, лингвистика
Keywords: artificial intelligence, , algorithm, ,
Количество просмотров: 15832	Версия для печати Выпуск в формате PDF (8.40Мб)

Решение многих прикладных задач автоматической обработки текста на естественном языке (реферирование и аннотирование, извлечение знаний из текстов, литературно-научное редактирование) требует учета различных особенностей обрабатываемых текстов: лексико-фразеологических, синтаксических, логико-композиционных. Этот учет позволяет достичь приемлемого уровня решения указанных прикладных задач, базируясь на поверхностном синтаксическом анализе текста и избегая высокозатратного полного синтаксического разбора предложений [1,2].

В целом языковая специфика определяется функциональным стилем, жанром и конкретной предметной областью текста. Так, к характерным особенностям научно-технического стиля относится не только широкое использование специальных терминов, но и особый способ изложения – рассуждение, призванное объяснить и обосновать полученные результаты. К типичным шагам рассуждения относятся введение термина, приведение фактов и доказательств, подведение итогов и др. Эти шаги организуются в тексте при помощи общенаучных слов и выражений (определим, как; в заключение; по причине того, что и т.д.), из которых формируются фразы-клише научной прозы: будем далее считать, из вышесказанного следует, как показал проведенный опыт и т.п. [3].

Для автоматического распознавания в текстах подобных языковых выражений недостаточно обычной словарной информации – необходимо взаимосвязанное представление характеризующей их лексической и синтаксической информации. Авторы статьи предложили записывать эту информацию в виде специальных декларативных структур, названных лексико-синтаксическими шаблонами [4]. По сути лексико-синтаксический шаблон – это структурный образец языковой конструкции, отображающий ее лексические и поверхностно-синтаксические свойства. Концепция лексико-синтаксического шаблона идейно близка к работе [5], однако развита с учетом специфики русского языка и воплощена в специально разработанном языке шаблонов LSPL. На базе этого языка была проведена формализация характерных для научно-технических текстов конструкций определений новых терминов.

Задачи формализации характерных языковых конструкций

В ходе разработки процедур автоматической обработки русских научно-технических текстов были изучены синтаксические и лексико-фразеологические особенности текстов этого стиля, взятых из разных предметных областей. Это позволило обнаружить множество типичных для научной прозы выражений (под T будем понимать D; предположим, что S и т.д.) и показало их важность для организации связного текста. Такие конструкции следует формализовать и представить в словаре системы автоматической обработки научно-технического текста для реализации более полного и глубокого терминологического анализа, а также распознавания логико-композиционной структуры текста.

Было выявлено, что регулярные языковые конструкции содержат фиксированные лексемы и имеют определенную синтаксическую структуру. Для автоматического распознавания такие выражения удобно описать в виде специальных лексико-синтаксических шаблонов, каждый из которых содержит конкретные словоформы (понимать, что; предположим и т.п.) и свободные места (слоты), заполняемые определенными синтаксическими конструкциями. К примеру, шаблон под Тins будем понимать NGacc содержит встречающиеся вместе слова будем и понимать; элемент Тins обозначает новый вводимый термин, который должен быть выражен согласованной (в роде, числе и падеже) именной группой с главным словом в форме творительного падежа; элемент NGacc заполняется согласованной именной группой в винительном падеже, которая выражает определение или пояснение вводимого термина. Указанный шаблон описывает, в частности, такую фразу: Под семантической связью будем понимать отношение понятий в понятийной системе предметной об- ласти.

Формализация каждой регулярной конструкции в виде шаблона предполагает определение множества входящих в нее лексем и их возможных грамматических форм, а также выявление необходимых синтаксических условий. Эта работа, в первую очередь, была проделана для конструкций определений новых (авторских) терминов. Вручную просмотрено около 70 научно-технических текстов, и из них выделены фразы, которые использовались при определении нового термина. После их предварительного анализа получено первоначальное множество конкретных лексем, входящих в конструкции определений, что позволило в дальнейшем с помощью обычного текстового редактора выявить новые фразы определений терминов.

Так как число найденных разнообразных фраз определений терминов оказалось довольно большим, они были сгруппированы по используемым в них одной-двум общим лексемам, и далее полученные группы фраз рассматривались по отдельности, что позволило выявить их грамматические особенности и формализовать группы в виде набора лексико-синтаксических шаблонов. Этот набор покрывает в совокупности примерно 60–70 % определений терминов, встречающихся в русских научно-технических текстах.

Ясно, что выявление и формализация даже базового множества характерных для научной прозы конструкций – достаточно трудоемкая работа и желательно ее автоматизировать. Существенную помощь могло бы оказать специальное программное средство, позволяющее автоматически находить в текстах фрагменты с исследуемыми конструкциями по частичному описанию их лексико-синтаксических свойств. Такое описание можно было бы задавать в виде лексико-синтаксического шаблона, используя его как отправную точку для дальнейшего уточнения возможных вариантов, состава и синтаксических особенностей формализуемых конструкций.

Одной из задач авторских исследований стала разработка формального языка записи шаблонов, который мог бы использоваться как способ формальной записи специфических языковых конструкций для их представления в системе автоматической обработки научно-технических текстов и как язык записи запросов на поиск исследуемых конструкций в текстах, формулируемых на основе входящих в них слов и несложных грамматических условий.

При решении этой задачи в создаваемый язык отбирались выразительные средства, позволяющие достаточно гибко записывать лексикографические единицы (символьные строки, словоформы, лексемы) и их морфологические характеристики, причем в как можно более простой и явной форме. Учитывалось то, что включаемые в язык средства записи грамматических характеристик должны быть понятны не только лингвистам, но и другим специалистам, участвующим в разработке шаблонов.

Другое существенное требование к языку – возможность явного задания связи синтаксического согласования (типичной для русских именных словосочетаний), которая отсутствует в известных формальных языках описания специфических языковых конструкций [1].

Основные возможности языка LSPL

Лексико-синтаксический шаблон состоит из имени и тела, разделяемых знаком равенства. В общем случае тело шаблона определяет последовательность элементов, из которых должна состоять описываемая языковая конструкция, и задает условия грамматического согласования этих элементов. К примеру, шаблон AN=AN имеет имя AN, тело из элементов A, N и условия согласования A=N. Этот шаблон описывает именную группу из прилагательного (A) и существительного (N), согласованную по всем их морфологическим параметрам (род, число, падеж).

Основными элементами шаблона являются элемент-строка и элемент-слово. Элемент-строка позволяет описать в виде символьной строки (в двойных кавычках) конкретную словоформу, сокращение или знак препинания: “рамой”, “то есть”, “–”.

Элемент-слово соответствует отдельному слову описываемой языковой конструкции, для которого в общем случае указываются:

· часть речи (используются известные символьные обозначения: N – существительное, V – глагол, A – прилагательное, Pr – предлог, Pn – местоимение и т.д.);

· конкретная лексема, определяющая множество всех словоформ слова;

· значения морфологических параметров слова, сужающие множество допустимых словоформ (параметры записываются в угловых скобках после лексемы; их обозначения: c – падеж, n – число, g – род, t – время, p – лицо и т.д.).

К примеру, элемент-слово V<пониматься; t=pres, p=3, m=ind> описывает глагол пониматься в формах настоящего времени 3-го лица изъявительного наклонения, то есть задает его словоформы понимается или понимаются. При задании элемента-слова конкретная лексема и значения морфологических параметров могут быть не указаны, что позволяет задать любую словоформу данной лексемы (например N<файл>) или же произвольное слово определенной части речи с нужными грамматическими характеристиками (например, A<; c=ins, n=sing> задает любое прилагательное в форме творительного падежа единственного числа).

В общем случае в шаблон могут входить как несколько элементов-слов разных частей речи, так и несколько разных слов одной части речи; для их различения можно использовать числовые индексы, например, шаблон NN=N1 N2<; c=gen> включает два различных существительных N1 и N2, причем второе в родительном падеже.

Условия согласования описывают связь синтаксического согласования отдельных элементов шаблона и относятся ко всему шаблону в целом. Они задаются в угловых скобках после описания всех элементов шаблона в виде равенства значений согласуемых морфологических признаков. К примеру, шаблон PnV=PnV описывает согласованные (в числе и роде) пары из местоимения и глагола: мы введем; они разработали; я ищу и т.д.

В шаблоне может быть задано повторение элементов, которое записывается с помощью фигурных скобок: в них указываются элементы, встречающиеся в тексте несколько раз подряд. Например, повторение {N<; c=gen>} задает цепочку из идущих подряд существительных в родительном падеже. Если известны ограничения на количество одинаковых элементов, их можно указать в шаблоне: запись {A}<1,3>N задает последовательность из одного, двух или трех прилагательных и существительного.

Язык LSPL позволяет включать в шаблон опциональные элементы (в квадратных скобках): например, элемент [“не”] указывает необязательность вхождения частицы не в описываемое языковое выражение. Допустима и запись альтернативных вариантов некоторой языковой конструкции, для чего используется символ |. К примеру, шаблон AP=A|Pa описывает понятие адъектива, то есть прилагательного (A) или причастия (Pa).

Лексико-синтаксический шаблон может включать параметры, которые записываются в круглых скобках после всех его элементов и фиксируют те или иные неконкретизированные (то есть не имеющие значения) морфологические параметры его элементов. Например, параметрами шаблона AAN= =A1A2N(N) являются все морфологические характеристики элемента-слова N (шаблон задает именную группу, согласованную по всем общим для ее элементов морфологическим параметрам).

В качестве элемента шаблона может быть использован другой, ранее описанный шаблон, то есть экземпляр шаблона. Он задается именем используемого шаблона и последующими конкретизациями его характеристик-параметров (в угловых скобках). К примеру, шаблон TD17=“далее”“–”NG<; c=nom> описывает языковые фразы, в которых после слова “далее” через тире идет именная группа (NG) в именительном падеже (например, далее – базовый алгоритм). В этом шаблоне как экземпляр использован шаблон с именем NG, для которого конкретизирован падеж – именительный (c=nom). В свою очередь, шаблон NG={A1}N1{N<; c=gen>}(N1) состоит из существительного N1 (главного слова), последовательности согласованных с ним прилагательных {A1} и цепочки существительных в родительном падеже {N<; c=gen>} (например, восходящий процесс порождения элементов решетки). Параметр шаблона N1 означает, что группа NG наследует весь набор морфологических характеристик главного существительного N1, позволяя использовать параметр при конкретизации морфологических характеристик группы NG в шаблоне TD17.

Таким образом, при создании шаблона сложной языковой конструкции имеет смысл выделить ее составные части и описывать их по очереди в виде шаблонов.

Использование LSPL-шаблонов языковых конструкций

Разработанный язык был применен в первую очередь для создания шаблонов регулярно используемых в научно-технических текстах фраз – определений новых терминов. В таблице приведены примеры полученных шаблонов, иллюстрирующие декларативный характер языка и его выразительные возможности (последний пример получен при формализации типичных фраз методических документов деловой прозы). Во всех примерах участвует экземпляр вышеописанного шаблона NG, который представляет собой один из наиболее распространенных синтаксических образцов терминов научно-технической и деловой прозы. В шаблоне TD18 (четвертый пример) использован экземпляр шаблона с именем Ab, задающего акроним (то есть инициальную аббревиатуру).

№ примера	Шаблон	Пример фразы
1	TD2=NG1<; c=ins> V<называться; t=pres, p=3, m=ind> NG2<; c=nom> [PaG]	Трансформационным признаком называется приоритетный признак, выделяющий некоторые именные группы в предложении
2	TD6 = NG1<; c=acc> [“мы”] “будем” “называть” NG2<; c=ins>	Поэтому эту операцию будем называть правилом генерализации примеров
3	TD25 = “под” NG1<; c=ins> V<пониматься; t=pres,p=3, m=ind> NG2<;c=nom>	…под синтаксемой понимается такое дерево, в корне которого стоит существительное…
4	TD18 = NG “(далее” [“–”]Ab<;c=nom>“)”	…все концепты области-источника (далее ОИ),…
5	AD1 = NG1<;c=nom> Pa<разработанный; f=short> “в” “целях” NG2<; c=gen>	Методика планирования себестоимости услуг разработана в целях обеспечения единства состава и классификации затрат…

Схема наложения шаблона

На основе лексико-синтаксических шаблонов может выполняться распознавание в тексте регулярных конструкций и выделение их значимых частей. Рассмотрим пример обработки фразы Трансформационным признаком называется приоритетный признак, выделяющий некоторые именные группы в предложении (см. рис.). Во фразе встречается слово называется, входящее в состав нескольких шаблонов, но поскольку перед ним расположена согласованная именная группа с главным словом в творительном падеже, а после него следует именная группа в именительном падеже, будет выбран шаблон, представленный в первой строке таблицы. После успешного наложения шаблона (то есть проверки записанных в нем синтаксических условий) из фразы будут извлечены термин трансформационный признак и его определяющее выражение.

Язык LSPL был применен при разработке словарных компонентов системы автоматической обработки научно-технических текстов для формального описания регулярных языковых конструкций определений новых (авторских) терминов; синтаксических образцов научно-технических терминов и их синонимичных вариантов (например, библиотека стандартных программ – библиотека программ); случаев объединений в тексте нескольких терминов (к примеру, фрагмент ЭВМ второго, третьего и четвертого поколений представляет объединение терминов ЭВМ второго поколения, ЭВМ третьего поколения и ЭВМ четвертого поколения).

В целом язык LSPL пригоден для задания любой лексической и поверхностно-синтаксической информации, на основе которой можно распознавать регулярные языковые конструкции. Представление такой информации в системах автоматической обработки текстов позволит осуществлять более широкий спектр интеллектуальных операций над текстом. Авторы завершают разработку библиотеки программных компонентов, поддерживающих распознавание в тексте на естественном языке конструкций по заданным LSPL-шаблонам.

Список литературы

1. Ермаков А.Е., Плешко В.В., Митюнин В.А. RCO Pattern Extractor: компонент выделения особых объектов в тексте. // Сб. тр. XII Междунар. науч. конф.: Информатизация и информационная безопасность правоохранительных органов. – М.: 2003. – С. 312–317.

2. Хорошевский В.Ф. OntosMiner: семейство систем извлечения информации из мультиязычных коллекций документов. // Девятая национ. конф. по искусствен. интел. с междунар. участ.: КИИ-2004. – М.: Физматлит, 2004. – Т. 2.

3. Bolshakova E.I. Lexicon of Common Scientific Words and Expressions for Automatic Discourse Analysis of Scientific and Technical Texts. // Proceedings of the XIII-th Int. Conference «Knowledge-Dialogue-Solution», V. 2. Sofia: FOI ITHEA, 2007, pp. 551–558.

4. Большакова Е.И., Васильева Н.Э., Морозов С.С. Лексико-синтаксические шаблоны для автоматического анализа научно-технических текстов. // Тр. Десятой национ. конф. по искусствен. интел. с междунар. участ. КИИ-2006. – М.: Физматлит, 2006. – Т. 2. – С. 506–524.

5. Hearst M.A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, pp. 131–151.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=1632	Версия для печати Выпуск в формате PDF (8.40Мб)
Статья опубликована в выпуске журнала № 4 за 2008 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Формализация лексико-синтаксической информации для распознавания регулярных конструкций естественного языка