Журнал "Программные продукты и системы" - научные статьи в области информационных технологий

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№1

Ожидается:

16 Марта 2024

Выпуски

2024

все выпуски

все статьи

Подписаться на RSS

В Московском государственном университете им. М.В. Ломоносова предложена структура компьютерного словаря сочетаемости, содержащего описания различных типов ограничений на сочетаемость слов

11.05.2012

Задача автоматического анализа текстов на естественном языке возникает в самых различных приложениях: машинный перевод, информационный поиск, извлечение фактов из текстов, автоматическое реферирование и др. Для большинства приложений выполнения поверхностного анализа, основанного, например, на поиске ключевых слов, недостаточно – требуется учитывать различные лингвистические явления, в том числе синтаксические отношения. В данной работе рассматривается проблема учета ограничений на сочетаемость слов в процессе автоматического выделения синтаксических отношений в тексте (синтаксического анализа). Описанный в статье подход к решению этой проблемы реализован в системе автоматического синтаксического анализа Treeton, создаваемой на факультете ВМК МГУ.

Алгоритм синтаксического анализа, реализованный в Treeton, базируется на идее эвристического перебора, на каждом шаге которого строятся новые синтаксические связи между словами или словосочетаниями анализируемого предложения. С помощью эвристической функции оцениваются как окончательные структуры, покрывающие анализируемое предложение целиком, так и промежуточные, порождаемые на каждом шаге анализа. Отметим, что эвристическая функция в Treeton также называется штрафной, а ее значение – штрафом синтаксической структуры, поскольку это значение тем больше, чем серьезнее нарушение языковых норм структурой. Использование штрафной функции позволяет отбрасывать заведомо ошибочные гипотезы на ранних этапах перебора, а также упорядочивать результаты работы анализатора.

Подробное описание дается в статье «Сочетаемостные ограничения в системе автоматического синтаксического анализа», авторы: Мальковский М.Г., Арефьев Н.В. (Московский государственный университет им. М.В. Ломоносова).