Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В Московском государственном университете им. М.В. Ломоносова предложена структура компьютерного словаря сочетаемости, содержащего описания различных типов ограничений на сочетаемость слов
11.05.2012Задача автоматического анализа текстов на естественном языке возникает в самых различных приложениях: машинный перевод, информационный поиск, извлечение фактов из текстов, автоматическое реферирование и др. Для большинства приложений выполнения поверхностного анализа, основанного, например, на поиске ключевых слов, недостаточно – требуется учитывать различные лингвистические явления, в том числе синтаксические отношения. В данной работе рассматривается проблема учета ограничений на сочетаемость слов в процессе автоматического выделения синтаксических отношений в тексте (синтаксического анализа). Описанный в статье подход к решению этой проблемы реализован в системе автоматического синтаксического анализа Treeton, создаваемой на факультете ВМК МГУ.
Алгоритм синтаксического анализа, реализованный в Treeton, базируется на идее эвристического перебора, на каждом шаге которого строятся новые синтаксические связи между словами или словосочетаниями анализируемого предложения. С помощью эвристической функции оцениваются как окончательные структуры, покрывающие анализируемое предложение целиком, так и промежуточные, порождаемые на каждом шаге анализа. Отметим, что эвристическая функция в Treeton также называется штрафной, а ее значение – штрафом синтаксической структуры, поскольку это значение тем больше, чем серьезнее нарушение языковых норм структурой. Использование штрафной функции позволяет отбрасывать заведомо ошибочные гипотезы на ранних этапах перебора, а также упорядочивать результаты работы анализатора.
Подробное описание дается в статье «Сочетаемостные ограничения в системе автоматического синтаксического анализа», авторы: Мальковский М.Г., Арефьев Н.В. (Московский государственный университет им. М.В. Ломоносова).