Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В ИПС РАН усовершенствованы методы извлечения информации из текста на естественном языке
06.08.2009В различных системах обработки текста на естественном языке используется широкий спектр средств для представления лингвистической и предметно-ориентированной информации о тексте в целом или его фрагментах. Единого подхода к представлению разметки текста и информации о нем не существует.
В последнее десятилетие довольно широко используется способ представления информации о тексте, основанный на так называемых аннотациях, отличающийся простотой и высокой степенью универсальности. Сегодня многие системы обработки текста в той или иной степени используют идеи модели аннотаций.
Аннотация – объект, который приписывается фрагменту текста (например, слову, словосочетанию, предложению, ссылке на сущность предметной области и т.д.) и описывает свойства этого фрагмента. Аннотации разбиты на конечное множество классов. Каждый класс аннотаций описывает текст в определенном аспекте. Информация о фрагменте представлена значениями именованных атрибутов аннотации. Наборы классов и атрибутов аннотаций намеренно не специфицированы, чтобы можно было использовать произвольный набор обрабатывающих модулей и представлять необходимую лингвистическую и предметную информацию. Обмен данными между модулями тоже идет в терминах аннотаций: новые аннотации могут строиться на основании полученных на предыдущих этапах анализа.
Подробное описание дается в статье «Технология извлечения информации из текстов, основанная на знаниях», авторы: Кормалев Д.А., Куршев Е.П., Сулейманова Е.А., Трофимов И.В. (ИПС им. А.К. Айламазяна РАН, г. Переславль-Залесский).