Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В Институте систем информатики им. А.П. Ершова СО РАН совместно с Новосибирским государственным университетом и Евразийским национальным университетом им. Л.Н. Гумилева разработан оригинальный метод автореферирования научно-технических текстов на основе риторического анализа и с использованием методов тематического моделирования.
17.06.2020В современном мире наблюдается колоссальный рост количества информации на естественном языке. Разработка алгоритмов и систем автоматического реферирования, поиска и извлечения информации, классификации и кластеризации текстовых документов по-прежнему является сложной задачей.
Непрерывное увеличение интенсивности потока текстовой информации делает все более важной задачу семантического сжатия текстов. Существует много путей ее решения, которые довольно четко подразделяются на три направления: экстракция, абстракция и гибридный подход. Экстракция – извлечение из исходного текста наиболее информативных предложений, то есть формирование квазиреферата. Этот способ иногда называют поверхностным. К достоинствам экстрагирующих методов можно отнести независимость от предметной области, а также сравнительную простоту разработки: не требуются создание обширных баз знаний и проведение детального лингвистического анализа текста. К недостаткам экстрагирующих методов можно отнести то, что полученные рефераты часто являются бессвязными. Абстракция – генерация текста реферата с учетом морфологии, синтаксиса, семантики, благодаря чему формируется логически и по смыслу связный текст. Этот способ называют глубинным. Преимуществом абстрагирующих методов является получение реферата более высокого качества, чем при применении экстрагирующих методов. К недостаткам относятся сложность практической реализации методов и необходимость сбора большого количества лингвистических знаний.
Подробное описание дается в статье «Гибридный метод автореферирования научно-технических текстов на основе риторического анализа», авторы Батура Т.В. (Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск), Бакиева А.М. (Евразийский национальный университет им. Л.Н. Гумилева, Астана, Казахстан).