На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
09 Сентября 2024

В Институте систем информатики им. А.П. Ершова СО РАН совместно с Новосибирским государственным университетом и Евразийским национальным университетом им. Л.Н. Гумилева разработан оригинальный метод автореферирования научно-технических текстов на основе риторического анализа и с использованием методов тематического моделирования.

17.06.2020

В современном мире наблюдается колоссальный рост количества информации на естественном языке. Разработка алгоритмов и систем автоматического реферирования, поиска и извлечения информации, классификации и кластеризации текстовых документов по-прежнему является сложной задачей.

Непрерывное увеличение интенсивности потока текстовой информации делает все более важной задачу семантического сжатия текстов. Существует много путей ее решения, которые довольно четко подразделяются на три направления: экстракция, абстракция и гибридный подход. Экстракция – извлечение из исходного текста наиболее информативных предложений, то есть формирование квазиреферата. Этот способ иногда называют поверхностным. К достоинствам экстрагирующих методов можно отнести независимость от предметной области, а также сравнительную простоту разработки: не требуются создание обширных баз знаний и проведение детального лингвистического анализа текста. К недостаткам экстрагирующих методов можно отнести то, что полученные рефераты часто являются бессвязными. Абстракция – генерация текста реферата с учетом морфологии, синтаксиса, семантики, благодаря чему формируется логически и по смыслу связный текст. Этот способ называют глубинным. Преимуществом абстрагирующих методов является получение реферата более высокого качества, чем при применении экстрагирующих методов. К недостаткам относятся сложность практической реализации методов и необходимость сбора большого количества лингвистических знаний.

Подробное описание дается в статье «Гибридный метод автореферирования научно-технических текстов на основе риторического анализа», авторы Батура Т.В. (Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск), Бакиева А.М. (Евразийский национальный университет им. Л.Н. Гумилева, Астана, Казахстан).