В современном мире наблюдается колоссальный рост количества информации на естественном языке. Разработка алгоритмов и систем автоматического реферирования, поиска и извлечения информации, классификации и кластеризации текстовых документов по-прежнему является сложной задачей.
Непрерывное увеличение интенсивности потока текстовой информации делает все более важной задачу семантического сжатия текстов. Существует много путей ее решения, которые довольно четко подразделяются на три направления: экстракция, абстракция и гибридный подход. Экстракция – извлечение из исходного текста наиболее информативных предложений, то есть формирование квазиреферата. Этот способ иногда называют поверхностным. К до- стоинствам экстрагирующих методов можно отнести независимость от предметной области, а также сравнительную простоту разработки: не требуются создание обширных баз знаний и проведение детального лингвистического анализа текста. К недостаткам экстрагирующих методов можно отнести то, что полученные рефераты часто являются бессвязными. Абстракция – генерация текста реферата с учетом морфологии, синтаксиса, семантики, благодаря чему формируется логически и по смыслу связный текст. Этот способ называют глубинным. Преимуществом абстрагирующих методов является получение реферата более высокого качества, чем при применении экстрагирующих методов. К недостаткам относятся сложность практической реализации методов и необходи- мость сбора большого количества лингвистических знаний.
Для преодоления недостатков абстрагирующих и экстрагирующих методов разрабатываются гибридные методы автоматического реферирования, сочетающие в себе вышеуказанные подходы. Например, сначала происходят извлечение наиболее значимых фрагментов и их последующая обработка, потом слияние предложений, удаление неинформативных частей и т.д. Сложность при разработке гибридных методов заключается в выборе наиболее удачного сочетания методик генерации и извлечения. Гибридные методы по сравнению с абстрагирующими проще в разработке, а по сравнению с чисто экстрагирующими методами могут обеспечить лучшее качество конечного результата.
Например, в системе COMPENDIUM [1] гибридный подход реализуется следующим образом. На вход подается реферат, составленный по экстрагирующей методике. Для этого реферата строится взвешенный граф, вершины которого представлены словами, а дуги отражают отношения смежности между словами. Вес дуг определяется по алгоритму PageRank. Затем между вершинами графа стоится кратчайший путь с помощью алгоритма Дейкстры, таким образом, создается набор предложений-кандидатов. Следующий этап заключается в фильтрации неправильных путей. Авторы выделили критерии правильных предложений: длина предложения не менее трех слов, в каждом предложении должен быть глагол, предложение не должно оканчиваться на артикль, предлог, местоимение или союз. На последнем этапе происходит выбор предложений для включения в новый реферат из реферата, составленного по экстрагирующей методике, или из набора предложений-кандидатов.
Наглядным примером гибридного способа построения системы автореферирования является многоязычная система SUMMARIST, описанная в [2]. Эта система сочетает в себе методы понятийного уровня знаний о мире, методы информационного поиска и статистические методы. Алгоритм состоит из трех этапов: идентификация темы, интерпретация и генерация. SUMMARIST формирует аннотации на пяти языках: английском, японском, испанском, индонезийском и арабском.
Также существует гибридная система SumUM [3], которая генерирует рефераты для научно-технических документов. Авторы про- вели исследование корпуса рефератов, выполненных людьми, и выявили ряд трансформаций, которые применяли референты, например, слияние информации из различных частей документа, перефразирование оригинала.
Подход авторов [4] к реферированию основан на поверхностном анализе исходного документа, извлечении информации определенного вида и выполнении генерации текста. В системе также используются маркировщик частей речи (лингвистические и концептуальные шаблоны, заданные регулярными выражениями), синтаксические категории, концептуальный словарь.
В работе [5] предложен метод реферирования, основанный на преобразовании текста в концепты с последующим представлением документа в виде графа. Метод использует дополнительные ресурсы – англоязычный тезаурус медико-биологической области UMLS [6] и программу MetaMap [7] для преобразования текста в концепты из этого тезауруса. Метод заключается в выполнении следующих шагов: представление документа в виде графа, кластеризация концептов, выбор предложений. Прежде всего документ представляется в виде графа, где узлы являются концептами тезауруса UMLS, а ребра обозначают отношения между узлами. Для этого все предложения документа обрабатываются программой Meta- Map, концепты UMLS дополняются своими гиперонимами. Далее каждому узлу присваивается оценка, прямо пропорциональная глубине иерархии концептов. После этого все графы предложений объединяются в один граф документа. Затем выполняется кластеризация концептов. Каждый кластер представляет собой набор близких по значению концептов и может рассматриваться как тема документа. Процедура выбора предложений основана на сходстве между кластерами и предложениями. Для выбора предложений авторы используют несколько эвристик.
Естественный язык очень сложен для автоматической обработки, поэтому для улучшения качества получаемых результатов исследователи, как правило, стремятся решать задачи реферирования для определенных предметных областей. Авторы работы [8] исследуют задачу реферирования для текстов судебных решений. Реферированию юридических текстов посвящены, например, работы [9, 10]. Авторы [11] предлагают подход к реферированию оценочных суждений или комментариев пользовате- лей Интернета. Они собрали корпус оценочных комментариев пользователей из отзывов на сайтах Amazon.com, WhatCar.com и социальной сети Twitter, работали с английским языком, тексты отзывов были посвящены сотовым телефонам и автомобилям. Собранный корпус был вручную размечен экспертом, который определял тональность комментария (отрицательный, нейтральный, положительный) и интенсивность оценки.
Авторы работы [12] предлагают гибридный подход к реферированию текстов патентов на английском, французском и немецком языках. Предложенный в данной работе метод является гибридным. За основу взят дискурсивный анализ текста. Все эксперименты проводились с научно-техническими текстами на русском языке.
Дискурсивный анализ используется довольно широко для решения различных задач компьютерной лингвистики. Подробный обзор литературы, представленный в работе [13], показывает, что в большинстве случаев дискурсивный анализ способен улучшить качество автоматических систем на 4–44 % в зависимости от конкретной задачи.
Система автореферирования научных статей, опирающаяся на дискурсивный анализ, описана в [14]. В ней определены семь риторических категорий. Автор работы [15] применил теорию риторических структур для создания графического представления документа. На основе структурного анализа текста вычисляются веса предложений, из которых в итоге получается краткая аннотация. В работе [16] обсуждается создание реферата, содержащего не только информацию из одного конкретного документа, но и дополнительные знания из других документов, схожих по тематике.
Как видно, исследования в этой области для английского языка достигли достаточно высокого уровня, но для текстов на русском языке данная область изучена сравнительно мало. Авторам статьи известны лишь диссертационные исследования российских ученых. Так, Тревгода С.А. разработал систему, основанную на правилах вывода и узкоспециализированном словаре ключевых фраз. Гибридный подход, предложенный Осмининым П.Г., реализован в системе, ориентированной на автоматический перевод. Система построена для текстов по теме «математическое моделирование».
В данной статье описана система, реализующая предложенный авторами метод авторе- ферирования, приведены результаты проводи- мых экспериментов и дана оценка качества работы.
Риторический анализ и описание преобразований текста
Теория риторических структур – одна из наиболее широко используемых теорий организации текстов [17]. Согласно ей, изначально текст делится на неперекрывающиеся фрагменты, а именно на элементарные дискурсивные единицы (ЭДЕ). Последовательные ЭДЕ связаны между собой риторическими отношениями.
В теории риторических структур определяются два типа ЭДЕ: ядро, считающееся наиболее важной частью высказывания, и сателлит, поясняющий ядро и считающийся вторичным. Ядро содержит основную информацию, сателлит – дополнительную информацию о ядре. Сателлит часто непонятен без ядра, а выражения, в которых сателлит удален, могут быть понятны лишь в некоторой степени.
Согласно данной теории, любой текст может быть представлен в виде графа G = , узлами V которого являются элементарные дискурсивные единицы, а ребрами E – отношения между ними. При этом независимо от уровня иерархии узлы графа будут связаны определенным набором отношений как на уровне предложений, так и выше отдельного предложения. Роль таких связей играют риторические отношения (рис. 1).
В предлагаемом подходе риторический анализ используется на этапе построения квазиреферата. Под квазирефератом понимается перечень наиболее значимых предложений текста. Упрощенно этот этап можно описать следующим образом. Сначала необходимо найти в тексте ядерные ЭДЕ. Далее следует преобразовать высказывания, содержащие эти ЭДЕ, чтобы получился сокращенный текст, являющийся промежуточным между исходным текстом и готовой аннотацией. Для определения границ ЭДЕ используются дискурсивные маркеры. Маркеры (дискурсивные маркеры) – это слова или фразы, которые не имеют реального лексического значения, но зато обладают важной функцией формирования разговорной структуры, передавая намерения говорящего. В зависимости от разных маркеров преобразования текста будут разными, например, удаление предыдущего фрагмента или удаление последующего фрагмента вместе с маркером. На рисунках 2 и 3 показан фрагмент текста до преобразования и после него.
Общее описание системы
Пусть входной текст состоит из набора предложений T = [s1, …, sp].
Задача реферирования в том, чтобы найти такое преобразование текста T в реферат Ť, что Ψ: T → Ť, | T | > | Ť | ≈ 250 слов. Тогда алгоритм построения реферата можно записать в виде последовательных этапов.
1. Предобработка текста. На этапе предварительной обработки из исходного текста удаляются все изображения, таблицы, формулы, информация об авторах и библиографические ссылки.
2. Построение тематических моделей, извлечение ключевых слов и многословных терминов. Тематическое моделирование заключается в построении модели некоторой коллекции текстовых документов. Иначе говоря, тема – это набор слов, тематическая модель – набор тем, упорядоченных по степени вероятности. О них заранее ничего неизвестно, они определяются в результате работы алгоритма (рис. 4).
Униграммная тематическая модель – модель, в которой темы описаны однословными терминами. Многословное выражение (многословный термин) – выражение, состоящее как минимум из двух слов и являющееся синтаксически или семантически уникальным по своей природе. Расширенная тематическая модель – модель, в которой темы описаны не только однословными, но и многословными терминами. Схематично эти понятия представлены на рисунке 5. Для определения тем текстов авторы применяли метод аддитивной регуляризации тематических моделей ARTM (Additive Regularization for Topic Modeling [18]). Причины выбора и результаты сравнения его с другими методами описаны в работе [19]. Для извлечения многословных терминов был использован алгоритм RAKE (Rapid Automatic Keyword Extraction [20]).
3. Риторический анализ и преобразование текста. На этом шаге обнаруживаются предложения, содержащие дискурсивные маркеры, и выполняются определенные преобразования текста, в результате чего формируется квазиреферат:
В действительности квазиреферат состоит не из предложений в обычном понимании, а из некоторых фрагментов, представляющих собой ЭДЕ. Однако для упрощения изложения в дальнейшем, когда речь идет о квазиреферате, авторы используют термин «предложение».
4. Оценка весов предложений. При вычислении веса каждого предложения квазиреферата учитывается наличие в этом предложении ключевых слов (или многословных терминов), дискурсивных маркеров, а также некоторых слов, характерных для научных текстов. В итоге вес каждого предложения sʹ вычисляется по следующей формуле:
где W = {w1, …, wL} – веса ключевых слов и многословных выражений (| W | = L) (веса wi вычисляются как частоты ключевых слов (или многословных терминов) в тексте); V = {v1,, …, vM } – веса значимых глаголов и существительных, часто встречающихся в научных текстах (| V | = M) (веса vj определяются из лингвистической базы знаний); D = {d1, …, dN} – веса дискурсивных маркеров (| D | = N) (веса dk определяются из лингвистической базы знаний).
5. Выбор наиболее важных предложений. Из полученного набора предложений (см. п. 3) для реферата отбираются только те предложения, вес которых (см. п. 4) превышает заданную пороговую величину β:
, где β = 0,15 – константа, которая определяется эмпирически и от которой зависит, насколько сильно будет сокращен текст.
6. Сглаживание – процедура преобразования текста, позволяющая получать связный текст из разрозненных фрагментов и при необходимости дополнительно сокращать его. Например, в процессе сглаживания заменяются или удаляются некоторые слова или словосочетания, удаляются предложения, длина которых меньше 5 слов, и т.д.
В ходе данной работы была разработана система Scientific Text Summarizer. На рисунке 6 представлена ее блок-схема.
Оценка результатов
Экспертная и автоматическая оценка результатов автореферирования выполнялась на коллекции объемом 1 200 научных статей на русском языке.
Экспертная оценка показала высокие результаты. Эксперт – это человек, который оценивает соответствие содержания исходной статьи тексту автоматически полученной аннотации. 86,43 % полученных рефератов совпали с авторскими рефератами по содержанию или незначительно отличались от них, 13,57 % представляли собой некорректно отобранные фрагменты текстов. Считается, что экспертная оценка зависит от конкретного эксперта, а зна- чит, является субъективной, поэтому наряду с экспертной проводилась автоматическая оценка.
Автоматическая оценка. Качество рефератов оценивалось при помощи точности, полноты и F-меры, введенных аналогично работе [21]. Они вычислялись по следующим формулам:
Здесь N1 – все ключевые слова, многословные термины, значимая лексика из научных текстов, маркеры, содержащиеся в автоматически полученной аннотации; N2 – аналогичное множество для авторской аннотации.
Результаты автоматической оценки качества автореферирования представлены в таблице 1, а оценка скорости работы алгоритма для двух коллекций на RAM 6 Гб, Intel Core i5-4210U 1.7 GHz – в таблице 2.
Заключение
Преимуществами предложенного метода автореферирования являются довольно высокие качество и скорость работы, а также наличие небольшого количества данных для обучения, а недостатком – необходимость ручной настройки лингвистической базы знаний. Следует отметить, что при наличии большого количества формул, рисунков, графиков метод будет работать хуже. По мнению авторов, улучшить предложенный в данной статье алгоритм можно за счет дополнения правил удаления менее важных предложений, увеличения количества шаблонов для сглаживания, расширения списка маркеров. В дальнейшем планируется провести эксперименты с текстами из различных научных областей на других языках.
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-07-01134.
Литература
1. Lloret E., Roma-Ferri M.T., Palomar M. COMPENDIUM: A text summarization system for generating abstracts of research papers. Data & Knowledge Engineering, 2013, vol. 88, pp. 164–175. DOI: 10.1007/978-3-642-22327-3_2.
2. Hovy E., Lin Ch.-Y. Automated text summarization and the SUMMARIST system. Proc. TIPSTER Text Program, 1998, pp. 197–214.
3. Saggion H., Lapalme G. Generating indicative-informative summaries with SumUM. Computational Linguistics, 2002, vol. 28, no. 4, pp. 497–526.
4. Foster G.F. Statistical Lexical Disambiguation. Master’s thes., 1991, 340 p.
5. Plaza L., Diaz A., Gervas P. Concept-graph based biomedical automatic summarization using ontologies. Proc. 3rd Textgraphs Workshop on Graph-Based Algorithms in Natural Language. Manchester, UK, 2008, pp. 53–56.
6. Unified Medical Language System (UMLS). 2016. URL: http://www.nlm.nih.gov/research/umls/ (дата обращения: 05.06.2019).
7. Aronson A.R. Effective mapping of biomedical text to the UMLS Metathesaurus: The MetaMap program. Proc. AMIA, 2001, pp. 17–21.
8. Farzindar A., Lapalme G. Legal text summarization by exploration of the thematic structures and argumentative roles. Proc. Text Summarization Branches Out Conf., ACL, Barcelona, Spain, 2004, pp. 27–38.
9. Galgani F., Compton P., Hoffmann A. Combining different summarization techniques for legal text. Proc. Workshop on Innovative Hybrid Approaches, EACL, Avignon, France, 2012, pp. 115–123.
10. Megala S., Kavitha A., Marimuthu A. Feature extraction based legal document summarization. Int. J. of Advance Research in Computer Science and Management Studies, 2014, vol. 2, iss. 12, pp. 346–352.
11. Lloret E., Boldrini E., Vodolazova T., Martínez-Barco P., Muñoz R., Palomar M. A novel concept-level approach for ultra-concise opinion summarization. Expert Systems with Applications, 2015, vol. 42, iss. 20, pp. 7148–7156. DOI: 10.1016/j.eswa.2015.05.026.
12. Brügmann S., Bouayad-Aghab N., Burga A., Carrascosa S., Ciaramella A., Ciaramella M., Codina-Filba J., Escorsa E., Judea A., Mille S., Müller A., Saggion H., Ziering P., Schütze H., Wanner L. Towards content-oriented patent document processing: Intelligent patent analysis and summarization. World Patent Information, 2015, vol. 40, pp. 30–42. DOI: 10.1016/j.wpi.2014.10.003.
13. Ананьева М.И., Кобозева М.В. Разработка корпуса текстов на русском языке с разметкой на основе теории риторических структур // Компьютерная лингвистика и интеллектуальные технологии: матер. Междунар. конф. 2016. URL: www.dialog-21.ru/media/3460/ananyeva.pdf (дата обращения: 05.06.2019).
14. Teufel S., Moens M. Summarizing scientific articles: experiments with relevance and rhetorical status. Computational Linguistics, 2002, vol. 28, pp. 409–445.
15. Bosma W. Query-based summarization using rhetorical structure theory. Proc. 15th Meeting of CLIN, Netherlands, 2005, pp. 29–44.
16. Huspi S.H. Improving single document summarization in a multi-document environment. RMIT Univ. Publ., Melbourne, Australia, 2017, 190 p.
17. Mann W., Thompson C. Rhetorical structure theory: Toward a functional theory of text organization. Text-Interdisciplinary J. for the Study of Discourse, 1988, vol. 8, no. 3, pp. 243–281. DOI: 10.1515/text.1.1988. 8.3.243.
18. Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. BigARTM: Open source library for regularized multimodal topic modeling of large collections. Proc. Int. Conf. AIST, Ekaterinburg, Russia, 2015, pp. 370–384. DOI: 10.25205/1818-7900-2018-16-2-5-18.
19. Батура Т.В., Стрекалова С.Е. Подход к построению расширенных тематических моделей текстов на русском языке // Вестн. НГУ. 2018. Т. 16. № 2. С. 5–18.
20. Rose S., Engel D., Cramer N., Cowley W. Automatic keyword extraction from individual documents. Text Mining: Applications and Theory. 2010, pp. 3–20. DOI: 10.1002/9780470689646.ch1.
21. Marcu D. Improving summarization through rhetorical parsing tuning. Proc. 6th Workshop on Very Large Corpora, Montreal, Canada, 1998, pp. 206–215.
References
- Lloret E., Roma-Ferri M.T., Palomar M. COMPENDIUM: A text summarization system for generating abstracts of research papers. Data & Knowledge Engineering. 2013, vol. 88, pp. 164–175. DOI: 10.1007/978-3-642-22327-3_2.
- Hovy E., Lin Ch.-Y. Automated text summarization and the SUMMARIST system. Proc. of the TIPSTER Text Program. 1998, pp. 197–214.
- Saggion H., Lapalme G. Generating indicative-informative summaries with SumUM. Computational Linguistics. 2002, vol. 28, no. 4, pp. 497–526.
- Foster G.F. Statistical Lexical Disambiguation. Master’s thes., 1991, 340 p.
- Plaza L., Diaz A., Gervas P. Concept-graph based biomedical automatic summarization using ontologies. Proc. 3rd Textgraphs Workshop on Graph-Based Algorithms in Natural Language. Manchester, UK, 2008, pp. 53–56.
- Unified Medical Language System (UMLS). 2016. Available at: http://www.nlm.nih.gov/research/umls/ (accessed June 05, 2019).
- Aronson A.R. Effective mapping of biomedical text to the UMLS Metathesaurus: The MetaMap program. Proc. AMIA. 2001, pp. 17–21.
- Farzindar A., Lapalme G. Legal text summarization by exploration of the thematic structures and argumentative roles. Proc. Text Summarization Branches Out Conf., ACL. Barcelona, Spain, 2004, pp. 27–38.
- Galgani F., Compton P., Hoffmann A. Combining different summarization techniques for legal text. Proc. Workshop on Innovative Hybrid Approaches, EACL. Avignon, France, 2012, pp. 115–123.
- Megala S., Kavitha A., Marimuthu A. Feature extraction based legal document summarization. Int. J. of Advance Research in Computer Science and Management Studies. 2014, vol. 2, iss. 12, pp. 346–352.
- Lloret E., Boldrini E., Vodolazova T., Martínez-Barco P., Muñoz R., Palomar M. A novel concept-level approach for ultra-concise opinion summarization. Expert Systems with Applications. 2015, vol. 42, iss. 20,
pp. 7148–7156. DOI: 10.1016/j.eswa.2015.05.026.
- Brügmann S., Bouayad-Aghab N., Burga A., Carrascosa S., Ciaramella A., Ciaramella M., Codina-Filba J., Escorsa E., Judea A., Mille S., Müller A., Saggion H., Ziering P., Schütze H., Wanner L. Towards content-oriented patent document processing: Intelligent patent analysis and summarization. World Patent Information. 2015, vol. 40, pp. 30–42. DOI: 10.1016/j.wpi.2014.10.003.
- Ananeva M.I., Kobozeva M.V. Development of the corpus of Russian texts with markup based on the Rhetorical Structure Theory. Proc. of the Intern. Conf. “Dialog 2016”. Moscow, Russia, 2016. Available at: www.dialog-21.ru/media/3460/ananyeva.pdf (accessed June 05, 2019) (in Russ.).
- Teufel S., Moens M. Summarizing scientific articles: experiments with relevance and rhetorical status. Computational Linguistics. 2002, vol. 28, pp. 409–445.
- Bosma W. Query-based summarization using rhetorical structure theory. Proc. 15th Meeting of CLIN. Netherlands, 2005, pp. 29–44.
- Huspi S.H. Improving single document summarization in a multi-document environment. RMIT Univ. Publ. Melbourne, Australia, 2017, 190 p.
- Mann W., Thompson C. Rhetorical structure theory: Toward a functional theory of text organization. Text-Interdisciplinary J. for the Study of Discourse. 1988, vol. 8, no. 3, pp. 243–281. DOI: 10.1515/text.1.1988.
8.3.243.
- Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. BigARTM: Open source library for regularized multimodal topic modeling of large collections Proc. Int. Conf. AIST. Ekaterinburg, Russia, 2015,
pp. 370–384.
- Batura T.V., Strekalova S.E. An approach to building extended topic models of russian texts. Vestn. NSU. Series: Information Technologies. 2018, vol. 16, no. 2, pp. 5–18 (in Russ.). DOI: 10.25205/1818-7900-2018-16-2-5-18.
- Rose S., Engel D., Cramer N., Cowley W. Automatic keyword extraction from individual documents. Text Mining: Applications and Theory. 2010, pp. 3–20. DOI: 10.1002/9780470689646.ch1.
- Marcu D. Improving summarization through rhetorical parsing tuning. Proc. 6th Workshop on Very Large Corpora. Montreal, Canada, 1998, pp. 206–215.