Авторитетность издания
ВАК - К1
RSCI, ядро РИНЦ
Добавить в закладки
Следующий номер на сайте
№2
Ожидается:
14 Июня 2026
Способы представления текстовой информации при автоматизированном рубрицировании коротких текстовых документов
Methods of representing text information in automated rubrication of short text documents
Дата подачи статьи: 21.03.2017
УДК: 004.021
Статья опубликована в выпуске журнала № 4 за 2017 год. [ на стр. 678-683 ]Аннотация:Электронные сообщения граждан (жалобы, обращения, предложения и т.д.) с точки зрения возможности их автоматизированной обработки обладают рядом специфических особенностей: в значительной части случаев небольшой объем документа, что затрудняет его статистический анализ; отсутствие структуризации, что усложняет процедуры извлечения информации; наличие большого количества грамматических и синтаксических ошибок, что обусловливает необходимость реализации нескольких дополнительных этапов обработки; нестационарность тезауруса (состава и важности слов), зависящего от выхода новых нормативных документов, выступлений должностных лиц и политических деятелей и т.д., что вызывает необходимость использования процедур динамической классификации рубрик. В статье описываются этапы автоматизированного анализа и методы формализации текстовых документов. Предлагается метод рубрицирования, который использует результаты морфологического и синтаксического этапов с модифицированной лингвистической разметкой текстовых документов. В качестве синтаксического парcера рассматриваются современные программные продукты MaltParser и LinkGrammar, которые строят деревья зависимостей для всех предложений в документе. Приводятся стандартные лингвистические разметки MaltParser и LinkGrammar применительно к коротким текстовым документам, а также модификация разметки LinkGrammar для использования их рубрицирования. В процессе использования известных программных продуктов для проведения дополнительных этапов анализа придется столкнуться с проблемой разнообразия лингвистических разметок. Например, большинство синтаксических парсеров на выходе представляет каждое предложение текста в виде деревьев зависимостей, которые описывают лингвистической разметкой. Лингвистическую разметку для дальнейшей классификации и назначения весовых коэффициентов необходимо модифицировать, тем самым увеличивая размерность метрики. Описывается разработанный метод рубрицирования, который учитывает экспертную оценку важности слов для каждой рубрики, а также синтаксическую роль слов в предложениях. Приведена диаграмма процесса автоматизированного рубрицирования жалоб и предложений в разработанной системе анализа. Описан эксперимент, который подтверждает целесообразность использования синтаксических парсеров в подобных системах, что приводит к увеличению точности рубрицирования. Даны рекомендации по улучшению точности разработанного метода и использованию аппарата теории нечетких множеств и методов когнитивного моделирования для разрешения проблемы нестационарности тезауруса систем, которые зависят от выхода нормативных документов и выступлений должностных лиц.
Abstract:The paper shows that citizens’ electronic messages (complaints, appeals, proposals, etc.) in terms of the possibility of their automated processing have a number of specific features. They are: usually a small document capacity, which makes it difficult to analyze it statistically, a lack of structuring, which complicates extracting information, a big number of grammatical and syntactic errors that lead to implementing several additional processing steps, thesaurus non-stationarity (composition and importance of words), which depends on the issuance of new normative documents, officials’ and politicians’ speeches, etc. All this leads to the necessity of using procedures for headings dynamic classification. The paper describes the stages of automated analysis and methods for formalizing text documents. It also proposes a developed rubrication method that uses the results of the morphological and syntactic stages with modified linguistic markup of text documents. The syntactic parser is MaltParser or LinkGrammar software that build dependency trees for all sentences in a document. The paper shows standard linguistic markings of MaltParser and LinkGrammar applied to short text documents, as well as a modification of the LinkGrammar markup to use for rubrication. Using known software for additional stages of analysis shows the problem of the diversity of linguistic markings. For example, most of the syntactic parsers at the output represent each sentence as dependency trees, which are described by linguistic markup. For further classification and assignment of weighting factors, linguistic markup should be modified, so it will increase the dimension of the metric. The developed method of rubrication takes into account the expert evaluation of the importance of words for each rubric, as well as the syntactic role of words in sentences. The paper shows a diagram of the process of automated rubrication of complaints and proposals in the developed analysis system. It also describes an experiment that confirms the expediency of using syntactic parsers in such systems, which leads to increasing accuracy of rubrication. There are recommendations to improve the accuracy of the developed method and use the theory of fuzzy sets and methods of cognitive modeling in order to solve the problem of thesaurus nonstationarity in the systems that depend on the issue of normative documents and officials’ speeches.
| Авторы: Козлов П.Ю. (originaldod@gmail.com) - Смоленский филиал Национального исследовательского университета МЭИ (аспирант), Смоленск, Россия | |
| Ключевые слова: методы формализации текстовых документов., динамичный тезаурус, автоматизированный анализ текстов |
|
| Keywords: methods for formalizing text documents, dynamic thesaurus, analysis automated analysis of texts |
|
| Количество просмотров: 26271 |
Статья в формате PDF Выпуск в формате PDF (29.80Мб) |
Способы представления текстовой информации при автоматизированном рубрицировании коротких текстовых документов
DOI: 10.15827/0236-235X.120.678-683
Дата подачи статьи: 21.03.2017
УДК: 004.021
Статья опубликована в выпуске журнала № 4 за 2017 год. [ на стр. 678-683 ]
Электронные сообщения граждан (жалобы, обращения, предложения и т.д.) с точки зрения возможности их автоматизированной обработки обладают рядом специфических особенностей: в значительной части случаев небольшой объем документа, что затрудняет его статистический анализ; отсутствие структуризации, что усложняет процедуры извлечения информации; наличие большого количества грамматических и синтаксических ошибок, что обусловливает необходимость реализации нескольких дополнительных этапов обработки; нестационарность тезауруса (состава и важности слов), зависящего от выхода новых нормативных документов, выступлений должностных лиц и политических деятелей и т.д., что вызывает необходимость использования процедур динамической классификации рубрик.
В статье описываются этапы автоматизированного анализа и методы формализации текстовых документов. Предлагается метод рубрицирования, который использует результаты морфологического и синтаксического этапов с модифицированной лингвистической разметкой текстовых документов.
В качестве синтаксического парcера рассматриваются современные программные продукты MaltParser и LinkGrammar, которые строят деревья зависимостей для всех предложений в документе. Приводятся стандартные лингвистические разметки MaltParser и LinkGrammar применительно к коротким текстовым документам, а также модификация разметки LinkGrammar для использования их рубрицирования.
В процессе использования известных программных продуктов для проведения дополнительных этапов анализа придется столкнуться с проблемой разнообразия лингвистических разметок. Например, большинство синтаксических парсеров на выходе представляет каждое предложение текста в виде деревьев зависимостей, которые описывают лингвистической разметкой. Лингвистическую разметку для дальнейшей классификации и назначения весовых коэффициентов необходимо модифицировать, тем самым увеличивая размерность метрики.
Описывается разработанный метод рубрицирования, который учитывает экспертную оценку важности слов для каждой рубрики, а также синтаксическую роль слов в предложениях. Приведена диаграмма процесса автоматизированного рубрицирования жалоб и предложений в разработанной системе анализа. Описан эксперимент, который подтверждает целесообразность использования синтаксических парсеров в подобных системах, что приводит к увеличению точности рубрицирования.
Даны рекомендации по улучшению точности разработанного метода и использованию аппарата теории нечетких множеств и методов когнитивного моделирования для разрешения проблемы нестационарности тезауруса систем, которые зависят от выхода нормативных документов и выступлений должностных лиц.
Козлов П.Ю. (originaldod@gmail.com) - Смоленский филиал Национального исследовательского университета МЭИ (аспирант), Смоленск, Россия
Ссылка скопирована!
| Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=4367&lang= |
Статья в формате PDF Выпуск в формате PDF (29.80Мб) |
| Статья опубликована в выпуске журнала № 4 за 2017 год. [ на стр. 678-683 ] |
Статья опубликована в выпуске журнала № 4 за 2017 год. [ на стр. 678-683 ]
Возможно, Вас заинтересуют следующие статьи схожих тематик:Возможно, Вас заинтересуют следующие статьи схожих тематик:


, RHñ, называемой семантической сетью естественного языка, где Ot – множество концептов, выделенных в тексте; At – множество ребер, связывающих концепты из Ot; LtÌ L – множество семантических отношений, выявленных в тексте и используемых в качестве меток ребер из At; Ht – множество классов, связывающих концепты из Ot по классовой семантической совместимости их наборов значений семанти- ческих характеристик;
– отношение инцидентности на Ot ´ At ´ N, где N – подмножество идентификаторов участников отношений модели M2;
– отношение инцидентности на At ´ Lt ; Rh – отношение классовой принадлежности на Ot ´ Ht. Такая довольно громоздкая структура получается после нестрогого отождествления понятий из семантических образов отдельных предложений, в процессе которого образуются концепты [8].