Журнал "Программные продукты и системы" - научные статьи в области информационных технологий

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№1

Ожидается:

16 Марта 2024

Выпуски

2024

все выпуски

все статьи

Подписаться на RSS

Статьи журнала №4 2020

21. Использование статистических индексов для различения научных и научно-популярных текстов на примере трудов А.Е. Ферсмана [№4 за 2020 год]
Авторы: Горбич Л.Г. (glg@cbibl.uran.ru) - Центральная научная библиотека УрО РАН (научный сотрудник); Живодеров А.А. (csl@cbibl.uran.ru) - Центральная научная библиотека УрО РАН (cтарший научный сотрудник), кандидат физико-математических наук;
Аннотация: С развитием информационной техники и информационных систем актуализировалась проблема разработки методик машинной атрибуции текстов. Эти методики могут быть использованы для автоматического поиска текстов необходимого жанра и стиля и установления авторства с помощью компьютерных технологий. В основу разработки рассматриваемой в статье методики была положена гипотеза о том, что существуют структурные особенности текста, которые позволяют без учета смыслового содержания отнести его к определенному жанру или автору на основе вычисления чисто количественных значений некоторых параметров и индексов. Авторы наряду с другими исследователями в течение ряда лет занимались разработкой таких индексов и формированием из них оптимального набора и добились в этом определенных успехов. В частности, был сформирован набор индексов, позволяющий правильно классифицировать тексты по жанру с вероятностью до 86 %. Для решения задачи автоматической классификации научных и научно-популярных текстов авторы применили и усовершенствовали набор статистических индексов, разработанный ими ранее для атрибуции других стилей. В качестве материала исследования были взяты труды академика А.Е. Ферсмана. Одной из особенностей этого автора является стилевая двойственность – наличие большого числа принадлежащих ему как научных, так и научно-популярных текстов, что создало уникальную возможность для попытки решения задачи автоматической классификации стилей текстов, принадлежащих одному автору. В ходе работы было показано, что выборочные средние статистических индексов для текстов двух стилей достоверно различаются. Применяя методы дискриминантного анализа, логистической регрессии и ROC-кривых, авторы продемонстрировали возможность автоматической классификации текстов двух стилей и с помощью оптимизации используемого набора индексов добились существенного повышения качества классификации. Предложен также новый статистический индекс, позволяющий минимизировать вычислительные затраты и успешно (до 100 % точности) решать задачу классификации научных и научно-популярных текстов даже при использовании его в качестве единственного фактора. Результаты исследования были проверены на текстах других авторов.

Abstract: With the development of information technology and information systems, the problem of developing methods for machine attribution of texts has become more relevant. These techniques can be used to automatically search for texts of the required genre and style, and establish authorship using computer technology. The development of our methodology was based on the hypothesis that there are structural features of the text that allow it to be attributed to a certain genre or author without taking into account the semantic content, based on the calculation of purely quantitative values of certain parameters and indices. The authors of this paper, along with other researchers, have been developing such indices and forming an optimal set of them for a number of years, and have achieved some success in this. In particular, a set of indexes was formed that allows one to cor-rectly classify texts of different authors by genre with a probability of up to 86 %. To solve the problem of automatic classification of scientific and popular science texts, the authors applied and improved a set of statistical indexes that they had previously developed for attributing other styles. The re-search material was based on the works of academician A.E. Fersman. One of the features of this author is the style duality – the presence of a large number of scientific and popular scientific texts belonging to him, which created a unique opportunity to try to solve the problem of automatic classification of text styles belonging to one author. In the course of the work, it was shown that the sample averages of statistical indices for texts of the two styles differ significantly. Using the methods of discriminant analysis, logistic regression, and ROC-curves, the authors demonstrated the possibility of automatic classification of texts of two styles and, by optimizing the set of indexes used, achieved a significant improvement in the quality of classification. A new statistical index is also proposed that allows minimizing computational costs and successfully (up to 100 % accuracy) solving the problem of classification of scientific and popular science texts, even when using it as the only factor. The results of the study were checked for texts by other authors.

Ключевые слова: стиль текста, автоматическая классификация текстов, статистический индекс, дискриминантный анализ, логистическая регрессия, roc-кривая
Keywords: text style, automatic text classification, statistical index, discriminant analysis, logistic regression, roc-curve
Просмотров: 4457

◄ ← Предыдущая | 1 | 2 | 3