На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

1
Ожидается:
16 Марта 2024

В Восточно-Казахстанском государственном техническом университете им. Д. Серикбаева совместно с Санкт-Петербургским национальным исследовательским университетом информационных технологий, механики и оптики и Карловым университетом проводились исследования методов повышения качества автоматической классификации текстов на основе статистического подхода.

23.08.2016

Модель Bag-of-words («набор слов») – самая популярная и простая модель представления текста, применяемая во многих задачах Text Mining. Модель представляет текст как набор слов без учета их взаимного расположения и взаимных связей. При ее использовании семантическая близость двух текстов (двух наборов слов) оценивается по количеству совпадающих слов. Это означает, что два текста, в которых мало общих слов или вообще нет, считаются семантически и тематически неблизкими. Игнорирование семантических связей между словами – главный недостаток модели Bag-of-words. Другой ее важный недостаток в том, что тексты как наборы слов проецируются в пространство высокой размерности и высокой разреженности, что обусловлено объемом используемого словаря. Как результат, возникает феномен «проклятия размерности», характеризующийся экспоненциальным ростом сложности вычислений из-за увеличения размерности данных. По этой причине модель Bag-of-words часто комбинируется с техниками редукции признакового пространства.

На преодоление недостатков модели Bag-of-words в последние годы направлено множество ис- следований. Большинство из них фокусируются на способах перехода от традиционного представления текстов в разреженном и зашумленном пространстве Bag-of-words к представлению в новых, семантически более богатых пространствах, в которых алгоритмы машинного обучения достигали бы лучших результатов. Это означает, что так или иначе, но все эти исследования манипулируют наборами семантически связанных слов, разница только в подходах к выбору и формированию этих наборов.

Среди существующих подходов можно выделить три основных класса работ. Первый класс работ объединяет подходы, формирующие наборы семантически связанных слов на основе концептов, второй – на основе контекстных векторов, третий – на основе латентных семантических связей.

Подробное описание дается в статье «Обогащение модели bag of words семантическими связями для повышения качества классификации текстов предметной области», авторы: Нугуманова А.Б., Байбурин Е.М. (Восточно-Казахстанский государственный технический университет им. Д. Серикбаева, Усть-Каменогорск), Бессмертный И.А. (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО), Санкт-Петербург), Пецина П. (Карлов университет, Прага).