ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

4
Publication date:
09 December 2024

The article was published in issue no. № 4, 2007
Abstract:
Аннотация:
Authors: () - , () - , () -
Ключевое слово:
Page views: 15005
Print version
Full issue in PDF (2.00Mb)

Font size:       Font:

Решение задач информационного поиска (ИП) электронных информационных ресурсов (ЭИР) имеет сегодня существенную научную и практическую ценность. Для решения задач ИП ЭИР применяют специальный класс автоматизированных систем – информационно-поисковые системы (ИПС).

Существующие ИПС предлагают различную функциональность и технологичность для повышения качества и скорости поиска. К сожалению, большинство ИПС направлено на решение определенных задач: систематизация данных, поиск веб-ресурсов, классификация электронных ресурсов, управление электронными документами, управление потоками работ и т.п. Для управления любыми ЭИР и информацией об ЭИР используется отдельный вид ИПС – системы управления знаниями. Данный вид систем позволяет значительно расширить возможности коллективной работы, работ по управлению проектами и предлагает интеллектуальные средства для работы с информацией (по анализу, хранению, поиску и представлению).

Анализ программного обеспечения дает возможность утверждать, что отсутствуют универсальные автоматизированные средства и классификаторы, позволяющие систематизировать информационные ресурсы по любому основанию. Вместе с тем существуют отдельные отрасли человеческой деятельности, призванные решать задачи ИП, например, архивная и библиотечно-библиографическая деятельности, где накоплен богатый опыт хранения, индексации и поиска информации. Объединение опыта и современных технологий может существенно повысить качество информационного поиска.

В НПО «МАРС» (г. Ульяновск) находится в эксплуатации программное средство автоматизации деятельности архивной службы ЭИР. Была поставлена задача расширить функционал данного программного средства с целью автоматизации части функций архиваторов и интеллектуализации части процессов по управлению информацией.

Для построения интеллектуального сетевого архива (ИСА) ЭИР существующую систему управления БД необходимо дополнить модулем индексации и модулем кластеризации и классификации.

На модуль индексации возложены задачи
предобработки текстовых документов или аннотаций к ЭИР и построение частотных словарей встречающихся терминов. Сохранение частотных таблиц необходимо производить в СУБД
MS SQL 2005. В рамках модуля кластеризации и классификации на основе значений относительных частот должны создаваться предметно-ориентированные кластеры, которые организуются в виде иерархии. В процессе классификации выполняется задача соотнесения вновь заносимого ЭИР с определенным кластером.

Информационная система предполагает три группы пользователей: архивариус, проектировщик и администратор. Архивариус занимается систематизацией проектов, проектировщик производит занесение информационных ресурсов в БД и осуществляет их поиск. Администратор осуществляет настройку функциональности ИСА ЭИР.

Функция систематизации проектов, которую выполняет архивариус, включает в себя проверку пользователя, модификацию дерева классификации и модификацию кластеров. Проекты сохраняются в БД проектов. Функция занесения и поиска проектов, которая закреплена за проектировщиком, включает в себя проверку пользователя, занесение новых проектов, удаление и поиск проектов. Задача настройки функциональности, выполняемая администратором, включает настройку частотных словарей, настройку работы классификатора и кластеризатора.

Реализация интеллектуального
сетевого архива

Модуль индексации представляет собой отдельный модуль программы, предназначенный для предварительного анализа ЭИР (форматы MS Word, RTF, простой текстовый формат и пр.)
с целью формирования данных для проведения
процессов кластеризации и информационного поиска.

Индексатор позволяет пользователю:

- интерактивно указать группу документов для анализа,

- запустить процесс индексирования.

В процессе работы индексатор ведет журнал контрольных событий (выводит на экран и записывает в log-файл).

Словари в БД представлены двумя таблицами:

- словари терминов английского языка,

- словари терминов русского языка.

Временные таблицы. В процессе индексирования используются таблицы промежуточных данных:

- хранение промежуточных данных при занесении данных в БД;

- хранение неопознанных при эксперименте терминов.

Результирующие таблицы содержат данные, необходимые для проведения экспериментов по кластеризации и информационному поиску:

- частотный словарь проиндексированных документов,

- справочник проиндексированных текстов,

- полный частотный словарь (содержащий также и нулевые частоты),

- словарь терминов, определенных на наборе документов.

Процесс формирования списка слов документа. Индексатор для получения простого текста (в формате ANSI) электронного документа использует средства объекта Word.Application. Для этого на рабочей станции должен быть установлен Microsoft Word.

Индексатор вычленяет из текста слова, используя для этого правило: «каждое слово отделяется от другого пробелом». При формировании списка слов удаляются символы, не входящие в набор символов русского и английского языков.

Процесс занесения данных в БД. После формирования списка слов документа полученные слова, если они встретились в словарях БД (словари основ терминов русского и английского языков), заносятся в промежуточную таблицу. В противном случае неопознанные слова переносятся в таблицу неопознанных при эксперименте термов.

После переноса слов во временную таблицу данные группируются и заносятся в частотный словарь проиндексированных документов. Также на этом этапе индексирования формируются данные в справочнике проиндексированных текстов, в полном частотном словаре и в словаре терминов, определенных на наборе документов.

Формирование частотных словарей. Для оценки значимости слов в индексаторе используется методы определения частот слов каждого документа и частот, рассчитанных по формуле Шеннона (сигнал-шум):, где – шум термина; , где – частота k-го термина в i-м документе; – частота k-го термина по всем документам; – сигнал термина .

Данные показатели хранятся вместе со словами в результирующей таблице частот терминов.

Описание модуля кластеризации и классификации: модуль кластеризации и классификации представляет собой отдельный модуль программы, предназначенный для разбивки массива текстовых документов на классы на основе частотных портретов, полученных при проведении процесса индексирования.

Для кластеризации применяется нейронная сеть, использующая метод обучения без учителя (unsupervised learning) – самоорганизующие карты Кохонена (Self-Organizing MapSOM).

Кластеризатор позволяет пользователю выполнить следующие действия:

- интерактивно настроить параметры подключения и подключиться к БД,

- интерактивно изменить параметры нейронной сети,

- запустить процесс кластеризации,

- сохранить полученный результат в БД.

Входные данные для кластеризации хранятся в следующих таблицах:

- таблица метаданных,

- справочник проиндексированных текстов,

- полный частотный словарь (включая нулевые термины).

Результирующие таблицы содержат данные, необходимые для проведения экспериментов по информационному поиску. Таблицы, хранящие результат кластеризации, содержат информацию по кластерам:

- таблица кластеров,

- таблица связей между кластерами и терминами,

- таблица связей между кластерами и информационными ресурсами.

Таблицы, хранящие настроенную нейронную сеть, содержат списки:

- нейронных сетей,

- выходных сигналов нейронов,

- весов нейронов.

Особенности реализации нейронной сети. К классическому представлению нейронной сети в виде двухмерной матрицы N´N нейрона добавлено третье измерение – веса каждого нейрона в виде динамического массива (см.: Ярушкина Н.Г. Нечеткие нейронные сети. // Новости искусственного интеллекта. 2001, № 2-3; Bothe H.-H. Fuzzy Neural Networks. rague: IFSA, 1997).

В качестве параметров нейронной сети используются: норма обучения, множитель для нормы обучения, радиус активности области нейрона-победителя, число производимых итераций, шаг модификации.

Процедуры работы с нейросетью. В системе используются две основные процедуры настройки нейронной сети: инициализация весов нейронов случайным образом и самообучение сети Кохонена (алгоритм SOM)

Алгоритм SOM (повторяется для каждого входного вектора):

Шаг 1. Инициализация параметров сети.

Шаг 2. Цикл по числу итераций в сети.

Шаг 2.1. Определение расстояний между входным вектором X и вектором весов W каждого нейрона по формуле:

Шаг 2.2. Определение нейрона-победителя, с минимальным расстоянием.

Шаг 2.3. Определение области активации нейрона-победителя.

Шаг 2.4. Определение весов нейронов внутри области активации по формуле:.

Шаг 3. Запись документа в массив кластеров.

Выходной поток кластеров представляется в виде динамического двухмерного массива:

 

Документ 1

Документ 2

Документ 3

Кластер 1

1

 

 

 

Кластер 2

 

1

1

 

 

 

 

 

При попадании документа в кластер на пересечении ставится единица. Данная таблица является результирующей и, преобразованная в дерево результатов (где корневые директории – кластеры, содержащие каждый свои документы), выводится на экран.

Сеть SOM имеет набор входных элементов (частотные портреты текстовых документов, которые необходимо инициализировать из БД) и набор выходных элементов (иерархию кластеров), отображающихся в виде дерева результатов. Обучение нейронной сети происходит на каждом документе.

Описание экспериментов

Для обработки были выбраны 65 документов из проектной документации НПО «МАРС». Документы были обработаны индексатором, который преобразовал их в частотные портреты (выделены термины с частотой встречаемости в исследуемом документе). При этом был произведен отбор только терминов, приведенных к основе с помощью морфологического анализа, а также исключены стоп-слова.

Полученные данные из 65 документов с 1346 терминами были обработаны кластеризатором с использованием нейронной сети Кохонена. Поскольку данная нейронная сеть является настраиваемой, то есть имеет несколько изменяемых параметров, в ходе эксперимента было обучено 146 таких нейронных сетей с разными комбинациями настроек.

Результаты наиболее ярко выраженных комбинаций настраиваемых параметров приведены в таблице.

Таблица

Параметры обучения нейронной сети

Число классов

Число нейронов

Радиус активации

Норма обучения

Множитель нормы обучения

Число итераций

Шаг моди-
фикаций

1

49

1

0,9

0,9

1000

200

3

2

100

2

0,7

0,9

2000

100

7

3

121

0

0,9

0,9

2000

100

2

4

25

1

0,6

0,6

1000

200

5

5

100

5

0,9

0,9

2000

100

1

6

25

5

0,6

0,9

1000

200

1

7

25

1

0,4

0,9

1000

200

 

Permanent link:
http://swsys.ru/index.php?id=45&lang=en&page=article
Print version
Full issue in PDF (2.00Mb)
The article was published in issue no. № 4, 2007

Perhaps, you might be interested in the following articles of similar topics: