На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах

Статья опубликована в выпуске журнала № 2 за 2007 год.
Аннотация:
Abstract:
Авторы: Ковалев И.В. (kovalev.fsu@mail.ru) - Сибирский государственный аэрокосмический университет им. академика М.Ф. Решетнева, г. Красноярск, доктор технических наук, Зеленков П.В. () - , Огнерубов С.С. () - , Лохмаков П.М. () -
Ключевое слово:
Ключевое слово:
Количество просмотров: 10684
Версия для печати
Выпуск в формате PDF (1.17Мб)

Размер шрифта:       Шрифт:

Для современных информационно-управля­ющих систем (ИУС) характерен значительный рост объемов многоязычной (мультилингвистической) информации, хранящейся в банках данных предприятий и корпораций. В мультинациональных корпорациях требуется своевременное предоставление управленческому персоналу документов, принадлежащих различным языковым множествам, в процессе подготовки и принятия решения. Значительно возрастают требования к оперативности и качеству функционирования систем поиска мультилингвитсической информации, используемых ЛПР в различных экономических и производственных ситуациях.

Известно, что в процессе управления дискретными техническими и человеко-машинными системами предприятия часто возникает необходимость найти и предоставить ЛПР все хранимые документы и данные (в общем случае подготовленные и выполненные на разных языках), имеющие отношение к сложившейся производственной ситуации, предварительно упорядочив их по степени важности выдаваемой информации.

Зачастую предлагаемые методы решения поставленных задач оказываются недостаточно эффективными, так как, во-первых, не позволяют осуществить поиск и сортировку больших объемов разнородной информации, характеризующей сложившиеся производственные ситуации, во-вторых, не обеспечивают возможность мультилингвистического поиска данных для подготовки и принятия решения в ИУС.

Указанное обстоятельство требует разработки новых эффективных моделей и алгоритмов поиска мультилингвистической информации, используемой при реализации поддержки принятия решений в ИУС современных предприятий и корпораций. Это обусловливает актуальность, экономическую целесообразность и практическую значимость данного исследования.

Необходимо разработать модельно-алгорит­мическое обеспечение систем мультилингвистического поиска данных в ИУС, позволяющее на ограниченном интервале времени, отведенном на принятие решения, определить данные и документы, которыми в возникшей ситуации должен руководствоваться ЛПР. При этом данные и документы должны быть упорядочены по степени важности предоставляемой информации. Как правило, с этой целью используются такие характеристики, как ранг документа и данного, определяющий степень важности их информационного содержания, и количество данных и документов, используемых в производственной ситуации.

В работе основное внимание уделено разработке новых математических моделей и алгоритмов реализации мультилингвистического поиска данных о ситуациях, возникающих в ИУС, и требующих подготовки и принятия решения в режиме реальных временных ограничений. Следует отметить, что в настоящее время ведутся активные работы по созданию новых алгоритмов поиска, ранжирования и определения релевантности информации как в глобальной сети Internet, так и во всевозможных локальных ИУС. При этом методики и алгоритмы, направленные на решение проблем сбора и обработки информации для разных предметных областей и категорий пользователей существенно различаются. Обычно для частных или локальных тематических коллекций корпоративных ИУС используют модификации моделей или алгоритмов, разработанных для поисковых машин (сервисов) сети Internet. Однако в сети Internet существуют информационные ресурсы, построенные по принципу каталогов. Проблема работы с подобными тематическими коллекциями состоит в том, что для обеспечения надлежащего уровня релевантности отклика системы необходимо участие человека для проверки подлинности принадлежности документа к заявленной предметной области.

Рассмотрим новые алгоритмы поиска документов, определения релевантности документов и ранжирования информации в рамках полученной выборки из мультилингвистических информационных тематических коллекций, которые можно использовать как в системах типа каталог, так и в обычных поисковых сервисах системы Internet.

Итак, определим предметную область применения предлагаемых алгоритмов с учетом современной концепции интегрированного производства, обеспечивающей объединение большинства сложных дискретных технических и человеко-машинных систем производственного назначения в составе единой системы управления. В качестве тематических коллекций выступает корпоративная информация, находящаяся на внутренних серверах компании, причем размер компании неограничен. Возможно наличие нескольких информационных серверов. В качестве примера можно представить структуру следующего типа: имеется головной отдел компании и несколько филиалов. Для работы сотрудникам филиалов, как правило, достаточно информации, выложенной на их информационном сервере, однако периодически возникает потребность в информации, находящейся на других сайтах компании. Таким образом, для снижения расходов, связанных с Internet-трафи­ком, можно организовать трехуровневый поиск информации: на сервере филиала, на серверах компании, в сети Internet.

Экономия трафика происходит в результате поиска на собственных серверах компании (внутренний трафик). Очевидно, что при поиске информации на серверах компании вся информация имеет высокую степень релевантности независимо от способа ее получения. Используя Internet, мы несем затраты, связанные с избыточным поиском. При этом возникает еще одна проблема – низкий уровень достоверности информации. В работе предлагаются следующие мультилингвистические принципы построения поисковых агентов в ИУС.

Модели организации поисковых агентов

Данные модели предназначены для того, чтобы упорядочить полученные ссылки с множества сайтов как внутри одного языкового множества, так и для многомерного языкового множества. Они применимы не только в рамках корпоративных серверов, но и позволяют расширить поиск за счет доступа в глобальные сети, например Internet.

Рассмотрим модель ранжирования информации сразу по нескольким языкам. После проведения поисковых операций в корпоративной сети и, возможно, за ее пределами необходимо вычислить вес ссылки на документ для более удобного и грамотного отображения результатов поиска пользователю. Таким образом, результат каждого запроса может быть представлен в виде r-мерного ранжированного вектора, который формируется на основе количества опрашиваемых сайтов; множества ссылок, выданных всеми опрошенными базами поисковых сервисов или внутренних ресурсов компании без дублей.

Ранг информационного ресурса по каждой предметной области определятся в процессе опроса каждого сайта с учетом количества релевантных документов, выданных опрошенным информационным ресурсом, количества нерелевантных документов и общим количеством документов.

Предлагаемая модель ранжирования позволяет проводить поиск и в пределах одного языкового множества. Вводя дополнительный индекс, отвечающий за предметную область, мы расширяем полученную модель, которая в этом случае будет производить поиск и ранжирование  документов сразу по нескольким предметным областям. Отметим, что сумма всех неповторяющихся ссылок всех опрашиваемых предметных областей будет меньше или равна общей сумме ссылок без повторений, что связано с пересечением предметных областей или наличием так называемых смежных предметных областей. В предлагаемой модели все ранги должны быть не меньше чем единица.

Не менее важным агентом при специализированном поиске информации является агент определения релевантности.

Модель определения релевантности

Основой данной модели являются частотные мультилингвистические словари по предметным областям. В рамках модели каждому терму (словоформе) в документе и запросе сопоставляется некоторый неотрицательный вес (для запроса на один поисковый сервис). Таким образом, каждый документ и запрос могут быть представлены в виде k-мерного вектора. Согласно векторной модели, близость документа к запросу оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний.

Веса термов можно вычислять различными способами. Один из возможных подходов – использовать в качестве веса терма в документе нормализованную частоту его использования в рамках данного документа.

При определении релевантности с использованием мультилингвистических частотных словарей для вычисления веса терма целесообразно использовать частотную характеристику терма из словаря.

Предложенный алгоритм эффективно работает как на этапе формирования мультилингвистического частотного словаря (который в дальнейшем будет базисом модели), так и после того как он был составлен, и возникает необходимость в его актуализации или обновлении.

Рассмотренный в статье подход определения релевантности и ранжирования документов в ИУС в первую очередь опирается на семантическое содержание информационных ресурсов.

В настоящее время многие исследователи ведут работы по модификации алгоритмов и методов ранжирования информации, не учитывая, что ранг документа должен зависеть не только от положения документа в сети Internet, но и от его качества и тематического содержания.

Использование тематических частотных словарей позволяет решить эту проблему, снизив участие человека при определении релевантности документов и распределении документов по тематическим разделам в рамках информационных коллекций.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=382&lang=
Версия для печати
Выпуск в формате PDF (1.17Мб)
Статья опубликована в выпуске журнала № 2 за 2007 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик: