ISSN 0236-235X (P)
ISSN 2311-2735 (E)
4

09 Сентября 2024

Исследование многокритериальной задачи информационного поиска в рамках линейной алгебраической модели


Терехин А.Н. () -
Ключевое слово:
Ключевое слово:


     

Исследование различных задач информационного поиска удобно проводить в рамках линейной алгебраической модели [1-3], где поисковые образы документов и запросов представляются элементами конечномерного векторного пространства, а поиск сводится к решению поискового уравнения, определяемого запросом, на конечном множестве.

Рассматриваемый подход, как и большинство моделей поиска [4], отражает в большей степени попытку связать между собой представления документов в хранилищах данных и информационных запросов, нежели имитирует реальные процессы, в действительности происходящие при поиске. Характер этой связи описывается таким понятием, как релевантность, которое в данной модели интерпретируется путем введения мер близости между векторами. В работе рассматривается многокритериальная задача информационного поиска, описанная в рамках указанной модели, обсуждаются некоторые подходы к ее решению.

Рассмотрим многокритериальную задачу:

                                         (1)

где каждая задача

r                                              (2)

рассматривается на конечном множестве  – векторов из линейного пространства  размерности m над полем коэффициентов .  – оператор проекции на линейное пространство , порожденное вектором q [1-3]. В  зафиксируем базис  и рассмотрим некоторую совокупность функций r. Данные функции характеризуют силу попарных связей между векторами из T, являются неотрицательными и симметричными. В литературе они получили название мер близости, или симметрик. Обозначим  множество  решений  задачи (2) через

r,             (3)

а через G – совокупность симметрик rs:

G={rs:,,, i=1,2, если , то rsrs}.

Класс G достаточно широк и применим на практике [5].

Приведем несколько примеров:

– мера близости Минковского

r1(x,y)= целое;

– мера близости Расела-Рао

r2(x,y)=();

– мера близости Танимото-Роджерса

r3(x,y)=;

– геометрическая мера близости

r4(x,y)=.

Если для решения задачи (1) использовать способы сведения к однокритериальной задаче (к примеру, путем линейной свертки), то она фактически сведется к задаче (2).

Построение множества при большой мощности множества Т и последующей отсюда необходимости полного перебора всех его элементов может оказаться весьма трудоемким процессом. Ниже рассматривается один подход для решения задачи (2) и, как следствие, задачи (1).

Введем в рассмотрение следующие понятия.

Определение. Любые два вектора t', t" будем называть сравнимыми, если для всех i= справедливо: либо , либо , где l=dim.

Неравенства вида и  будем понимать в смысле приведенного определения.

Представим множество Т в виде Т= =, при этом будем полагать, что все подмножества  состоят из попарно сравнимых между собой векторов. Образуем совокупность верхних характеристических векторов:

=: =,

при этом отметим, что , =p, pn. Обозначим через R множество

R={: =r(x,q)},

Утверждение 1. Справедливо следующее вложение: .

Доказательство. Пусть Îrs, с=1, l, lp. Если : =, j=1, , то (), а, следовательно, . Если таковых векторов нет, то .

Следствие 1. Справедливо вложение , где ={:rs } и

rs .

Подмножества R и P, которые представляют собой псевдорелевантное и релевантное подмножества векторов соответственно, являются своего рода первым приближением множеств  и  соответственно.

Следствие 2. Если  (), то подмножество  не содержит решения задачи (1) (не содержит векторов :r).

Определим далее для  вектор , где  (операция рассматривается в кольце целых чисел), с=.

Утверждение 2. Если , , с=1,l, lp, где I={} – индексы векторов базиса, соответствующие линейному подпространству , то в подмножестве  нет векторов .

Доказательство следует из построения векторов  и .

Следствие 1. Если приведенное утверждение выполнено для всех с= , то .

Следствие 2. Если  и , то r – число векторов в соответствующем подмножестве , которые следует присоединить к подмножеству  с целью его дополнения до .

Следствие 3. Алгоритм расширения подмножества .

1.   Построить подмножество. Пусть, не ограничивая общности рассуждений,

={}, p.

2.   Определить подмножество

={}, где =, .

3.   Если все , то  и перейти к п. 7.

4.   Построить множество

5.   Для каждого  определить

.

6.   Для каждого  построить

, далее ,

где .

7.   Стоп.

Заметим, что построение подмножества R по причинам, приведенным выше, может вызвать затруднение. В этом случае следует положить  и повторить процедуру разбиения и необходимых построений.

Подытожим полученные результаты. Метод построения множества  состоит из двух этапов. Первый – построение подмножества R (этим гарантируется нахождение хотя бы одного решения задачи (1) за р векторных операций сравнения). Второй – дополнение подмножества R до множества .

Конечно, такое дополнение следует проводить в том случае, если полученных решений явно недостаточно. В частности, по приведенной методике можно получать и точные решения поискового уравнения (все сделанные постро- ения и алгоритм поиска универсальны для определения как точных, так и приближенных решений).

Утверждение 3. Задачу (1) можно свести к задаче вида

rs,  

для нахождения хотя бы одного решения в случае использования метода линейной свертки при сведении задачи (1) к однокритериальной задаче.

Задачу (1) можно решать методом введения метрики в пространстве целевых функций. Покажем, как, учитывая приведенные выше рассуждения, можно эффективно использовать этот метод для построения хотя бы одного решения задачи (3) – множества .

Утверждение 4. Пусть для каждого s определены различные rs, (r*s=rs, , тогда задачу (1) можно свести к задаче

,                                                            (4)

где (rs(Aquc,q)–r*s)2)1/2 – евклидово расстояние от точки r1(Aqt,q),…,rr(Aqt,q) до точки «абсолютного минимума» r*1,…,r*r в пространстве критериев.

Чтобы найти все решения задачи (3), следует получить решения каждой из задач минимизации, используя алгоритм расширения, а далее решать задачу (4) на , где Q – объединение всех присоединенных векторов.

Для нахождения всех решений рассматриваемой задачи (1) можно использовать идею алгоритма отсечения [6-8].

Представим множество T в виде , , при этом будем полагать, что подмножества  состоят из попарно сравнимых между собой векторов. Образуем множества верхних и нижних характеристик векторов:

,

.

Введем следующие обозначения: I={1, …, c, …, p},

r, r.

Утверждение 5. Пусть подмножества ,  упорядочены таким образом, что справедливо .

Тогда, если , где подмножество индексов J=, то подмножества , где , не содержат решения задачи (3) (или псевдорешения уравнения (1)) в смысле рассматриваемой симметрики.

Доказательство. , следуя (5), справедливы следующие неравенства:

и соответственно

, .

Тогда по условию справедливы следующие неравенства:

r£r£r=.

Пусть . Очевидно, что . Тогда для  справедлива следующая последовательность неравенств:

rr.

С учетом определения (2) утверждение доказано.

Утверждение 6. Пусть , где r:r, , .

Тогда  не содержит решения задачи (3).

Доказательство. Пусть r, , тогда из условия следует, что .  справедливо неравенство r.

Утверждение доказано.

Следствие. Алгоритм отсечения для зада- чи (2).

1.   Вычислить значения  и , .

2.   Упорядочить  по возрастанию.

3.   Определить множества индексов J:

.

4.   Если , то векторы подмножеств  исключить из рассмотрения на принадлежность к множеству P, иначе перейти к п. 9.

5.   Определить множество индексов .

6.   Вычислить .

7.   Определить множество индексов , где r.

8.   Перейти к п. 4.

9.   Стоп.

Понятно, что в случае сведения задачи (1) к однокритериальной целесообразно использовать приведенные выше утверждения для оптимизации ее решения [9].

Рассмотрим в данном случае возможность эффективного использования метода введения метрики в пространстве целевых функций.

Утверждение 7. Пусть для каждого s определим различные rs, r*s=rs,  и  – множества индексов тех , которые не содержат решений соответствующих задач (2) в задаче (1). Тогда, если  : , то задачу (1) можно свести к задаче ,

где (rs(Aqt,q)–rs(Aqt*s,q))2)1/2.

Доказательство. Пусть  – множества, не содержащие псевдорешений соответствующих задач из (4). Тогда  справедливо следующее неравенство: rsrs.

Так как rs, то (rs(Aqt,q)-r*s)2½tÎT\TK < (rs(Aqt,q)-r*s)2½tÎTK.

Далее очевидно, что .

Тогда , что и требовалось доказать.

Из изложенного выше видно, что использование алгоритма отсечения в данном случае может оказать двойную услугу: во-первых, при решении задач вида (3) и, во-вторых, как следствие, представляется возможность решать задачу минимизации критерия h на множестве меньшей мощности.

Список литературы

1. Решетников В.Н. Алгебраическая теория информационного поиска. // Программирование. - 1979.- № 3. - C. 78-83.

2. Решетников В.Н. Моделирование информационного поиска в информационно-поисковых системах. // Кибернетика. - 1979. - №5. - C. 129-132.

3. Решетников В.Н. Алгебраические модели информационного поиска. // Математические методы в исследовании операций. -М.: Изд-во МГУ, 1981. - С.186-192.

4. Boyce B., Kraft D.H. Principles and theories in information science. // Annv.Rev.Inf.Sci.Tech.1985.20.P.153-178.

5. Лейбкинд А.Р., Рудник Б.В. Моделирование организационных структур. - М., 1981.

6. Сотников А.Н. Алгоритм отсечения для различных мер сходства в задаче информационного поиска. // Вестник Моск. ун-та. Сер.15: Вычисл. матем. и киберн. - 1986. - №1. - С.70-77.

7. Решетников В.Н., Сотников А.Н. Алгоритмы отсечения для построения псевдорелевантных множеств.//Программное обеспечение вычислительных комплексов. - М.: Изд-во МГУ, 1985. - С.60-64.

8. Терехин А.Н. О применимости алгоритма отсечения для решения задач многокритериального информационного поиска. // Вестник Моск. ун-та. Сер.15: Вычисл. матем. и киберн. - 1989. - №4.- С.57-62.

9. Терехин А.Н., Пшенко С.Ю. О решении многокритериальных задач информационного поиска на матричных архивах. // Программное обеспечение и модели системного анализа. - М.: Из-во МГУ, 1991.- С.19-26.

10. Cотников А.Н. Терехин А.Н. Методы исследования задач псевдорелевантного информационного поиска. // Вопросы кибернетики. Анализ больших систем. - М., 1992. - С. 166-178.



http://swsys.ru/index.php?id=625&lang=%29&page=article


Perhaps, you might be interested in the following articles of similar topics: