ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

4
Publication date:
09 September 2024

The article was published in issue no. № 4, 2008
Abstract:
Аннотация:
Authors: (kovalev.fsu@mail.ru) - , Ph.D, (tsarev.sfu@mail.ru) - , Ph.D, (kovalev.fsu@mail.ru) -
Keywords: search engine, multiagents systems, Internet,
Page views: 14674
Print version
Full issue in PDF (8.40Mb)

Font size:       Font:

Задача поиска информации в Интернете может возникнуть у любого пользователя независимо от используемой им платформы. Для решения ее была создана кроссплатформенная поисковая мультиагентная система «MAS Search ver.1.0» [1].

 

В разработанной мультиагентной системе четыре типа агентов: интерфейсный, поисковый, проверки существования страниц, а также агент ранжирования страниц. Структура системы отражена на рисунке 1.

При реализации системы «MAS Search ver. 1.0» используется гибридная архитектура. Все агенты, кроме поискового, действуют по модели «стимул–реакция», а поисковые агенты имеют базу знаний и являются интеллектуальными.

Рис. 1. Структурная схема мультиагентной поисковой системы

Получение от поисковой системы результатов поиска в HTML-коде – простая задача, средства для решения которой имеются во многих инструментальных средах для разработчика. Однако выделение из этого кода только нужных фрагментов, а именно ссылок на найденные ресурсы и их описания, является нетривиальной задачей.

Необходим механизм преобразования HTML-кода, отделенный от исходного кода приложения. Из арсенала существующих средств наиболее подходящим для решения такой задачи является XSLT. Однако для применения XSLT необходимо преобразовать HTML-код в XML-совместимый формат XHTML. Для этого применяется библиотека JTidy; так как приложение реализуется на Java, используется Java-версия Tidy. Далее к XHTML-документу применяется XSL-таблица, выделяющая из XHTML-документа ссылки на найденный ресурс и их описания в отдельный XML-документ. XSL-таблица является частью знаний поискового агента. На основе полученного XML-документа строится объектное дерево (DOM), перемещаясь по которому, выстраивается список найденных ссылок и их описаний. Схематично данный процесс представлен на рисунке 2.

В случае изменения формата выходных данных поисковой системы пользователю достаточно будет скачать только XSL-таблицу соответствующей поисковой системы, размер которой не превышает одного килобайта.

С целью переносимости основных алгоритмов и пользовательского интерфейса для каждой операционной системы при реализации поисковой системы «MAS Search ver.1.0» был использован язык программирования Java.

Программная система, написанная на Java, компилируется единожды в любой операционной системе, для которой реализован компилятор Java, и может запускаться после этого в любой операционной системе, для которой реализована виртуальная машина Java. Для создания крупных Java-приложений необходимо использовать интегрированную среду разработки. Поисковая система «MAS Search ver.1.0» программно реализована в среде разработки Borland JBuilder.

Описание программной системы

Программная система «MAS Search ver.1.0» является поисковой мультиагентной системой, предназначенной для поиска информации в Интернете.

Главное окно программы представляет собой интерфейс поисковой машины с полем ввода поискового запроса, панелью выдачи результатов поиска и кнопкой, активирующей поиск. Для поиска информации необходимо в главном окне программы ввести поисковый запрос в строку поиска. При нажатии на кнопку начала поиска система опросит заложенные в базу знаний поисковые системы и выдаст результат в панель с результатами поиска.

В панели с результатами поиска располагаются проранжированные ссылки на все страницы, найденные используемыми поисковыми системами. Для каждой найденной страницы выводятся ссылка на страницу, описание страницы, список поисковых систем, нашедших страницу, ранг страницы. Нажав кнопку мыши на заинтересовавшей ссылке, пользователь может перейти на соответствующую страницу.

Рис. 2. Схема обработки информации от поисковой системы

Конфигурация поисковых агентов выполняется в отдельном окне. Выбор поискового агента осуществляется из редактируемого списка агентов. Для каждого агента можно просмотреть или изменить следующие поля: название поисковой системы, адрес (URL) поисковой системы, адрес формы поиска поисковой системы, ранг поисковой системы, путь к таблице стилей XSL. Используя данное окно, можно не только редактировать поля уже имеющихся поисковых агентов, но и добавлять новые или удалять не интересующие пользователя поисковые агенты.

Качество поиска мультиагентной системой

Анализ качества поиска сводится к проверке появления страниц с содержанием, не соответствующим запросу, в первой десятке найденных страниц, к сравнению с аналогичным количеством для оригинальных поисковых систем. Для проверки качества поиска использовались запросы из различных областей человеческих знаний, таких как литература, медицина, кулинария, программирование, правоведение и спорт.

После усреднения результатов стало очевидным (см. таблицу) преимущество применения метапоиска.

Среднее число страниц, нерелевантных запросу

MAS Search

Yandex

Aport

Lycos

1,2

1,8

2,1

2,5

Кроме приведенной методики оценки качества поиска, используется оценка числа проиндексированных страниц. За счет использования нескольких поисковых систем одновременно, даже при некотором пересечении их индексов, объем индекса метапоисковой системы больше, чем у любой из ее поисковых подсистем. Таким образом, «MAS Search ver.1.0», располагая индексами Yandex, Aport и Lycos, имеет больший объем индекса, чем любая из этих систем в отдельности, что свидетельствует об улучшении качества поиска.

Система «MAS Search ver.1.1» не требует проведения сложных установочных процедур. Для работы достаточно скопировать все ее файлы на жесткий диск. При необходимости система может быть модифицирована.

Мультиагентная система формирования и управления тематическими коллекциями

На основе авторской модификации «MAS Search ver.1.1» реализована мультиагентная система формирования и управления тематическими коллекциями узкоспециализированной информации.

Для решения поставленных задач выполнена реализация трех логически связанных программных подсистем [2].

Первая из них обеспечивает качественный поиск информации в Интернете (то есть формирование мультилингвистической тематической коллекции). Кроме того, в рамках данной подсистемы определяется релевантность документов из тематических каталогов, причем в результате анализа предметной области было необходимо отметить следующее. В классическом понимании релевантность – характеристика булева (принадлежит запросу документ или нет), однако такая четкость присутствует не всегда. Алгоритмы данной системы, определяя релевантность, дают характеристику того, насколько одни документы являются более релевантными запросу, а другие – менее. Именно этим и занимаются алгоритмы ранжирования. Так же выявляются условно релевантные документы – документы из смежных предметных областей. Следовательно, при формировании тематических коллекций необходимо учитывать возможность попадания в результирующую выборку информационных элементов из смежных предметных областей. Учитывая степень близости данных областей, необходимо предоставить выбор пользователю системы: включить их в результирующую выборку или исключить из нее. Кроме того, в выбранном тексте релевантным предметной области может быть не весь документ, а только часть его, например, при работе с учебниками общего назначения, сборниками статей и т.д.

Вторая подсистема отвечает за управление тематической коллекцией с точки зрения пользователя данной системы. Одна из проблем, с которой сталкивается пользователь, – обработка информации из смежных предметных областей тематических коллекций (например, информация по системному анализу и высшей математике), а также организация хранения и обработки многоязычной информации в рамках сформированных тематико-ориентированных коллекций, поддерживающих мультилингвистическую технологию. Ранжирование отклика системы на запрос пользователя – одна из актуальных задач при реализации данной подсистемы.

Третья подсистема предназначена для организации тематико-ориентированного мониторинга предпочтений пользователя тематической коллекции (или веб-сайта), которая, в частности, обеспечивает персонифицированную поддержку навигации на основе выявленных тематических предпочтений. Показано, что благодаря предоставлению пользователям информационных коллекций персонифицированных навигационных меню из ссылок на страницы, близкие к их тематическим предпочтениям, уменьшается время, необходимое для поиска требуемой информации, и увеличивается количество просмотренных пользователем страниц. Это, естественно, повышает удобство работы пользователей с информационными ресурсами и служит дополнительным стимулом для посещения этого ресурса, что способствует формированию и расширению постоянной аудитории тематико-ориентированных коллекций в сети Интернет.

За счет использования нескольких поисковых систем данная программная система имеет больший охват поискового индекса, чем любая из используемых систем в отдельности, что свидетельствует об улучшении качества поиска.

Список литературы

1. Ковалев И.В., Карасева М.В., Рогов С.В., Царев Р.Ю., Лохмаков П.М. Кроссплатформенная поисковая мультиагентная система «MAS Search ver. 1.0». – М.: ВНТИЦ, 2007. – Рег. номер ОФАП 8357.

2. Ковалев И.В., Зеленков П.В., Карцан И.Н., Карасе- ва М.В., Рагзин Д.А., Брезицкая В.В. Метапоисковая мультилингвистическая система поиска узкоспециализированной информации. – М.: ВНТИЦ, 2007. – Рег. номер ОФАП 8891.


Permanent link:
http://swsys.ru/index.php?page=article&id=1624&lang=&lang=en&like=1
Print version
Full issue in PDF (8.40Mb)
The article was published in issue no. № 4, 2008

Perhaps, you might be interested in the following articles of similar topics: