ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

4
Publication date:
09 September 2024

Development of taught dedicated information retrieval system

The article was published in issue no. № 3, 2011
Abstract:The article deals with architecture and principals of development of taught dedicated information retrieval system. The realization is based on open source software.
Аннотация:В статье рассматриваются архитектура и принципы разработки обучаемой специализированной информационно-поисковой системы. Решение реализуется на базе свободно распространяемого ПО.
Authors: (echernova@masu-inform.ru) - , Ph.D, (science_masu@mail.ru) -
Keywords: the automated information system, MySQL, indexing, morphology, training systems, information retrieval system
Page views: 13360
Print version
Full issue in PDF (5.05Mb)
Download the cover in PDF (1.39Мб)

Font size:       Font:

В условиях информационного взрыва нередко используются нечистоплотные способы продвижения сетевых ресурсов, поэтому подборка качественных материалов по конкретной тематике становится нетривиальной задачей, поскольку популярные поисковые системы, возвращая пользователю тысячи низкорелевантных результатов, зачастую не могут сократить временные затраты на поиск информации.

Существует ряд систем, позволяющих повысить эффективность поиска информации, а именно: Яндекс.Сервер, Russian Context Server, Brief Driven Information Retrieval and Extraction for Strategy (BRIEFS), RCO Fact Extractor, Aot.ru., университетская информационная система РОССИЯ (УИС РОССИЯ) и др. Однако анализ таких программных средств (см. табл.) показал, что в настоящий момент нет системы, которая поддерживала бы возможность настройки на конкретную тему, а также осуществляла бы мониторинг обновления материалов на наиболее важных тематических ресурсах. Это определило целесообразность разработки новой обучаемой специализированной информационно-поисковой системы (ОСИПС), которая в процессе своей работы учитывает предпочтения пользователя, настраиваясь на особенности как предметной области, так и конкретных информационных ресурсов, а также способна самостоятельно отслеживать появление новых материалов по заданной тематике.

Сравнительная таблица программных продуктов автоматизации информационного поиска

Наименование программного продукта

Возможность модификации

Техническая поддержка

Сложность настройки

Стоимость

RCO Fact Extractor + RCO Context Server

Да/ Да

Да/ Нет

Высокая

$4484

RCO Fact Extractor + Яндекс.Сервер

Нет

Да/ Нет

Высокая

$3540

Aot.ru + RCO Context Server

Да/ Да

Нет/ Да

Высокая

$1062

Aot.ru + Яндекс.Сервер

Да/ Нет

Нет/ Нет

Высокая

$100 + наличие рекламы

Brief Driven Information Retrieval and Extraction for Strategy (BRIEFS)

Нет

Да

Высокая

Не рассматривается

УИС РОССИЯ (МГУ)

Нет

Нет

Нет

0

АПИС

Да

Да

Низкая

10201,29 руб.

Логическая структура информационно-поис­ковой системы показана на рисунке 1, где хорошо заметны две функциональные части – поиск информационных ресурсов и анализ найденных источников на факт появления новых событий. Качество поиска повышается за счет использования модуля морфологии.

Индексация в ОСИПС облегчает и ускоряет процесс поиска: машина индексации «путешествует» по сети и сохраняет все найденное с учетом поставленной задачи и заданными ограничениями. Глубина индексации системы на основе практики функционирования популярных поисковых сервисов была установлена равной семи уровням.

На сегодняшний день множество сервисов, предоставляющих услуги по поиску информации в сети Интернет без участия человека, используют системы морфологического анализа текста. Впервые данная технология, сочетающая в себе и скорость, и качество, была применена компанией Google в 2003 году. В ОСИПС морфологический модуль работает в соответствии со схемой, представленной на рисунке 2.

В блоке инициализации модуля происходят подготовка и проверка целостности основных словарей морфологического аппарата системы. Реализована поддержка русского, английского и немецкого словарей. Формат файла словарей позволяет хранить слова, правила изменения формы слова и определения существующей словоформы. Таким образом обеспечиваются универсальность словаря и в то же время малый объем и занимаемой оперативной памяти при загрузке модуля, и памяти жесткого диска при хранении. Блок обработки слов выполняет работу по поиску текущей словоформы и формированию всех других словоформ. Именно в него попадает обрабатываемый текст; на выходе формируется двухмерный массив, в котором в первоначальном порядке хранятся все передаваемые слова и их словоформы. Блок формирования результатов предназначен для отделения во входящем массиве нормальных форм слова от всех остальных словоформ.

В связи с тем, что к функциям разрабатываемой системы относится выделение нужного текста без потери скорости и траты лишних ресурсов, был выбран и реализован подход, при котором администратор системы обучает ее понимать конкретный источник информации один раз. На основе внесенных администратором данных система формирует правила, которыми в дальнейшем будет руководствоваться при отборе сведений из проверяемого источника информации. Данная методика позволяет избежать возможных ошибок, связанных с переносом системы на новое оборудование, а также решить проблему точной выборки ключевых слов в исходном документе.

Для обеспечения наибольшей стабильности и надежности модуль обработки блоков подразделяется на три части – обработка блока скриптами его страницы, редактирование скриптов, редактирование блоков на странице. Все части очень важны для системы, так как без какой-либо одной из них она теряет устойчивость к ошибкам и часть своих функциональных возможностей.

В случае использования ОСИПС для мониторинга обновления информации на заданных тематических ресурсах сотруднику следует периодически проверять корректность работы всех функций, а также просматривать и оценивать новые документы, найденные сервисом, на предмет их научности и нужности.

Перед инсталляцией ИПС должны быть выполнены следующие условия: на серверном компьютере уже должна быть установлена ОС Linux Ubuntu версии старше 9, желательно серверный вариант; установлены пакеты ПО Apache, MySQL, PHP, модули для Apache, для поддержки интерпретатора PHP.

ОСИПС использует БД на основе бесплатного ПО MySQL, распространяемого по лицензии GNU. Для нормальной работы системы достаточно шести таблиц: Article_data для хранения полученных данных из блоков; Articles для хранения целиком содержания блока; Site для хранения адресов тематических ресурсов; Indexs – база проиндексированных документов; Sourse – сайты, или страницы, откуда нужно индексировать, то есть при попытке проиндексировать что-либо адрес этого начального документа должен находиться в этой таблице; Tags – записи, уточняющие тип данного блока и конкретизирующие соответствие элементов блокам.

Обработчик – это отдельный скрипт-файл, который выполняется при необходимости обработки конкретного тематического ресурса. В его задачи входят выборка обработчика для данного проверяемого источника, выборка нужного API для обработки, восстановление необходимых данных о текущей проверяемой странице, исполнение обработчика, слежение за ходом обработки, предоставление результатов обработки, завершение исполнения обработчика источников информации. Для работы с новыми информационными ресурсами ОСИПС, как правило, требуется новый обработчик. В связи с тем, что система предназначена для людей, не имеющих глубоких знаний в программировании, был создан специальный мастер скриптов, который позволит выбрать нужный пользователю результат и сформировать скрипт для обработки информационного ресурса. Мастер работает в двух режимах, ориентируя систему на поиск сведений в заголовке или тексте ресурса.

Результаты поиска ОСИПС представляет в виде отсортированного по релевантности списка ресурсов. В случае, когда ответы на запрос не получены, система предпринимает попытки каким-либо образом его изменить: проверить на орфографические ошибки, изменить порядок слов, сделать поиск менее строгим. Если по-прежнему поиск оказался безрезультатным, система показывает пользователю, что информация не найдена, и рекомендует выполнить действия, которые могут исправить положение, – изменить ключевые слова, их приоритет, уровень индексации и т.п.

В интерфейсе системы специально предусмотрено соответствующее окно для ввода источников информации. После заполнения полей на странице ресурсов отображаются данные тематического ресурса: название, приоритет, уровень и доступные действия (удалить, редактировать). Только после сохранения ресурса в системе можно перейти к его индексации. Для этого необходимо выбрать нужную запись в списке источников, указать уровень индексации и запустить процесс.

Для автоматического получения данных с известных ОСИПС источников нужно указать адрес ресурса и настройки получения информации. После добавления страниц необходимо указать поля, откуда будет извлечен текст. Для этого на строке источника следует выбрать пункт «Изменить блоки». Затем на специальной форме, где будет представлен выбранный источник, указать нужные для правильной работы системы поля. После выделения блоков необходимо написать или создать с помощью маркера код обработки источника.

После добавления всех известных на данный момент источников их проверяют на наличие новой информации с некоторой периодичностью. Как только требуется проверить актуальность информации, следует перейти на соответствующую страницу и выполнить сканирование.

Апробация разработанной системы проходила в отделе организации научных исследований Магнитогорского государственного университета. Установка ОСИПС сводится к копированию файлов на сервер отдела, импортированию файла-структу­ры БД и конфигурированию межсетевых настроек. В систему введены порядка двадцати основных интернет-источников, где выкладываются объявления о планируемых научных конференциях и семинарах, настроены обработчики. Использование системы позволило сократить время на поиск информации, а также на подготовку материалов для выкладки на сайт. Кроме того, ОСИПС легко интегрируется в существующую структуру отдела организации научных исследований и осуществляет серьезную поддержку в информационной деятельности Магнитогорского государственного университета.

Литература

1.   Акимова Г. Аналитическая обработка разнородной текстовой информации. URL: http://www.bytemag.ru/articles/de­tail.php?ID=8965 (дата обращения: 3.07.2011).

2.   Автоматическая обработка текста. URL: (Проверено 3.07.2011).

3.   Лексико-синтаксические шаблоны в задачах автоматической обработки текста. URL: http://www.dialog-21.ru/dialog 2007/materials/html/11.htm#_ftn1 (дата обращения: 3.07.2011).

4.   Национальный корпус русского языка. URL: http://ruscorpora.ru/index.html (дата обращения: 3.07.2011).

5.   Попова И.В. [и др.] Совершенствование системы информационно-аналитической поддержки научных исследований в высшей школе на основе технологии открытых систем. Магнитогорск: МаГУ, 2010.


Permanent link:
http://swsys.ru/index.php?page=article&id=2821&lang=en
Print version
Full issue in PDF (5.05Mb)
Download the cover in PDF (1.39Мб)
The article was published in issue no. № 3, 2011

Perhaps, you might be interested in the following articles of similar topics: