Алгебраическая теория информационного поиска и ее приложения

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Алгебраическая теория информационного поиска и ее приложения

Статья опубликована в выпуске журнала № 3 за 2008 год.
Аннотация:
Abstract:

Авторы: Сотников А.Н. (asotnikov@iscc.ru) - Федеральный исследовательский центр «Информатика и управление» РАН, ул. Вавилова, 44-2, г. Москва, 119333, Россия (главный научный сотрудник), г. Москва, Россия, доктор физико-математических наук
Ключевые слова: аипс, оптимизация, поиск, задачи
Keywords: , optimisation, search,
Количество просмотров: 16092	Версия для печати Выпуск в формате PDF (2.59Мб)

Со второй половины прошлого столетия наблюдается лавинообразный рост объема информации. Необходимость ее компьютерной обработки потребовала новых подходов к организации представления данных в компьютерных системах, к построению эффективных поисковых процедур, к осмыслению результатов поиска и послужила стимулом для развития теории информационного поиска и ее приложений. Важным инструментом, позволяющим эффективно взаимодействовать с информацией, являются автоматизированные информационно-поисковые системы (АИПС).

Для исследования протекающих в них процессов разрабатывались математические модели, описывающие с той или иной степенью достоверности отношения между документами и поисковыми требованиями. Среди них следует отметить, например, теоретико-множественную модель Сэлтона, лежащую в основе решений по построению первых информационно-поисковых систем библиотечного типа, реляционную модель Кодда, в которой между отдельными элементами информации, как элементами множества различных данных в архиве, строится алгебра отношений.

Существенным шагом в развитии теории и практики информационного поиска явилась линейная алгебраическая модель, предложенная профессором В.Н. Решетниковым в 1979 г. и послужившая удобным инструментом для исследования различных задач анализа и обработки информации [1]. В этой модели поисковые образы документов и запросов представляются элементами конечномерного линейного пространства, а организация поиска данных сводится к поиску решения системы линейных алгебраических уравнений в этом пространстве. Рассматриваемый подход, как и большинство моделей поиска, отражает в большей степени попытку связать между собой представленные в хранилищах данных документы и информационные запросы путем введения мер близости между ними. Характер этой связи описывается таким понятием, как релевантность, которое в алгебраической модели интерпретируется множеством решений поискового уравнения на конечном множестве конечномерного векторного пространства. Поисковое уравнение при этом определяется запросом.

Задача оптимизации поискового множества и построения эффективных поисковых алгоритмов

Очевидно, что в общем случае задача построения решения поискового уравнения на конечном множестве конечномерного векторного пространства разрешима, например, прямым перебором всех элементов данного множества. Однако в случае большой мощности поискового множества, что характерно для реальных информационных систем, решение задачи методом прямого перебора не может быть приемлемым с точки зрения времени реакции системы на запрос, в связи с чем возникла необходимость организации поискового множества и построения для него эффективных поисковых алгоритмов, отвечающих требованиям скорости, точности и полноты.

Алгебраическая модель в силу высокой адекватности моделируемым процессам отношения между поисковыми образами документов и запросов, а также процедурам построения релевантных подмножеств оказалась удобным инструментом для исследования данной задачи. В качестве организации поискового множества, обеспечивающего быстрый и эффективный поиск, была предложена зонно-иерархическая структура (Z-структура) [2], породившая класс поисковых алгоритмов (названных алгоритмами отсечения), позволяющих сужать область поиска за счет исключения поисковых подмножеств, заведомо не содержащих релевантных запросу документов.

В основе Z-структуры лежит процедура разбиения поискового множества на конечное число непустых и непересекающихся подмножеств и построения для них характеристических векторов, отражающих информационные особенности каждого из подмножеств. Такой подход к организации поискового множества позволяет ставить и решать задачи построения многоуровневой Z-структуры, ее расширения для изменяющихся во времени массивов данных, выполнять процедуры оптимизации Z-структуры с целью сокращения времени поиска.

Были доказаны фундаментальные утверждения, позволяющие связать результаты решения поискового уравнения на множестве характеристических векторов с задачей построения релевантных подмножеств и определившие основные поисковые алгоритмы.

Следует отметить, что в отличие от классических методов кластеризации данный подход позволяет решать проблемы избыточности хранения элементов архива и обеспечивает высокое соответствие критериям полноты и точности поиска.

Характерной чертой Z-структуры поискового множества и порожденных ею алгоритмов отсечения является компактность программной реализации, что позволяет использовать для решения прикладных задач весьма скромные по своим параметрам компьютеры. С другой стороны, заложенный в Z-структуре внутренний параллелизм открывает возможности для применения вычислительных систем с параллельной архитектурой, что в значительной степени снимает проблему размерности решаемых задач.

Идея Z-структуры, разработанная изначально для решения задачи поиска в АИПС, оказалась настолько плодотворной, что нашла свое применение и развитие в различных приложениях, требующих обработки больших информационных массивов по заданным поисковым критериям. В частности, это относится к таким прикладным системам, как обработка графических образов, распознавание рукописного текста, системы безопасности на основе анализа биометрической информации, анализ временных рядов в направлении поиска закономерностей в них, формирование цифрового информационного контента электронных библиотек, определение облика сложных технических систем с заданными свойствами и ко многим другим.

Задача информационного поиска в АИПС

Значительное развитие в теории и практике обработки данных получила задача построения множества документов (релевантного подмножества), описания которых в точности соответствуют перечисленным в запросе требованиям. В рамках алгебраической модели процедура построения релевантного подмножества моделируется процессом построения множества решений определяемого запросом поискового уравнения на конечном множестве конечномерного векторного пространства. Наибольшее развитие получил способ формирования поискового множества, элементами которого являются векторы с компонентами из нулей и единиц, что соответствует наличию или отсутствию в описываемом документе того или иного признака. Это привело к построению и исследованию класса поисковых уравнений с тривиальными коэффициентами. Вместе с тем в рамках алгебраической модели можно строить и более сложные зависимости между поисковыми образами документов и запросов. Это приведет к задаче построения и анализа поискового уравнения с нетривиальными коэффициентами и специальными метриками, определяющими содержательную составляющую процесса поиска. Эффективным средством решения задачи поиска явились рассмотренная выше Z-структура поискового множества и порожденные Z-структурой поисковые алгоритмы, позволяющие сокращать время поиска при обеспечении требуемых значений полноты и точности.

Задача приближенного информационного поиска

Ситуация, когда множество решений поискового уравнения пусто, означает отсутствие в архиве АИПС документов, отвечающих в точности требованиям запроса. В рамках алгебраической модели это приводит к задаче приближенного информационного поиска, где представляется возможным получить в качестве ответа на запрос документы, наиболее близкие запросу в выборе способа определения их смысловой близости.

Существует много подходов к определению понятия смысловой близости документа запросу. В большинстве из них делается попытка построения количественных характеристик измерения соответствия документа запросу. При этом как меру близости используют способы оценки сходства, различия, расстояния. В рамках линейной алгебраической модели в качестве векторов (документов), похожих на релевантные, рассматриваются псевдорешения поискового уравнения на конечном множестве конечномерного векторного пространства. Здесь мера близости имеет естественную интерпретацию и определяет, например, число характеристик, значения которых у документа и запроса различны, а задача поиска состоит в выборе из архива таких документов, для которых значение этой меры минимально. Данный подход оказался весьма продуктивным для решения практических задач с применением различных способов измерения смыслового соответствия документа запросу и позволил организовывать поиск с использованием Z-структуры и эффективных стандартных поисковых процедур, основанных на алгоритмах отсечения.

Задача хранения и анализа временных рядов

С содержательной точки зрения временной ряд порождается в результате наблюдения за одним или несколькими параметрами какого-либо процесса. При наблюдении фиксируются значения этих параметров и привязываются к моменту наблюдения. В результате образуется последовательность измеренных значений, упорядоченная хронологически.

Такая последовательность и называется временным рядом. Временной ряд явился эффективным инструментом исследования многих прикладных задач: обработка цифровых сигналов, анализ аудиоинформации, экономика и финансы. В качестве основных проблем работы с временными рядами выделяются их хранение и анализ.

За последние десятилетия разработан обширный математический аппарат анализа временных рядов для выявления закономерностей в поведении наблюдаемого процесса и прогнозирования его поведения.

Алгебраическая модель позволила связать методы представления временных рядов в промышленных СУБД и способы поиска в них фрагментов с заданными характеристиками [3], открыв тем самым широкие возможности в построении различных приложений.

Задачи обработки изображений

Класс задач, связанных с обработкой изображений, весьма широк. Тем не менее, можно выделить характерные задачи, решаемые при обработке различных типов плоских изображений и результатов рукописного ввода информации. Типичный технологический цикл обработки плоского изображения состоит из следующих этапов: получение изображения с устройства ввода, бинаризация изображения, сегментация изображения для определения наличия и выделения графических объектов, выделение особенностей (вектора признаков) отдельного графического объекта, кластеризация или распознавание графических объектов, представление результатов обработки.

В описании отсуствует существенный и трудоемкий процесс предварительной очистки и фильтрации входного изображения, необходимый для повышения его качества и упрощения работы с ним, но во многих случаях его можно опустить.

При всех видах обработки плоских изображений на выходе получается значимая информация, содержащаяся в них. Из различий в этой информации и можно построить классификацию задач, решаемых при обработке изображений.

Оптическое распознавание текстов

Классической задачей, возникшей после разработки устройств ввода изображений, стала задача распознавания текстов (OCR – optical character recognition). Современные OCR-программы являются продуктом интенсивной эволюции и развития теории и практики распознавания объектов.

Первая такая программа оптического распознавания символов была создана в 1959 году компанией Intelligent Machine Corporation. Она могла распознавать тексты, набранные только одним шрифтом определенного размера, и использовалась в банковской сфере для обработки документов. Современные OCR-системы могут распознавать тексты, набранные различным шрифтом, на более чем 100 языках, обеспечивая очень высокую точность распознавания для высококачественных исходных изображений. Значительный прогресс наблюдается и при распознавании некачественных текстов, например, факс-сообщений, старых книг и прочего.

Задачи распознавания рукописного (в том числе печатными буквами) текста

По способу задания входных данных задачи распознавания рукописного текста делятся на задачи распознавания двухмерных картинок и задачи распознавания траекторий (параметризованных кривых на плоскости). Картинки получаются в результате сканирования написанного текста, а траектории – в процессе набора с помощью какого-либо устройства, сообщающего компьютеру свои координаты и/или скорость. Эти два типа распознавания называются off-line и on-line распознаванием соответственно. Настоящие рукописи, то есть связный текст, научный, художественный и другой, написанный от руки, распознавать программно off-line пока никто не умеет. Эта задача очень сложная и плохо формализуемая. Распознавать с достаточной степенью надежности умеют только очень простые и очень массовые тексты, имеющие ограниченный словарь или даже алфавит и какую-либо заранее известную дополнительную структуру. Распознавание on-line существенно проще, поскольку оцифрованная траектория существенно компактнее оцифрованной картинки, а полезной информации содержит намного больше.

Общеизвестно, что символы, наносимые на бумагу рукой человека, заметно отличаются от нанесенных типографским способом или при помощи принтера, печатной машинки и других устройств аналогичного назначения. Различия заключаются, в первую очередь, во внешнем виде, форме символа; кроме того, написанный от руки текст редко имеет постоянный угол наклона и ширину знаков даже на одной строке. Поэтому написанный от руки печатными буквами текст в общем случае не может быть распознан при помощи OCR-системы. Для обработки информации, нанесенной на документ таким способом, существует особый класс систем распознавания символов – ICR-системы (intelligent character recognition).

Таким образом, общая проблема распознавания текста, написанного от руки печатными буквами на форме известного вида, может быть сведена к решению 4 независимых задач. Первая задача заключается в создании шаблона, позволяющего полно и точно описать используемую форму. Вторая представляет собой задачу поиска (на основе созданного шаблона) информационных полей на конкретном изображении, третья – задачу распознавания символов. Решение четвертой задачи подразумевает реализацию гибкого алгоритма контекстной проверки, назначение которого – верификация распознанных данных по заранее подготовленным словарям, а также проверка выполнения ряда логических условий, определенных на этапе создания формы.

Задачи биометрической безопасности

Этот класс задач можно разбить на два подкласса: задачи идентификации по отпечаткам пальцев, распознавание лиц, идентификация по радужке глаза и второй подкласс – обработка и распознавание подписи, биометрия по почерку, манере написания, нажиму.

Существуют различные биометрические технологии. И все они используют уникальные для каждого человека признаки. Наибольшее распространение среди биометрических технологий получила идентификация по отпечаткам пальцев. По данным International Biometric Group, доля систем распознавания по отпечаткам пальцев составляет 52 % от всех используемых в мире биометрических систем.

Все большую популярность приобретает использование в качестве рабочего признака радужной оболочки глаза. Во-первых, радужная оболочка – элемент достаточно уникальный, со сложным рисунком. Поэтому даже не очень качественный ее снимок позволяет точно установить личность человека. Во-вторых, радужная оболочка является объектом довольно простой формы (почти плоский круг), так что во время идентификации несложно учесть все возможные искажения изображения, возникающие из-за различных условий съемки. В-третьих, радужная оболочка глаза человека не меняется в течение всей его жизни с самого рождения.

Еще один метод биологической идентификации – это анализ рукописного ввода. Обычно для этого используется ввод подписи (иногда еще и написание кодового слова). Для получения образца подписи могут быть использованы графический планшет, экран карманного компьютера, некоторые модели мобильных телефонов и т.д. Цифровой код идентификации формируется посредством обработки динамических характеристик написания: информации по графическим параметрам подписи, временных характеристик нанесения подписи и динамики нажима на поверхность.

Обратные задачи обработки графических объектов. Восстановление графических объектов с заданными характеристиками

Следует отметить, что все предыдущие задачи относились к классу прямых задач обработки графики. Но после обработки рукописного ввода или электронных изображений документов формируется внутреннее представление графических объектов. Вполне возможно, например, используя результаты обучения программы распознавания рукописного ввода, генерировать произвольные тексты, написанные почерком человека, обучавшего систему. Точно так же, обработав образец изображения книги для электронной библиотеки и построив автоадаптивный шрифт, не представляет труда сгенерировать в таком же стиле и оформлении любой текст произвольного содержания.

Задача кластеризации и представления графических объектов

Громадное количество изданий, публикаций, документов было выпущено еще до внедрения компьютерных технологий. Среди них много таких, которые могут быть безвозвратно потеряны для человечества, если их не перевести в цифровой формат. Исправить эту ситуацию пытаются Интернет-проекты различных электронных библиотек. Главной проблемой является сложность перевода бумажных документов в удобный цифровой формат. При этом весьма актуально сохранение в электронном формате первоначального вида различных исторических и редких документов. Тем более, что многие исторические рукописные документы и редкие старинные издания нужно хранить в нераспознанном виде. Для них необходимо сохранить не только текст, но и все цветовое оформление первоначальных изображений, пометки и комментарии, появившиеся за время существования и использования документа, которые сами по себе могут представлять историческую и научную ценность. Документ при этом должен быть представлен в виде, обеспечивающем возможность работы с ним (чтение, анализ различных схем и т.д.).

Исходя из этих требований, используя современные технологии обработки изображений, можно построить систему обработки документов, которая выделит в изображении книги или рукописи все графические объекты, кластеризует их в частотный внутренний словарь и, обработав всех представителей кластера, построит элемент автоадаптивного шрифта, которым потом и представит электронный документ читателю в виде, удобном для работы [5].

Плюсы этого подхода очевидны: резкое сокращение размеров электронного документа, возможность частотного словаря документа, построение системы приближенного графического поиска и улучшение читаемости.

Общим для всех рассмотренных выше задач является то, что в основе их решения лежат процедуры выделения характеристик для описания объектов, представление этих описаний в удобном для анализа виде с целью выявления в них общих признаков с учетом различных подходов оценки анализируемых объектов, организации поискового множества для обеспечения быстрого и многоаспектного поиска. Идеи и методы, порожденные алгебраической моделью информационного поиска, внесли существенный вклад в их решение.

Список литературы

1. Решетников В.Н. Алгебраическая теория информационного поиска. // Программирование. – 1979. – № 3. – C. 78–83.

2. Решетников В.Н. Информационный поиск и Z-структура. // Математические вопросы задач оптимизации и управления. – Изд-во МГУ, 1981.

3. Решетников В.Н., Сотников А.Н. Алгоритмы отсечения для построения псевдорелевантных множеств. // Программное обеспечение вычислительных комплексов. – Изд-во МГУ. – 1985. – С. 60–64.

4. Прохоров А.Ю., Сотников А.Н. Поиск во временном ряде фрагментов, «похожих» на заданный шаблон. // Программные продукты и системы. – № 3. – 2003.

5. Bereznev V., Sotnikov A., Cherednitchenko I. The system for hand-written and textual symbols identification. // Pattern recognition and Image analysis, № 4, 1995.

6. Сотников А.Н., Чередниченко И.Н. Построение автоадаптивного фонта в документах электронных библиотек. // Программные продукты и системы. – 2008. – № 2. – С. 16–19.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=1571	Версия для печати Выпуск в формате PDF (2.59Мб)
Статья опубликована в выпуске журнала № 3 за 2008 год.
Статья находится в категориях: Теория, Научные исследования, Прикладные исследования, Обработка данных, Разработка программных приложений
Статья относится к отраслям: Статистика и учет, Вычисления, Связь и телекоммуникации

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей