Известно, что визуальные данные являются наиболее информативным источником для познания окружающего мира, поскольку все, что попадает в поле зрения, обрабатывается параллельно. Так, для описания одного конкретного предмета может потребоваться несколько предложений, имеющих последовательную форму построения, и потеря хотя бы одного из них или какого-либо значимого слова может исказить образ предмета. В то же время с помощью визуального представления данного предмета можно за долю секунды оценить все его основные признаки и сформировать правильный образ. Поэтому поиск визуальных данных, в частности изображений, может значительно расширить возможности поисковых систем и предоставить необходимую пользователю информацию не только в текстовом виде, но и в более простом и удобном для восприятия визуальном изображении.
Существует множество систем поиска изображений, использующих различные механизмы и имеющих широкие возможности. Наиболее часто применяемым является механизм поиска с использованием текстовой аннотации изображения, которую формирует сам пользователь, вводя описывающие изображение слова, либо применяются специальные алгоритмы аннотации по контекстному содержанию, в котором располагается изображение. Последний случай относится к таким источникам данных, как страницы в Интернете, Word-, PDF-документы и др.
Другой класс систем поиска изображений использует механизмы контентного поиска [1, 2], который основан на извлечении особенностей изображения (цвет, текстура, форма, расположение) и записи их как набора признаков. Каждый признак хранится в виде конкретных числовых значений. Входными данными для поиска являются изображение, набросок, сделанный с помощью специальных средств или от руки, или конкретные признаки, которые предоставляются пользователю в форме списка.
В данной статье рассматривается еще один механизм поиска изображений, объединяющий возможности как текстового, так и контентного поиска. Преимуществом текстовой формы описания является возможность использования абстрактных понятий, обобщающих слов. Поэтому текстуальный поиск изображений позволяет искать целые классы изображений или объектов на них, что сложно реализовать, используя в качестве входа поисковой системы отдельные изображения, не обладающие обобщающей способностью.
Таким образом, поиск изображений по семантическим признакам использует в качестве входных данных текстовое описание, которое преобразуется в набор числовых признаков для дальнейшего применения методов контентного поиска.
Классификация способов поиска изображений
Как упоминалось ранее, механизмы поиска изображений можно разделить на два класса: текстовый и контентный [3]. Более подробная классификация представлена на рисунке 1.
Из рисунка видно, что для текстового способа поиска применяют текстовую аннотацию и тематическое описание изображения. О текстовой аннотации уже достаточно подробно говорилось, тематическое описание по большей мере основано на классификации текстовой аннотации и предоставляется пользователю в виде списка возможных тем изображений. Следует отметить, что существуют системы, позволяющие соотнести изображение с определенной категорией с использованием методов контентного извлечения признаков [3–5]. В основном такие системы определяют, присутствует ли на изображении человек, где сделан снимок: в открытом пространстве или в помещении.
Для осуществления контентного поиска, как правило, используют конкретные изображения, наброски, отдельные признаки, представленные в виде списка, и параметры изображения (размеры, цветное или монохромное и др.).
Введение в поиск изображений по семантическим признакам
Данный механизм поиска изображений можно охарактеризовать как комбинацию текстового и контентного поисков. Необходимо ввести определения основных понятий.
Семантический признак – признак, представленный в форме естественного языка. В данном случае под естественным языком подразумевается текстовое описание признака. Семантический признак может описывать цветовые, текстурные признаки, особенности формы, признаки отношения (например, положение, структура).
Семантика признаков – отношение между представлением признаков на естественном языке человека и в удобном для обработки электронно-вычислительными средствами виде.
Семантический признак связи – семантический признак, определяющий отношения между признаками, то есть взаимное расположение, структуру. Признаки, в свою очередь, бывают числовыми (или символьными) и семантическими.
Образ, или семантический объект, может быть четким или нечетким. Четкому образу соответствует определенный набор признаков с определенными отношениями между собой. Нечеткий образ – обобщение нескольких четких или неполный четкий.
Кроме того, можно выделить семантические признаки изображения, регионов изображения или объектов изображения.
Семантические признаки изображения описывают все изображение, которое представляется одним неделимым объектом без структурной декомпозиции вглубь, и все семантические признаки связи между признаками располагаются на одной плоскости.
Если в качестве предобработки изображения используются различные методы сегментации, каждый выделенный регион может иметь собственные семантические признаки региона. Отношения между признаками различных регионов, а также признаками одного региона описываются с помощью семантических признаков связи. Кроме того, каждый регион можно разбить еще на несколько, то есть применить рекурсивную декомпозицию вглубь. Взаимосвязь между различными уровнями декомпозиции определяют семантические признаки связи.
В случае, когда применяются методы распознавания и выделения объектов изображения или когда они заранее известны (например, объект задан в форме аннотации и изображение содержит только его), их можно описать с помощью се- мантических признаков объектов. Способы пред- ставления семантических признаков регионов и объектов во многом схожи, но для объектов используется дополнительная описательная характеристика – семантический объект.
Общий подход к построению систем поиска изображений по семантическим признакам
Для упрощения изложения под семантическим признаком будет также подразумеваться семантический объект, под семантическим признаком изображения – семантические признаки регионов и объектов, а под признаком – числовой (или символьный) признак.
Для построения систем поиска изображений по семантическим признакам применяется семантический преобразователь, который определяет семантику признаков.
Семантика признаков изображения основана на взаимосвязи между семантическими признаками и признаками в числовой форме. На рисунке 2 показан общий принцип преобразования семантических признаков в числовые. Семантический преобразователь содержит БД семантических признаков, в которой каждый семантический признак соотносится с одним признаком или целой группой.
Таким образом, на вход семантического преобразователя поступает семантический признак, по которому осуществляется поиск признака в БД, а выходом является признак в числовом виде.
Чтобы представить весь процесс поиска по семантическим признакам, рассмотрим последовательность сохранения признаков изображений в БД (см. рис. 3) и процедуру поиска изображений (см. рис. 4).
Последовательность действий при записи признаков изображений в БД практически ничем не отличается от порядка при реализации контентного поиска, то есть на вход поступает изображение, которое преобразуется в набор признаков, и полученные признаки записываются в БД.
Отметим, что процедура поиска отличается от процедуры контентного поиска введением блока семантического преобразователя, который конвертирует семантические признаки в числовые. Поэтому вместо привычного для контентного поиска запроса в виде изображения пользователь вводит текстовое описание изображения, которое представляется как набор семантических признаков. Затем при помощи преобразователя семантические признаки переводятся в числовой вид и сравниваются с признаками изображений, хранящихся в БД. Результат пользовательского запроса формируется на основе данных о сравнении.
Особенности поиска изображений по семантическим признакам
Применение текстового описания для поиска требуемых изображений в качестве запроса позволяет использовать методы синтаксического и морфологического анализа, которые обычно внедряются в системы поиска текстовой информации. Данный анализ проводится для определения семантических признаков текстового запроса, которые в дальнейшем будут переведены в числовой вид.
Рассмотрим небольшой пример использования текстового запроса для поиска изображений.
Пусть запрос содержит следующее предложение: Красная полосатая звезда с синим пятном в центре.
В этом случае грамматический анализ запроса можно представить так, как изображено на рисунке 5, то есть выделяется основной объект (слово, обозначающее предмет), который представляется как образ (или признак формы). Затем к этому образу привязываются семантические признаки, играющие в предложении роль определения и обозначающие признак предмета. При объединении образа с семантическими признаками формируется новый образ. Устанавливаются различные взаимосвязи между образами, которые описываются семантическими признаками связи. В итоге текстовый запрос преобразуется в определенный набор образов и/или семантических признаков.
Механизм преобразования текстового запроса в набор семантических признаков, а затем в набор числовых признаков при реализации поиска по семантическим признакам может быть изменен. Рассмотрим способ поиска, при котором нет необходимости в таком преобразовании, что позволяет использовать только методы поиска текстовой информации.
Поиск по аннотации семантических признаков
Данный поиск характеризуется обратным направлением работы семантического преобразователя: если при поиске изображений по семантическим признакам используется преобразование семантических признаков в числовые, то в поиске по аннотации семантических признаков используется преобразование числовых признаков в семантические. Общая схема семантического преобразователя представлена на рисунке 6.
Кроме того, изменяется структура хранения признаков, так как в этом случае в БД записывается аннотация изображения, а также изменяется место использования семантического преобразователя, то есть теперь семантический преобра- зователь применяется в последовательности сохранения описания изображения (рис. 7), а из процедуры поиска исключается (рис. 4).
Таким образом, обработка текстового запроса на поиск изображения может осуществляться преимущественно методами текстуального поиска информации.
Поиск текстовой информации по семантическим признакам изображения
Использование семантического преобразователя открывает возможность для реализации еще одного способа поиска информации, а именно, поиска текстовой информации по семантическим признакам изображения.
В данном случае на вход поступает изображение, которое преобразуется в набор числовых признаков с помощью методов извлечения признаков изображения. Затем числовые признаки преобразуются в семантические. По ним формируется текстовый запрос к БД, которая хранит аннотации различных текстовых источников данных (например, страницы в Интернете), текстовых документов. Результатом поиска является список текстовых источников, которые связаны с содержанием входного изображения.
Рассмотренные механизмы поиска изображений по семантическим признакам, аннотации семантических признаков, а также механизм поиска текстовой информации по семантическим признакам изображения предоставляют широкие возможности для объединения различных методов поиска изображений и текстовой информации.
Все представленные в данной статье способы поиска основаны на использовании семантического преобразователя, от расположения которого в общей структуре поиска меняются характер поиска и, как следствие, результат.
В заключение следует отметить, что значения семантических признаков и образов достаточно субъективны; так как признаки или образ определенного предмета у разных людей могут отличаться, результат поиска тоже является субъективным и зависит от БД семантических признаков в семантическом преобразователе. Поэтому с целью более объективного поиска возможно применение для каждой системы поиска собственной БД семантических признаков или использование в рамках одной системы нескольких БД семантических признаков. Но в таком случае увеличиваются затрачиваемые на поиск ресурсы, что существенно сказывается на производительности.
Литература
1. Colin C. Venters and Dr. Matthew Cooper. A review of content-based image retrieval systems // Joint Information Systems Committee (JISC). 01.06.2000. URL: http://www.jisc.ac.uk/media/ documents/programmes/jtap/jtap-054.pdf (дата обращения: 25.09.2010).
2. Remco C. Veltkamp and Mirela Tanase. A survey of content-based image retrieval systems // Geometry, Imaging and Virtual Environments Lab, Utrecht University, The Netherland. 08.03.2001. URL: http://www.aa-lab.cs.uu.nl/cbirsurvey/cbir-survey/ (дата обращения: 25.09.2010).
3. Marinai S. A survey of document image retrieval in digital libraries. 9th Colloque International Francophone sur l'Ecrit et le Document (CIFED 2006). 2006. URL: http://www.dsi.unifi.it/~simone/Papers/cifed06.pdf (дата обращения: 25.09.2010).
4. Matthew Simpson, Md Mahmudur Rahman, Dina Demner-Fushman, Sameer Antani, George R. Thoma. Text- and Content-based Approaches to Image Retrieval for the ImageCLEF 2009 Medical Retrieval Track. The Cross-Language Evaluation Forum (CLEF) 2009. URL: http://www.clef-campaign.org/2009/working_ notes/simpson-paperCLEF2009.pdf (дата обращения: 25.09.2010).
5. Бухалто А.Н. [и др.]. Нейрокомпьютеры в системах обработки изображений; [под общ. ред. Ю.В. Гуляева и А.И. Галушкина]. М.: Радиотехника, 2003. Кн 7. 192 с.