Компьютерное обнаружение лиц людей на изображении

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Компьютерное обнаружение лиц людей на изображении

Статья опубликована в выпуске журнала № 2 за 2001 год.
Аннотация:
Abstract:

Авторы: Нюнькин К.М. () - , Мурыгин К.В. () -
Ключевое слово:
Ключевое слово:
Количество просмотров: 13497	Версия для печати Выпуск в формате PDF (1.58Мб)

Как известно, большую часть информации об окружающем мире человек получает с помощью зрения. Современные же компьютеры практически полностью лишены зрения. Связано это прежде всего со сложностью обработки зрительной информации. У человека этим занимается самый большой участок коры мозга и сетчатка глаза, которая, собственно говоря, тоже представляет собой часть мозга, вынесенную на периферию. С компьютерами самого недавнего прошлого нечего было и мечтать о создании искусственной зрительной системы. Но сейчас мощностей современных компьютеров уже хватает для решения хотя бы части задач анализа зрительной информации. Стремительно развивается производство сравнительно дешевых специализированных ком- пьютерных видеокамер. В то же время вводимые ими изображения используются только для передачи через интернет. В связи с этим становится актуальной задача разработки программных средств, которые могли бы обрабатывать вводимые изображения и анализировать содержащуюся в них визуальную информацию. Одна из наиболее простых задач такого рода – определение присутствия человека перед монитором компьютера, что позволит, например, гасить экран, когда человек отсутствует. Это экономит электроэнергию и продлевает срок службы монитора. Следующая задача – определение личности работающего за компьютером человека. Это позволит повысить надежность обеспечения прав доступа к информации и одновременно сделать эту процедуру более дружественной по отношению к человеку.

Большинство алгоритмов распознавания лиц предполагают, что положение лица в кадре известно или же оно легко выделяется на окружающем фоне. Однако во многих случаях это далеко не так. Вообще говоря, этап определения наличия и положения лица в кадре так или иначе обязательно должен быть пройден перед выполнением собственно распознавания. Поэтому проблема обнаружения и локализации лица на изображении является весьма актуальной и имеет самостоятельное значение.

Существует множество различных подходов в решении задачи локализации на изображении лица человека и его деталей. Одно из направлений заключается в поиске на изображении заданных шаблонов лица или отдельных его частей. Для поиска соответствия шаблона с участками изображения могут использоваться различные методы [1], начиная с простого вычитания изображений и заканчивая разложением по базису "собственных" лиц. Одним из наиболее перспективных методов такого поиска является корреляция шаблона с изображением [2, 3].

В настоящей работе рассматриваются две системы локализации лиц людей на изображении, разработанные в институте проблем искусственного интеллекта (г. Донецк). Первая из них используется для определения факта присутствия человека перед монитором компьютера и управления его включением и выключением. Вторая позволяет точнее определить положение и размер лица на изображении и может послужить основой для построения системы распознавания человека по его лицу.

Система КОЛО (компьютерное обнаружение лица оператора) [5] использует тот факт, что лицо человека имеет характерную форму, близкую к эллиптической, и его контур может быть аппроксимирован эллипсом.

Работа этой системы после предварительной обработки изображения начинается с детектирования границ, для чего используется оператор градиента в виде:

, (1)

где I(x,y) – яркость изображения в точке (x,y). Использование такого выражения вместо более точного квадратного корня из суммы квадратов практически не ухудшает оценки модуля градиента, но вычисляется значительно быстрее. Одновременно с вычислением абсолютного значения градиента (1) выполняется подавление слабых границ, на которых величина градиента не превышает определенный порог. Оставшиеся ненулевые точки соответствуют границам. Однако эти границы имеют некоторую конечную толщину и в таком виде не могут быть использованы. Поэтому выполняется утончение линий подавлением немаксимальных точек в перпендикулярном к границе направлении (то есть в направлении градиента).

В результате контур лица, содержащегося на изображении (как и границы других объектов), будет представлен в виде карты границ, представляющей собой "изображение", на котором первоначально обнаруженные точки границ отмечены белым цветом на черном фоне. Линии границ хотя и имеют толщину равную одному пикселу, но их точки никак не связаны между собой. Прежде чем с этими границами что-либо делать, необходимо их проследить и связать вместе точки, принадлежащие отдельным фрагментам границ. Кроме того, необходимо разделить ошибочно соединенные фрагменты границ разных объектов и соединить мелкие фраг- менты границы одного объекта. Отсюда вытекает необходимость предварительной обработки най- денных границ, которая выполняется в несколько этапов.

Вначале на карте границ обнаруживаются и сбрасываются точки, соответствующие ситуациям, которые могут мешать прослеживанию фрагментов, то есть точки пересечений и Т-образных соединений. Затем отмечаются те точки границ, которые представляют собой концы фрагментов, и удаляются единичные точки, которые могут мешать последующим соединениям. Далее соединяются фрагменты, концы которых отстоят друг от друга на один пиксел. Затем связываются вместе точки, составляющие отдельные фрагменты границ. Далее выполняются разрывы фрагментов в точках резких поворотов (здесь, скорее всего, соединились фрагменты границ разных объектов). Затем с учетом информации о том, с какой стороны от фрагмента светлая область, а с какой темная, можно выполнить соединение фрагментов, которые представляют собой части одной и той же границы. На заключительном шаге предварительной обработки границ выполняются разрывы фрагментов в точках перегибов. Смысл этой операции в том, что точки перегиба могут указывать на переход от одной границы к другой, например, на переход от контура головы к контуру плеча (рис. 1).

Подпись:
Рис. 1. Примеры границ После выполнения предыдущих шагов будет получено множество фрагментов границ различных объектов, присутствующих на сцене. Возникает проблема выделить из этой смеси фрагменты границ лица или головы, соединив которые, можно определить положение лица на изображении. Для решения этой задачи воспользуемся тем, что контуры лица и головы на изображении имеют характерную форму, близкую к эллиптической [4].

Точки возможного контура лица или головы (принадлежащие отдельным фрагментам границ) аппроксимируются эллипсом, уравнение которого можно представить в следующем линеаризованном виде:

. (2)

В отличие от Sirohey [4] мы допускаем, что эллипс (2) может быть наклонен. Кроме того, аппроксимация эллипсом точек выполняется не только для пар фрагментов, но и для единичных достаточно больших фрагментов. В критерий оценки качества аппроксимирующего эллипса вводится суммарная длина фрагментов, относящихся к найденному эллипсу. Причем входящие в критерий ошибка аппроксимации и суммарная длина фрагментов для устранения зависимости от масштаба изображения нормируются на размер эллипса. В результате весовая функция, характеризующая "качество" найденного эллипса, примет вид:

. (3)

Здесь N – оценка суммарной длины найденных частей эллипса, в качестве которой принята сумма длин дуг (то есть угловых размеров) фрагментов; a и b – полуоси; e – ошибка аппроксимации.

Следующее дополнение алгоритма связано с тем, что искомый контур головы вследствие шума на изображении может быть разорван на несколько фрагментов, число которых превышает 2. При построении эллипсов по парам фрагментов такому контуру будет соответствовать несколько эллипсов с близкими параметрами. Их число может достигать при M фрагментах, то есть растет квадратично с ростом M. Качество же всех этих эллипсов из-за небольших размеров фрагментов будет малым. Объединение таких близких эллипсов позволит получить один эллипс, имеющий высокое значение критерия W.

Отметим также, что в результате работы алгоритма на изображении может быть обнаружено несколько эллипсов, однако не все из них будут соответствовать лицам, поэтому необходимо отобрать только лучшие (по критерию (3)) из них.

Проведенные испытания системы КОЛО [5] показали ее высокую эффективность при различных условиях освещения и независимость от наклонов и поворотов головы. В то же время эта система в ряде случаев не позволяет правильно оценить размер лица и определить его точное положение.

Использование корреляционного подхода для поиска лиц. Одна из основных проблем, с которой приходится сталкиваться при решении задачи обнаружения лица, – это различие условий получения изображения. Особенно важны условия освещения (рис. 2). При изменении освещения изображение лица может существенно меняться, появляются тени, которые вносят существенный вклад в значение корреляции с равномерно освещенным шаблоном.

Подпись:
Рис. 2. Изображения лица, полученные при разных усло-виях освещения Для устранения влияния условий освещения разобьем лицо на конечное число областей, яркость точек в которых можно связать с яркостью точек шаблона линейным преобразованием:

, (4)

здесь It – распределение яркости шаблона; I – распределение яркости тестируемой области изображения; a и b – действительные числа. Назовем эти области областями однородного освещения.

Для устойчивого обнаружения лица области однородного освещения должны быть достаточно большими и включать в себя характерные особенности лица.

Описанное выделение областей однородного освещения и сравнение их с соответствующими областями шаблонного изображения с учетом условия (4) позволяет существенно снизить влияние яркости и контрастности изображения на обнаружение лиц.

В качестве основного признака, выделяющего лица в пространстве изображений, будем использовать значение корреляции исследуемого изображения и шаблона. Шаблон представляет собой изображение центральной части лица, содержащее основные его элементы: глаза, брови, нос и рот (рис. 3). В качестве корреляционной функции используется сумма значений корреляционных функций в предполагаемых областях однородного освещения:

, здесь , (5)

где Shi и Ii – яркости соответствующей точки шаблона и тестируемого изображения; N – число областей однородной освещенности, каждой из которых соответствует свой индекс i.

Использовалось два фиксированных варианта разбиения шаблона на области однородной освещенности, показанных на рисунке 3. Целевая функция, определяющая соответствие данной точки изображения шаблону, строилась в виде взвешенной суммы S1 и S2:

Подпись:
Рис. 3. Разбиение на области од-нородной освещенности Подпись:
Рис. 4. Обнаружение лиц разных масштабов

, (6)

где S1 и S2 – суммы значений корреляционных функций для каждого из вариантов разбиения, a и b – весовые коэффициенты, такие, что их сумма a+b=1.

Целевая функция (6) достигает максимума в тех областях изображения, которые наиболее похожи на заданный шаблон, то есть лицо человека. Для обнаружения лиц людей на изображениях необходимо определить весовые коэффициенты a и b, а также пороговое значение целевой функции (6).

Подпись: Таблица
Масштаб (межзрачковое расстоян.) 22 26 30 35 40 45 53 60
Порог Мин. суммы ошибок 0.979 0.979 0.979 0.980 0.980 0.981 0.982 0.983
Мин. ложных обнаружений 0.980 0.980 0.980 0.981 0.982 0.983 0.984 0.985 Как правило, размер лица в кадре непостоянный и может изменяется в некотором диапазоне (рис. 4). Поэтому для обнаружения лиц произвольных масштабов необходимо искать соответствие несколько раз, изменяя масштаб либо шаблона, либо исходного изображения. В наших исследованиях проводилось обнаружение лиц восьми масштабов, размеры которых изменялись в 1.15 раза (34´46, 40´53, 45´60, 53´71, 60´80, 68´91, 80´106, 91´121 на изображении размером 320´240).

Следует отметить, что весовые коэффициенты a и b, а также пороговое значение целевой функции (6) могут быть различными для различных масштабов.

Для определения весовых коэффициентов и соответствующего им порогового значения целевой функции (6) были проведены специальные эксперименты, в ходе которых на вход системы подавались изображения, содержащие лица людей различных масштабов, а также изображения фона. Общее число изображений составило 4500. Из них половина изображений содержала лица людей, а половина нет. Результаты этих исследований приведены на рисунке 5. По вертикальной оси отложена величина S1 (для разбиения шаблона на 16 частей, показанного на рисунке 3 справа), по горизонтальной – S2 (для разбиения шаблона на 4 части, показанного на рисунке 3 слева). Точки соответствуют отдельным изображениям.

Точки изображений лиц и фона в пространстве параметров S1 и S2 частично перекрываются. Поэтому на рисунке 5 они разделены и приведены отдельно: слева – изображения фона, справа – лиц.

На основе приведенных данных по критерию минимизации суммы ошибок первого и второго рода для каждого из масштабов лиц было рассчитано уравнение прямой, наилучшим образом разделяющей области изображений лиц и не лиц. Для всех размеров шаблона такая прямая оказалась параллельной оси S1, то есть в выражении (6) a=0, b=1, и пороговое значение целевой функции (6) совпадает с порогом по S2. В таблице приведены значения порогов для каждого из масштабов лиц.

Подпись:
Рис. 5. Области лиц и не лиц в пространстве пара-метров S1 и S2 Если более важно не допускать ложного обнаружения лиц, величину порога следует увеличить (см. третью строку таблицы).

В заключение отметим, что обе рассмотренные системы позволяют эффективно обнаруживать лица людей на вводимых в компьютер изображениях. При размере поступающих на обработку изображений 320*240 точек скорость работы обеих программ различается незначительно и на компьютере с процессором Celeron-350 составляет 3-4 кадра в секунду. Каждая из систем имеет свои достоинства и недостатки. Так, система КОЛО практически нечувствительна к размерам лиц, наклонам и поворотам, а также к условиям освещения. Система, использующая корреляционный подход, довольно чувствительна к наклонам и поворотам головы, работает в ограниченном диапазоне размеров лица (расстояние между глазами на изображении должно составлять от 22 до 60 точек) и более чувствительна к условиям освещения. Вместе с тем, она позволяет точнее определять положение и размеры человеческих лиц, чем система КОЛО. Указанные достоинства и недостатки корреляционного метода определяют его возможную область применения – локализация изображений лиц в стандартной фронтальной проекции с целью облегчения их последующего распознавания.

Список литературы

1. Brunelli R., Poggio T. Template Matching: Matched Spatial Filters and Beyond. // Pattern Recognition, 1997, v.30, №.5. -p.751-768.

2. Brunelli R., Poggio T. Face Recognition through Geometrical Features. // Proceedings of ECCV'92, S. Margherita Ligure, -p.792-800.

3. Brunelli R., Poggio T. Face Recognition: Features versus Templates. // IEEE Trans on PAMI, 1993, v.15, №.10. - p.1042-1052.

4. Sirohey S.A. Human face segmentation and identification./ Technical Report CS-TR-3176 (CAR-TR-695). - University of Maryland, Nov.1993. -33p.

5. Нюнькин К.М. Компьютерная система автоматической локализации человеческих лиц на изображении. // Искусственный интеллект. - 1999. - № 1. -С.72-82.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=828&lang=	Версия для печати Выпуск в формате PDF (1.58Мб)
Статья опубликована в выпуске журнала № 2 за 2001 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Компьютерное обнаружение лиц людей на изображении