ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

2
Publication date:
16 June 2024

Human head modeling from images for virtual reality systems

The article was published in issue no. № 4, 2011 [ pp. 197 – 199 ]
Abstract:In this paper we propose a new method for building synthetic flexible model of human head from images. We present a novel heuristic algorithm and new metric for determination of similarity measure of built head model and facial features on input photographs. Applicability of proposed method for human head modeling from images is corroborated by results of experiments on real world data.
Аннотация:Описан алгоритм построения синтетической гибкой модели головы человека по изображениям. Предлагаются новый эвристический алгоритм и новая метрика для определения меры сходства построенной формы головы и черт лица на входных фотографиях. Применимость предложенного метода моделирования головы человека по изображениям подтверждена результатами тестирования алгоритма на реальных данных.
Author: (mfedyukov@graphics.cs.msu.ru) -
Keywords: active shape model, thin plate spline, Nelder–Mead method, generic algorithm, synthetic flexible model, 3D-reconstruction, computer vision
Page views: 10534
Print version
Full issue in PDF (5.83Mb)
Download the cover in PDF (1.28Мб)

Font size:       Font:

Задача моделирования головы человека является актуальной во многих областях: при идентификации, отслеживании, видеокодировании на базе трехмерных моделей, моделировании виртуального присутствия и других. В зависимости от применения моделирование может проводиться с помощью трехмерного лазерного сканера, по стереопаре, по одной фотографии либо по набору изображений – фотографиям или кадрам видеопоследовательности. При постановке задачи реконструкции модели всей головы (а не только лица) с минимальными требованиями к входным данным оптимальным является последний подход. Методы моделирования можно классифицировать и по типу выходных данных. В некоторых работах ими является облако точек. Во многих работах реконструированная форма представляется в виде полигональной модели.

Отдельной задачей, ставшей актуальной с развитием систем виртуальной реальности, является реконструкция гибких моделей [1], описывающих форму головы компактным набором параметров. Широко используемыми гибкими моделями являются активные модели формы [2], активные модели внешнего вида [3], морфируемые модели [4], однако все они получены из реальных статистических данных (БД фотографий лиц, БД трехмерных отсканированных моделей лиц). В данной работе рассматривается подход, основанный на синтетических гибких моделях головы. Положительной стороной таких моделей является четкое соответствие морфологическим характеристикам головы человека, таким как расстояние между глазами, пухлость губ или глубина ямочки на подбородке LAD [5]. Как следствие, в зависимости от приложения преимуществами могут являться простота ее редактирования неподготовленным пользователем, возможность работы с ней на уровне возрастных, гендерных или этнотерриториальных морфологических характеристик.

Другим преимуществом таких моделей является их компактное представление: в клиент-серверной архитектуре достаточно передать гибкую модель один раз, а впоследствии передавать только набор ее параметров, что ускоряет отправку клиенту нескольких моделей и их анимацию. Сложность работы с такими моделями в невозможности для некоторых входных фотографий реконструировать ряд черт лица с достаточной точностью из-за отсутствия соответствующих параметров в модели.

Предлагаемый метод

Формализуем общепринятое понятие полигональной модели. Полигональная модель – четверка , где  – вектор вершин (пространственных координат), ;  – вектор текстурных координат, ;  – вектор нормалей, ;  – матрица полигонов (треугольников), , . Параметрическая модель – , где  – базовая полигональная модель, задающая координаты вершин по умолчанию,  – матрица смещений, ;  – вектор параметров модели, , . Решаемая задача заключается в разработке алгоритма, определяющего значения всех параметров  и текстуру по набору из 1–4 фотографий (анфас, в профиль слева, в профиль справа и сзади). Базовая полигональная модель предварительно размечена. Универсальная разметка u  представляет собой набор векторов , элементами которых являются индексы  вершин базовой полигональной модели. Таким образом, вектор , где , задает ломаную, узлами которой являются вершины базовой полигональной модели. Каждая ломаная описывает одну характерную черту лица человека, такую как контур глаза, носа, или всей головы. Разметка (и соответствующие ломаные) задана для каждой проекции – анфас, в профиль слева, в профиль справа и сзади. Однако в силу того, что работа с разметкой (и ломаными) на большинстве этапов происходит одинаково для каждой проекции, для упрощения записи, где это возможно, будем писать  и , не уточняя используемую проекцию.

Распознавание антропометрических точек. Для решения задачи распознавания антропометрических точек лица, таких как центры зрачков и уголки губ, используется модификация метода активной модели формы, в которой в соответствии с поставленной задачей пренебрежем оптимизацией алгоритма по скорости, однако максимизируем точность распознавания характерных точек. В предложенной модификации высокая точность достигается за счет использования двухмерных моделей профилей характерных точек вместо одномерных, увеличения числа собственных векторов, используемых в модели формы, увеличения диапазона допустимых значений параметров на верхнем уровне гауссовой пирамиды изображения, а также за счет расширения набора характерных точек. Тренировка алгоритма производилась на нормальных фотографиях, то есть фотографиях лиц с нейтральными эмоциями, с открытыми глазами, без очков и без объектов, загораживающих часть лица. Инициализация алгоритма активной модели формы осуществляется с помощью метода Виолы–Джонса, показавшего более устойчивое обнаружение нормальных лиц, чем метод Роули.

После нахождения антропометрических точек на каждую фотографию проецируется соответствующий набор ломаных: , где  – оператор ортогонального проецирования на координатную плоскость. Узлы спроецированных ломаных, соответствующие найденным характерным точкам, перемещаются в подходящие им координаты. По ним вычисляется матрица аффинного преобразования, с помощью которой перемещаются все остальные узлы каждой ломаной. После этого дополнительно скорректировать положение узлов спроецированных ломаных  можно вручную. В дальнейшем, не ограничивая общности, будем полагать, что на вход системе подаются две фотографии: анфас и в профиль справа. Работа системы с тремя или четырьмя фотографиями производится аналогично работе с двумя. В случае же подачи системе на вход только фотографии анфас в качестве  используются контуры, описывающие среднестатистическую модель головы.

Регистрация фотографий. На данном этапе фотографии как текстурированные прямоугольники располагаются в , корректируются их положение, поворот и масштаб. Полагаем, что плоскость  расположена горизонтально, ось  направлена на наблюдателя, ось  – вправо, ось  – вверх. Сначала определяется положение фотографии анфас. Она располагается в плоскости  и поворачивается вдоль оси  таким образом, чтобы ось симметрии ломаных  на ней совпадала с осью . Затем фотография в профиль располагается в плоскости , и ее положение, поворот и масштаб определяются при помощи минимизации среднеквадратичного отклонения вершин, входящих одновременно как в набор ломаных для фотографии анфас , так и в набор ломаных для фотографии в профиль .

Построение параметрической модели. На этом шаге положение узлов ломаных  считается фиксированным. Целью является подгонка проекций ломаных, задаваемых параметрической моделью, к ломаным, полученным на предыдущем этапе, то есть нахождение значений параметров , минимизирующих невязку между ломаными. Набор ломаных  разбит на  групп таким образом, чтобы в первой группе содержались контуры всего лица и минимальный набор характерных точек всех черт лица, а в остальных  группах содержался контур только одной черты лица. На каждом этапе минимизируется функционал невязки , где  – евклидово расстояние между вершинами фиксированных ломаных  (соответствующих антропометрическим точкам, найденным на предыдущем этапе) и вершинами итерируемых ломаных . Минимизация осуществляется грубо/точным алгоритмом: для выполнения грубого этапа используется генетический алгоритм, позволяющий оптимизировать большой набор параметров и избежать попадания в ближайший локальный минимум, точные этапы подгонки отдельных черт лица осуществляются с помощью метода Нелдера–Мида.

Интерполяция неразмеченных вершин. Полученный набор параметров  минимизирует отклонение контуров характерных черт лица на модели  от контуров на входных фотографиях. Однако в зависимости от заданной матрицы смещений  значения функционалов невязки могут быть достаточно большими и получаемая модель  может быть недостаточно точной для генерации текстуры по ней. Для решения этой проблемы создается полигональная модель  – копия базовой модели . Затем ломаные на фотографиях  проецируются оператором  из  в  (получаемые ломаные обозначим ): , , а значение z-компоненты восстанавливается из исходной модели: . Подгонка полигональной модели  происходит итеративно. На каждой итерации  вершины, принадлежащие одной черте лица (заданной разметкой ), перемещаются в соответствующие координаты :. Кроме того, на каждой итерации перемещаются вершины, лежащие в окрестности . Окрестность также находится итеративно. Каждой вершине модели  присваивается вес . Изначально вес каждой из вершин равен 0. На первой итерации вес каждой вершины, принадлежащей текущей черте лица,  принимается равным 1. На очередной итерации  перебираются все вершины модели , соединенные ребрами с вершинами, участвовавшими в предыдущей итерации, за исключением вершин , не принадлежащих черте лица итерации . Вес перебираемых вершин вычисляется следующим образом: , где  – тонколистовой сплайн, обеспечивающий гладкий вид функции интерполяции;  – расстояние между перебираемой и фиксированной вершинами;  – масштабный коэффициент, характеризующий жесткость сплайна.

Генерация текстуры. Для генерации текстуры создается полигональная модель . В случае фотографии анфас значения элементов  задаются следующим образом: , , , , , где  – компоненты вектора пространственных координат (вершин) модели ;  – компоненты вектора текстурных координат модели ;  – оператор ортогонального проецирования. Полученная плоская полигональная модель визуализируется в текстуру (в данном случае фронтальную) с помощью растеризации полигонов на графическом процессоре. Аналогично генерируется текстура по фотографии в профиль. Для использования на этапе смешивания текстур генерируется карта нормалей  модели . Значения в каждой точке маски смешивания вычисляются как косинус угла между осью  и нормалью в данной точке.

В заключение необходимо отметить, что тестирование алгоритма производилось на открытой базе фотографий лиц CVL Face Database, содержащей цветные фотографии анфас и в профиль лиц разных рас и национальностей в возрасте от 18 до 94 лет. Было проведено сравнение предложенного алгоритма с двумя другими алгоритмами моделирования синтетических параметрических моделей, доведенными до уровня коммерческой реализации и позволяющими, таким образом, проведение сравнения на произвольном наборе фотографий: AvMaker, разработанный американской компанией CyberExtruder Inc., работающий с моделью LAD [5], и FaceGen, разработанный канадской компанией Singular Inversions Inc., работающий с собственной синтетической гибкой моделью. Сравнение проведено методом субъективного тестирования, для чего было выбрано 20 пар фотографий, по каждой паре построены модели предложенным методом, а также в системах AvMaker и FaceGen. Для проведения эксперимента был разработан специальный интерфейс, на каждом этапе которого участнику демонстрировалась сначала случайно выбранная пара фотографий с предложением запомнить лицо, затем, на следующем экране – выстроенные в случайном порядке снимки экрана с текстурированными моделями, построенными тремя сравниваемыми алгоритмами, с возможностью поставить каждой модели оценку от 1 до 10. Семнадцати участникам-добро­вольцам в возрасте от 16 до 48 лет было предложено оценить 20 наборов построенных моделей. Коэффициент согласия между участниками эксперимента рассчитывался как каппа Флайсса, значение которого составило , что является почти идеальным согласием по Лэндису–Коху. Усредненная оценка AvMaker составила 0,541, FaceGen – 0,769, предложенного метода – 0,908, что демонстрирует его значительное превосходство над существующими.

В статье представлен разработанный метод построения синтетической гибкой модели головы человека по набору изображений. Данный подход применим к любым гибким моделям, обладающим описанными свойствами.

Литература

1. Cristinacce D. and Cootes T. Automatic feature localisation with constrained local models. Pattern Recognition, 2008.

2. Cootes T. Deformable object modelling and matching. Asian Conference on Computer Vision. Queenstown, New Zealand. 2011.

3. Gao X. [et al.]. A review of active appearance models. IEEE Transactions on Systems, Man, and Cybernetics. Prague, Czech Republic. 2010.

4. Paysan P. [et al.]. A 3D face model for pose and illumination invariant face recognition. IEEE International Conference on Advanced Video and Signal Based Surveillance. Genova, Italy. 2009.

5. Agent appearance definition. URL: http://lib.openmetaver­se.org/wiki/AgentSetAppearance (дата обращения: 18.06.2011).


Permanent link:
http://swsys.ru/index.php?page=article&id=2950&lang=&lang=en&like=1
Print version
Full issue in PDF (5.83Mb)
Download the cover in PDF (1.28Мб)
The article was published in issue no. № 4, 2011 [ pp. 197 – 199 ]

Perhaps, you might be interested in the following articles of similar topics: