Методика решения задачи антиспуфинга по ограниченному количеству фотографий

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№4

Ожидается:

09 Декабря 2024

Выпуски

2024

2023

№4 2023

все выпуски

все статьи

Подписаться на RSS

Методика решения задачи антиспуфинга по ограниченному количеству фотографий

An anti-spoofing methodology for a limited number of photos

DOI:10.15827/0236-235X.129.054-060

Дата подачи статьи: 28.07.2019

УДК: 681.3.06 (075.32)

Статья опубликована в выпуске журнала № 1 за 2020 год. [ на стр. 054-060 ]
Аннотация:В настоящее время задача предоставления высокого уровня безопасности мобильных устройств, таких как смартфоны и планшеты, посредством биометрических подходов особо актуальна. В статье предложена методика решения задачи антиспуфинга по ограниченному количеству изображений. Исследуются детекции spoof-атак с использованием распечатанных фотографий и экранов мобильных устройств и мониторов. Показаны актуальность исследования и нерешенность задачи в целом. Рассмотрена структура типовой системы Liveness, состоящей из источника (камеры), препроцессинга получаемых изображений, детекции лиц, модуля признаков и классификатора. В ходе исследования отмечено, что предобработка получаемых изображений является одной из самых главных частей системы, так как вследствие обширности аугментаций признаки spoof-атак выявляются тяжело. Дается небольшой обзор современных архитектур сверточных нейронных сетей (в терминологии текущей архитектуры – энкодеров), а также показано, что линейный выход сверточных нейронных сетей можно использовать как вход для рекуррентных нейронных сетей типа LSTM. Отмечается, что для детекции лиц наилучшим алгоритмом в условиях текущей архитектуры является MMOD-метод. Итоговая архитектура системы Liveness представлена как комбинированный подход, состоящий из сверточной нейронной сети, получающей эмбеддинги от каждого кадра, и рекуррентной нейронной сети LSTM, использующей эти эмбеддинги на входе и обучающейся запоминанию последовательности определенных кадров и их характеристик. Представлены результаты экспериментов, показывающие показатели точности текущих разработок в данной области при условии довольно низких требований к вычислительной мощности. Данная методика позволяет достаточно достоверно определять поддельность фотографии по нескольким кадрам.
Abstract:Nowadays, the problem of providing a high security level of mobile devices, such as smartphones and tablets, through biometric approaches is particularly relevant. The paper proposes an anti-spoofing method for a limited number of images. The authors investigate the detection of spoof attacks using printed photos and screens of mobile devices and monitors. They show the relevance of the research and current unresolved problems. The paper considers the structure of a typical Liveness system consisting of a source (camera), pre-processing of received images, face detection, feature module and a classifier. The study shows that pre-processing of the obtained images is one of the most important parts of the system, since the signs of spoof attacks are difficult to detect due to the extensiveness of augmentations. There is a small review of modern architectures of convolutional neural networks (called encoders in the current architecture terminology). It is also shown that the linear output of convolutional neural networks can be used as an input for LSTM-type recurrent neural networks. It is noted that the best face detection algorithm in the current architecture is MMOD method. The resulting Liveness system architecture is presented as a combined approach consisting of two components: a convolutional neural network receiving embeddings from each frame and a LSTM re-current neural network that uses these insertions on the input and learns to remember sequences of cer-tain frames and their characteristics. The authors present experimental results showing the accuracy indicators of the current develop-ments in this field when computing power requirements are low. This methodology allows determining fake photos by several frames.

Авторы: Русаков К.Д. (rusakov.msk@yandex.ru) - Институт проблем управления им. В.А. Трапезникова РАН (младший научный сотрудник), Москва, Россия, Генов А.А. (vlad_osipovv@mail.ru) - НИИСИ РАН (профессор, ведущий научный сотрудник), г. Москва, Россия, доктор технических наук, Хиль С.Ш. (skhill@mail.ru ) - Московский авиационный институт (национальный исследовательский университет) (доцент), Москва, Россия, кандидат технических наук
Ключевые слова: рекуррентные нейронные сети, сверточные нейронные сети, распознавание лиц, живучесть, антиспуфинг
Keywords: recurrent neural networks, convolutional neural networks, face recognition, survivability, anti-spoofing
Количество просмотров: 7836	Статья в формате PDF Выпуск в формате PDF (4.91Мб)

Задача предоставления высокого уровня безопасности мобильных устройств, таких как смартфоны и планшеты, посредством биометрических подходов является особо актуальной. В данном направлении активно исследовались системы проверки радужной оболочки [1] и отпечатков пальцев [2], в настоящее время используемые в различных системах безопасности. Эти подходы гарантируют высокую эффективность, однако требуют преднамеренного контакта с устройством, что, по мнению пользователей, неудобно. Для решения этой задачи в качестве альтернативы наибольшую популярность получил метод распознавания лица. Однако он уязвим при различных spoofing-атаках (spoofing – подмена), в которых используются фотографии или видео человека из Интернета или с камеры. В контексте компь- ютерного зрения spoofing-атака – ситуация, в которой один человек (или программа) успешно маскируется под другого путем фальсификации его визуальных данных, что позволяет получить незаконные преимущества. Например, напечатанные фотографии (рис. 1б), имитирующие маски (рис. 1а) и снимки с экрана (рис. 1в), используются для несанкционированных попыток входа в систему. Кроме того, злоумышленник может захватывать видеопоследовательности, отражающие мимику, непроизвольные изменения лица, например, моргание глаз, и воспроизводить их, чтобы проникнуть в систему безопасности. Некоторые исследователи приложили немало усилий для разработки подходов, позволяющих отли- чать живые лица от поддельных на основе информации о движении, спектре и качестве изображения.

С одной стороны, чаще всего для противодействия spoofing-атакам используются подходы, основанные на анализе видеопоследовательностей. Они нацелены на выявление естественных изменений лица, например, мигание глаз [3], движение рта [4] и вращение голо- вы [5]. В частности, в [3] авторы детектировали моргание глаз на основе неориентированной условной графической структуры, а в [4] предложили использовать видеопоток части изображения в области рта. Они спроецировали векторы скорости на свою интуитивно понятную модель и извлекли статистику движений губ, чтобы определить, насколько лицо является неподдельным. В [6] предложено использовать корреляции между движениями головы пользователя и фоном, которые указывают на spoofing-атаку. Хотя эти подходы концептуально просты, для отслеживания компонентов лица необходимо достаточно большое количество кадров, что требует увеличения времени обнаружения и дополнительных активных действий пользователя, а также нагружает канал связи в случае удаленного API-сервера.

С другой стороны, методы, основанные на спектре, явно рассчитывают разницу между классами, настоящими и поддельными лицами. В [7] авторы измеряли различия в отражениях между настоящими и поддельными лицами на основе яркости при различном освещении, после чего эти оценочные значения были применены к линейному дискриминанту Фишера. В работе [8] была применена эффективная методика детектирования spoofing-атак всего лишь по единичному экземпляру. Особенность алгоритма заключается в построении карты скорости диффузии к изображениям, пропущенным через специальные фильтры адаптивной нелинейной фильтрации.

Помимо указанных методов, возможно применение эффективных комбинированных алгоритмов, способных улавливать и пространственные, и временные признаки фотографий. Так, специалисты лаборатории компьютерного зрения Мичиганского технического универ- ситета в своей работе [9] исследовали два направления борьбы с spoofing-атаками: пространственный анализ (карт глубины лиц) и временной (анализ rPPG-сигнала по видеопоследовательности). Решение о поддельности фотографии принимается совместно по этим двум составляющим.

Несмотря на достаточно большое количество работ в данном направлении, задача противодействия spoofing-атакам до сих пор остается актуальной. Во-первых, ни один из перечисленных подходов не позволяет однозначно и безошибочно решить задачу, во-вторых, все высокоточные методы имеют большую расчетную сложность и ресурсоемкость, а иногда требуют высокоскоростных каналов передачи данных [10].

Система Liveness

Типичная структурная схема системы обнаружения неподдельного лица (система Live- ness) показана на рисунке 2. Чтобы использовать систему Liveness, пользователь должен представить соответствующую биометрическую характеристику сенсору, в данном слу- чае – камере. Захваченные изображения лица предварительно обрабатываются (например, с помощью методов нормализации и удаления шума, пропуска через определенные фильтры и т.п.), поскольку отдельные неподдельные черты лица впоследствии могут быть извлечены в модуле извлечения признаков. Также в модуль предварительной обработки может быть включен модуль детекции лица, целью которого является определение наличия лица на фотографии как такового. Результатом работы модуля извлечения признаков является биометрический шаблон (эмбеддинг), который содержит совокупность элементов (признаков), позволяющих отличить настоящие образцы от поддельных.

Источник (камера). В ходе исследования были изучены различные камеры на различных устройствах. Обычно для подачи входных образцов в систему определения неподдельности лица и его биометрических показателей используются камеры высокого качества на таких телефонах, как Iphone7, SamsungS6, IPad3 и выше. Камеры видимого света являются одними из наиболее используемых устройств, по- скольку они дешевле, быстрее, с более высо- ким разрешением и просты в применении. Од- нако такие камеры ограничены съемкой только тех изображений, которые имеют видимый световой спектр 3,5–26. Кроме того, камеры плохого качества усложняют определение неподдельного лица, поскольку лица на фото, сделанных с таких камер, выглядят сильно смазанными и зашумленными. Также, например, возможно использование 3D-датчиков, так как они имеют высокую скорость сбора данных, не зависящую от окружающего освещения, с точностью до микронного диапазона. 3D-датчики могут зависеть от вычислений, времени измерения, стоимости и качества, ожидаемых от измерения.

Препроцессинг. На систему Liveness могут влиять различия в освещении, позе человека и качестве изображения. Чтобы повысить эффективность обнаружения неподдельности фото, несколько систем осуществляют его предварительную обработку, которая обычно включает в себя удаление шума с изображения и пропуск через определенные фильтры (например, баланс белого). После этого, как правило, образцы поступают в модуль детекции лиц для определения факта наличия/отсутствия лица. Далее следуют этапы нормализации для улучшения визуального представления изображений лица для выделения признаков. Методы могут включать сглаживание, размытие, резкость, обнаружение краев или масштабирование. Затем предварительно обработанные образцы направляются в модуль извлечения признаков, чтобы выбрать существенные признаки, позволяющие дифференцировать настоящие образцы от поддельных аналогов.

Детекция лица. Перед определением неподдельности лица необходимо обнаружить его на фото. Большинство методов обнару- жения лиц работают с помощью двоичного классификатора, после чего следует шаг так называемого немаксимального подавления, заключающийся в том, что перекрывающиеся прямоугольники, в которых найдено лицо, удаляются. Поскольку число возможных прямоугольников, в которых могут находиться лица, в наборах данных изображений даже умеренного размера чрезвычайно велико, классификатор обычно обучается только на подмножестве прямоугольников. Одним из перспективных и наиболее популярных методов детекции лиц является метод Max-Margin Object Detection (MMOD) [11]. Этот метод оптимизирует все прямоугольники. Он может быть использован для улучшения любого метода обнаружения лиц, который является линейным по изучен- ным параметрам, таким как HOG (гистограммы направленных градиентов).

Модули извлечения признаков (энкодеры). Для получения важных признаков из изображений принято использовать сверточные нейронные сети (рис. 3). Технически эти сети в процессе обучения и тестирования каждое входное изображение пропускают через серию сверточных слоев с фильтрами, объединениями и полностью связанными слоями.

На выходе последнего линейного слоя у сверточной нейронной сети получается вектор определенной длины, который иногда называется эмбеддингом. Данный вектор содержит наиболее важную информацию о полученном на входе сети изображении. Так как по факту нейросеть сворачивает исходное изображение в небольшой вектор, ее иногда называют энкодером.

Методика детекции spoofing-атак в условиях ограниченного количества фотографий

Основная идея методики детекции spoofing-атак заключается в учете временных характеристик, полученных путем применения наиболее эффективного в этом плане энкодера для объекта съемки.

Как показано на рисунке 4, предлагаемая архитектура позволяет совместно учитывать и признаки, полученные модулем извлечения признаков (CNN), и временные характеристики с помощью сети LSTM. Рекуррентные нейронные сети, основанные на этом подходе, имеют более продвинутый (и более сложный) способ вычисления ht. Данный способ [12], помимо входных значений и предыдущего состо- яния сети, использует также фильтры (gates), определяющие, каким образом информация будет использоваться для вычисления как выходных значений на текущем слое yt, так и значений скрытого слоя на следующем шаге ht+1. Весь процесс вычисления ht для простоты упоминается как LSTM-слой.

Рассмотрим подробнее структуру LSTM-слоя [13, 14]. Центральным понятием здесь является запоминающий блок (memory cell), который наряду с состоянием сети h вычисляется на каждом шаге, используя текущее входное значение xt и значение блока на предыдущем шаге ct−1. Входной фильтр (input gate) i t определяет, насколько значение блока памяти на текущем шаге должно влиять на результат. Значения фильтра варьируются от 0 (полностью игнорировать входные значения) до 1, что обеспечивается областью значений сигмоидальной функции: i t = s( Wixt + Uiht-1).

Фильтр забывания (forget gate) позволяет исключить при вычислениях значения памяти предыдущего шага: f t = s(Wfxt + U fht-1).

На основе всех данных, поступающих в момент времени t, вычисляется состояние блока памяти ct на текущем шаге, используя фильтры: c*t = tanh(Wxt + Uht-1), f t = f tc t-1 + it c*t.

Выходной фильтр (output gate) аналогичен двум предыдущим и имеет вид ot = s(Woxt + + Uoht-1).

Итоговое значение LSTM-слоя определяется выходным фильтром (output gate) и нелинейной трансформацией над состоянием блока памяти: ht = ot tanh(ct).

В качестве энкодера была выбрана стандартная структура ResNet101 с небольшими изменениями линейного слоя. На входе LSTM получены эмбеддинги xt + i и значения целевой переменной (Live/Spoof), которые обучали архитектуру CNN–LSTM, используя бинарную кросс-энтропию как функцию потерь: где yi – метка (Live/Spoof); p(yi) – вероятность того, что метка будет равна 1 для всех N примеров.

Результаты эксперимента

Архитектура тестировалась на данных, полученных при различном освещении с различных мобильных устройств. В таблице приведены итоги тестирования.

Различные типы spoofing-атак были применены к разному количеству уникальных субъ- ектов (уникальных лиц), при этом количество примеров означает все возможные комбинации кадров в соответствии с указанными требованиями в рамках одного уникального субъекта. Точность на тестовой выборке определялась по формуле , где TP – истинно-положительные примеры; TN – истинно-отрицательные примеры; FP – ложно-положительные примеры; FN – ложно-отрицательные примеры.

Заключение

Разработанная методика построена на ранее проведенных исследованиях и тестировании моделей и подходов различных структур в условиях, наиболее приближенных к повседневным. Данная методика позволяет на достаточно высоком уровне определять поддельность фотографии по нескольким кадрам. Среди недостатков модели отмечается все еще присутствующая уязвимость фото высокой четкости.

Публикация выполнена в рамках госзадания ФГУ ФНЦ НИИСИ РАН (выполнение фундаментальных научных исследований ГП 14), тема № 0065-2019-0001 (АААА-А19-119011790077-1).

Литература

1. Bhaganagare B.B., Harale A.D. Iris as biometrics for security system. Proc. ICECCT, Coimbatore, 2017, pp. 1–7. DOI: 10.1109/ICECCT.2017.8117952.

2. Ivanov V.I., Baras J.S. Authentication of fingerprint scanners. Proc. IEEE ICASSP, Prague, 2011, pp. 1912–1915.

3. Pan G., Sun L., Wu Z., Lao S. Eyeblink-based antispoofing in face recognition from a generic Webcamera. Proc. IEEE 11th ICCV’07, Rio de Janeiro, Brazil, 2007, pp. 14–20. DOI: 10.1109/ICCV.2007.4409068.

4. Kollreider K., Fronthaler H., Faraj M.I., Bigun J. Real-time face detection and motion analysis with application in ‘liveness’ assessment. Proc. IEEE Trans. Inf. Forensics Security, 2007, vol. 2, no. 3, pp. 548–558. DOI: 10.1109/TIFS.2007.902037.

5. Sun L., Pan G., Wu Z., Lao S. Blinking-based live face detection using conditional random fields. Proc. Intern. Conf. Adv. Biometrics, Seoul, Korea, 2007, pp. 252–260.

6. Anjos A., Chakka M.M., Marcel S. Motion-based counter-measures to photo attacks in face recognition. IET Biometrics, 2014, vol. 3, no. 3, pp. 147–158.

7. Charnes A., Cooper W.W. and Rhodes E. Measuring the efficiency of decision making units. Europ. J. Operation Research, 1978, vol. 2, pp. 429–444.

8. Kim Y., Na J., Yoon S., Yi J. Masked fake face detection using radiance measurements. J. Opt. Soc. Amer. A., 2009, vol. 26, no. 4, pp. 760–766.

9. Kim W., Suh S., Han J. Face liveness detection from a single image via diffusion speed model. Proc. IEEE Trans Image Process., 2015, vol. 24, no. 8, pp. 2456–2465. DOI: 10.1109/TIP.2015.2422574.

10. Ефремов И.А., Мамросенко К.А., Решетников В.Н. Методы разработки драйверов графической подсистемы // Программные продукты и системы. 2018. № 3. С. 425–429. DOI: 10.15827/0236-235X.123.425-429.

11. Liu Y., Jourabloo A., Liu X. Learning deep models for face anti-spoofing: Binary or auxiliary supervision. Proc. CVPR, IEEE, 2018. URL: https://ieeexplore.ieee.org/document/8578146/authors#authors (дата обращения: 20.07.2019). DOI: 10.1109/CVPR.2018.00048.

12. King D.E. Max-Margin Object Detection. 2015. URL: https://arxiv.org/abs/1502.00046 (дата обращения: 20.07.2019).

13. Hochreiter S., Schmidhuber J. Long short-term memory. Neural Computation. 1997, vol. 9, no. 8, pp. 1735–1780. DOI: 10.1162/neco.1997.9.8.1735.

14. Будыльский Д.В. GRU и LSTM: современные рекуррентные нейронные сети // Молодой ученый. 2015. № 15. С. 51–54.

References

Bhaganagare B.B., Harale A.D. Iris as biometrics for security system. Proc. ICECCT, Coimbatore. 2017, pp. 1–7. DOI: 10.1109/ICECCT.2017.8117952.
Ivanov V.I., Baras J.S. Authentication of fingerprint scanners. Proc. IEEE ICASSP. Prague, 2011,
pp. 1912–1915.
Pan G., Sun L., Wu Z., Lao S. Eyeblink-based antispoofing in face recognition from a generic Webcamera. Proc. IEEE 11th ICCV’07. Rio de Janeiro, Brazil, 2007, pp. 14–20. DOI: 10.1109/ICCV.2007.4409068.
Kollreider K., Fronthaler H., Faraj M.I., Bigun J. Real-time face detection and motion analysis with application in ‘liveness’ assessment. Proc. IEEE Trans. Inf. Forensics Security. 2007, vol. 2, no. 3,
pp. 548–558. DOI: 10.1109/TIFS.2007.902037.
Sun L., Pan G., Wu Z., Lao S. Blinking-based live face detection using conditional random fields. Proc. Intern. Conf. Adv. Biometrics. Seoul, Korea, 2007, pp. 252–260.
Anjos A., Chakka M.M., Marcel S. Motion-based counter-measures to photo attacks in face recognition. IET Biometrics. 2014, vol. 3, no. 3, pp. 147–158.
Charnes A., Cooper W.W., Rhodes E. Measuring the efficiency of decision-making units. Europ. J. Operation Research. 1978, vol. 2, pp. 429–444.
Kim Y., Na J., Yoon S., Yi J. Masked fake face detection using radiance measurements. J. Opt. Soc. Amer. A. 2009, vol. 26, no. 4, pp. 760–766.
Kim W., Suh S., Han J. Face liveness detection from a single image via diffusion speed model. Proc. IEEE Trans. Image Process. 2015, vol. 24, no. 8, pp. 2456–2465. DOI: 10.1109/TIP.2015.2422574.
Efremov I.A., Mamrosenko K.A., Reshetnikov V.N. Methods of developing graphics subsystem drivers. Software & Systems. 2018, no. 3, pp. 425–429. DOI: 10.15827/0236-235X.123.425-429 (in Russ.).
Liu Y., Jourabloo A., Liu X. Learning deep models for face anti-spoofing: Binary or auxiliary supervision. Proc. CVPR, IEEE. 2018. Available at: https://ieeexplore.ieee.org/document/8578146/authors#authors (accessed July 20, 2019). DOI: 10.1109/CVPR.2018.00048.
King D.E. Max-Margin Object Detection. 2015. Available at: https://arxiv.org/abs/1502.00046 (accessed July 20, 2019).
Hochreiter S., Schmidhuber J. Long short-term memory. Neural Computation. 1997, vol. 9, no. 8,
pp. 1735–1780. DOI: 10.1162/neco.1997.9.8.1735.
Budylsky D.V. GRU and LSTM: modern recurrent neural networks. Young Scientist. 2015, no. 15,
pp. 51–54 (in Russ.).

Постоянный адрес статьи: http://swsys.ru/index.php?id=4677&like=1&page=article	Версия для печати Выпуск в формате PDF (4.91Мб)
Статья опубликована в выпуске журнала № 1 за 2020 год. [ на стр. 054-060 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей