Для отслеживания направления взгляда используются системы, регистрирующие движения глаза. Регистрация движений глаза – это процесс либо измерения точки направления взгляда, либо регистрации движений глаз относительно головы. Регистратор движений глаз – устройство, измеряющее положение глаза и регистрирующее его движения. Регистраторы движений глаз применяются в системах визуализации, в психологии, в когнитивной лингвистике и в промышленном дизайне. Существует множество методов измерения движений глаза. Самые популярные используют видеоизображения, из которых выделяется позиция глаза, другие методы – встроенные в контактные линзы индуктивные катушки, так называемые электроокулографы [1–4].
Изучение движений глаз опередило широкое распространение компьютеров практически на сто лет (например, работы Джавала 1878 г.). В отличие от чисто визуального наблюдения за движениями глаз эти исследования были достаточно дискомфортными, так как производились методом прямого механического воздействия на роговицу. Первая система, не предусматривающая прямого контакта с глазом, была разработана в 1901 году Доджем и Клайном и использовала свет, отраженный от роговицы.
Развитие цифровой видеотехники позволило наблюдать за движением глаз в реальном времени без непосредственного физического контакта. Одним из наиболее перспективных применений такого рода систем является построение пользовательских интерфейсов, управляемых посредством направления взгляда.
Такие системы могут значительно повысить эффективность работы за компьютером за счет исключения лишних действий, производимых пользователями. По последним исследованиям когнитивной психологии, объектом внимания человека в большинстве случаев является тот объект, на котором сфокусирован его взгляд. Применительно к пользовательским интерфейсам это значит, что фокус взгляда человека находится на том элементе управления, который он собирается выбрать. Таким образом, отслеживание направления взгляда позволяет исключить лишние действия пользователя, например, нажатие на кнопки.
Пользовательские интерфейсы на основе регистрации движений глаз можно применять и для адаптации людей с ограниченными возможностями, которые не могут пользоваться традиционными для персональных компьютеров системами ввода.
Физиология движений глаз
Глаз – самый активный из органов чувств: он постоянно перемещается в двух основных плоскостях – горизонтальной (вправо–влево) и вертикальной (вверх–вниз). Такая активность достигается прежде всего природой глазодвигательного аппарата и работой его нервных центров, а также свойствами мышц глаза, самых быстродействующих в организме.
Кроме того, одной из ключевых особенностей является то, что человек, как правило, думает о том объекте, на котором в данный момент сфокусирован его взгляд. Таким образом, информация о положении глаза и, следовательно, о точке фокусирования взгляда имеет широкое практическое применение, в частности, в системах интерфейсов пользователя, в которых управление устройством осуществляется посредством движения глаз.
Чтобы понять, каким образом регистрировать движения глаз, необходимо разобраться в их сущности. Движения глаз – вращения их в орбитах, выполняющие разнообразные функции в построении зрительного образа, прежде всего, в зрительном восприятии пространства, обеспечивая измерение и анализ пространственных свойств предметов (форма, положение, величина объектов, их удаленность, скорость движения). Наиболее важная функция этого движения заключается в переводе изображения объекта, которое отобразилось сначала на периферии поля зрения, в центр сетчатки, где острота зрения наибольшая. Перевод взгляда на предмет осуществляется с помощью быстрых саккадических движений и конвергенционно-дивергенционных движений.
Движения глаза подразделяются на дрейф, тремор, саккады, фиксации.
Дрейф – относительно медленные, плавные смещения глаза со средней скоростью 6 угл. мин/с при амплитуде от 3 до 30 угл. мин.
Тремор – фиксационные движения глаз, обладающие высокой частотой (от 30 до 90 Гц) и малой амплитудой (около 1′).
Саккады – быстрые, строго согласованные движения глаз, происходящие одновременно и в одном направлении (термин микросаккады применяется для определения саккадических движений с амплитудой менее 1 градуса и высокой частотой). Наибольшее число саккад следует через 0,2–0,6 секунды, амплитуда саккад изменяется в большом диапазоне от 2 угл. мин до 15 угл. град. Ориентированы саккады практически во всех направлениях (вправо, влево, вверх, вниз), но обычно более часты в горизонтальной плоскости.
Фиксации – сознательные движения глаз, ориентированные на поиск необходимого объекта.
Если взор наблюдателя направлен на объект, глазодвигательная система какое-то время должна фиксировать объект для получения нужной информации. Фиксацию объекта (как неподвижного, так и движущегося) сопровождают три вида движений – дрейф, тремор и саккады.
Тремор и дрейф имеют достаточно малую амплитуду, сравнимую с порядком точности измерительных приборов, поэтому эти движения при исследовании направления взгляда могут не учитываться. Саккадические движения обладают значительно большей амплитудой и возникают непроизвольно. Характер движения саккад (рис. 1) определяется индивидуально. Паттерн саккад может меняться в зависимости от условий наблюдения. Однако саккадические движения являются баллистическими: начавшись, саккада будет закончена независимо от того, изменила ли точка фиксации свое положение за время, прошедшее после начала саккады. Поскольку саккадические движения чисто случайные и баллистические, математическое ожидание положения точки фокусирования в каждый момент будет находиться в точке фиксации глаза.
Зная физиологию движений глаз, можно выработать требования к системе регистрации таких движений для пользовательского интерфейса. Точность определения точки фокусирования должна быть в пределах 1 углового градуса. Повышение точности не сыграет существенной роли, так как погрешность в этих пределах будет возникать вследствие нистагмов – дрейфа и тремора. Минимальная частота определения точки фокусирования должна составлять 30–40 Гц. При более низких частотах время, затраченное на фильтрацию саккадических движений и поиск точки фиксации, будет заметно для пользователя.
Классификация систем регистрации движения глаз
Для измерения вращения глаза в системах регистрации движения глаз существует много способов, но принципиально их можно разделить только на три категории.
Первый тип использует подсоединяемое к глазу устройство, например, специализированную контактную линзу с встроенным зеркалом или датчиком магнитного поля. Перемещения устройства измеряются в предположении, что оно перемещается вместе с глазом. Измерения с плотно прилегающими контактными линзами дают очень точные записи движений глаз, магнитные катушки используются в исследованиях динамики и психологии движений глаз.
Вторая обширная категория использует бесконтактные методы оптического измерения движений глаз. Свет, обычно инфракрасный, отра- жается от глаз и снимается видеокамерой или каким-либо иным специально разработанным оптическим датчиком. Информация анализируется, из нее через изменения в отражении вычленяется поворот глаза. Основанные на видео системы регистрации направления взгляда обычно используют отражение от роговицы как точки для отслеживания. Наиболее точно типы регистраторов используют отражение от роговицы и от обратной стороны линзы к точке для отслеживания. Еще более точные методы отслеживания – это изображения различных объектов внутри глаза, таких как вены на сетчатке, и следование за этими объектами при повороте глаза. Оптические методы, особенно основанные на записи видео, широко используются в отслеживании направления взгляда и очень популярны в силу их стоимости и удобства.
Третья категория основана на измерении электрического потенциала на контактных электродах, расположенных рядом с глазом. Самый распространенный вариант такой системы – электроокулограф (рис. 2). Он основан на том, что у глаза есть постоянный электрический потенциал, роговица всегда положительно заряжена относительно сетчатки. Однако этот потенциал непостоянен и его изменения делают электроокулограф не приспособленным для измерения медленных движений и фиксированных позиций взгляда. Электроокулограф наиболее полезен для измерения быстрых, саккадических движений глаз и смещений взгляда.
Около 50 лет назад было обнаружено, что направление взгляда человека соотносится с расположением зрачка и с отражением объекта наблюдения от роговицы. В конце 1960-х Кеннет Мейсон формализовал метод центра зрачка/отражения от роговицы, автоматическую процедуру наблюдения за глазом посредством камеры, измерения положения центра зрачка и отражения от роговицы и вычисления направления взгляда.
В начале 1970-х Джон Мерчант и Ричард Морриссет в работе, финансируемой воздушными силами США, построили систему, которая практически реализовывала концепцию Кеннета Мейсона. Их знаменитый окулометр использовал видеокамеру для наблюдения за глазом респондента и компьютер для обработки изображения глаза с камеры. Алгоритм обработки изображения состоял из инновационных методов обнаружения зрачка глаза и вычисления геометрического центра и обнаружения относительной позиции отражения от роговицы. Они представили способ использования полиномиальных вычислений высокого порядка для коррекции нелинейности в окулометре и разработали так называемые Root-mean-sqare regression-методы для калибровки вычислений под индивидуальные особенности человеческого глаза.
Наиболее широкое распространение в настоящее время получили основанные на видео регистраторы движений глаз (рис. 3). Камера, сфокусированная на одном из двух глаз, записывает их движения в то время, когда наблюдатель смотрит на что-либо. Наиболее современные регистраторы используют контрастность, чтобы найти центр зрачка, и инфракрасный или близкий к нему свет, чтобы определить отражение от роговицы (corneal reflcetion – CR). Вектор, определенный разницей между этими двумя точками, может использоваться для нахождения пересечения направления взгляда с какой-либо поверхностью после проведения небольшой индивидуальной калибровки.
Методы определения положения зрачка по видеоизображению
Две основные техники, получившие распространение в данных методах, – техника светлого зрачка и техника темного зрачка. Их различия основаны на положении источника освещения относительно оптической системы. Если освещение соосно оптическому пути, глаз выступает в роли ретрорефлектора, в то время как свет, отражаясь от сетчатки, образует эффект сродни эффекту красных глаз на фотографии. Если источник освещения смещен относительно оптического пути, зрачок представляется темным.
Для достижения эффекта светлого глаза ранние системы регистрации направления взгляда использовали источник света, расположенный сбоку от объектива, и полупрозрачное зеркало, смонтированное напротив объектива под углом 45°, чтобы отраженный свет попадал вдоль оси камеры на глаз. Хотя метод достигал эффекта светлого глаза, половина отраженного сетчаткой света отражалась зеркалом, уменьшая яркость и четкость изображения на камере. В 1986 году Томас Хатчинсон изобрел способ, при котором маленький светодиод располагался в центре объектива. Оборудование значительно упростилось, и, поскольку светодиод блокировал лишь малую часть изображения, изображение глаза получалось чище и ярче.
Эффект светлого зрачка создает больший контраст между зрачком и радужной оболочкой, позволяя более точно отслеживать положение зрачка в автономном режиме, исключая влияние пигментации радужной оболочки. Он также позволяет выполнять измерения в различных световых условиях, начиная от полной темноты и заканчивая крайне ярким освещением. Но технология светлого зрачка неэффективна для работы вне помещения, потому что внешние инфракрасные (ИК) источники будут интерферировать с внутренними.
На рисунке 4 показано изображение темного (А) и светлого (В) зрачка. Точка отражения ИК-луча от роговицы указана буквой С.
Математические модели определения положения зрачка
Алгоритмы регистрации движения глаза обычно используют два подхода – основанный на модели и основанный на свойствах изображения. Основанные на свойствах изображения методы обнаруживают и локализуют изображение, относящееся к глазу [1]. Типичной характеристикой таких методов являются критерии в виде порогов: есть или нет в данном месте свойство. Отслеживаемые свойства очень разнятся ввиду различных алгоритмов, но, как правило, основаны на интенсивности и определении регионов.
C другой стороны, основанный на модели подход не использует обнаружение свойств, а, скорее, подгоняет модель под существующее изображение. Например, интегродифференциальные операторы могут использоваться для обнаружения радужной оболочки, контура зрачка и т.п. Этот подход требует итеративного поиска по пространству параметров модели, который максимизирует интеграл отклонений контура или изображения. Основанный на модели алгоритм может достичь гораздо более точного результата, но ему необходимо хорошее начальное предположение, чтобы поиск не был чрезвычайно долгим [2–4].
Таким образом, наиболее эффективными являются использование каких-либо свойств изображения для поиска приближенной модели и оптимизация найденных результатов методом, основанным на поиске наилучшей модели. Представленный алгоритм реализует такой способ, используя лучевой метод поиска контрастных точек края зрачка и робастный метод оценки параметров модели для наилучшего приближения.
Литература
1. Гиппенрейтер Ю.Б. Движения человеческого глаза. М.: Изд-во МГУ, 1978.
2. Дэвид А. Форсайт, Джин Понс. Компьютерное зрение. Современный подход. М.: Издат. дом «Вильямс», 2004. 928 с.
3. Стокман Дж., Шапиро Л. Компьютерное зрение. М.: Изд-во «Бином. Лаборатория знаний», 2006.
4. Majaranta P., Raiha K. Twenty years of eye typing: systems and design issues // ACM Eye tracking research and applications symposium, New Orleans, Louisiana, USA, 2002.