На протяжении всей истории человечества люди, похоже, только тем и занимались, что пытались облегчить свое существование. Не даром говорят, что лень - двигатель прогресса. Стремясь избежать не только физического, но и умственного труда, человек везде и всюду пытается переложить работу на своего безропотного помощника - компьютер... Даже творческие процессы, которые, казалось бы, не поддаются формальному описанию, тоже стараются "спихнуть" машине. Не является исключением и распознавание графических объектов. Сегодня, наряду с задачами распознавания машинописного и рукописного текста, широкое распространение получают биометрические системы идентификации человека. Обычно для идентификации необходим пароль, ключ, идентификационная карточка или другой идентифицирующий предмет, который можно забыть, потерять или испортить. Биометрические системы идентификации основаны на уникальных биологических характеристиках, которые трудно подделать, и которые однозначно определяют конкретного человека. К таким характеристикам относятся отпечатки пальцев, форма ладони, узор радужной оболочки и сетчатки глаза. Индивидуальны также лицо, голос и запах.


Выделим из этого списка распознавание человека по лицу. Прежде всего, потому, что для этого бывает достаточно персонального компьютера и обыкновенной видеокамеры. В наше время смертоносных болезней, вроде сибирской язвы, немаловажно и то, что здесь не надо ни к чему прикасаться или ждать, пока сработает система. В большинстве случаев достаточно просто пройти мимо или ненадолго задержаться перед камерой.


К недостаткам распознавания человека по лицу можно отнести то, что сама по себе система не обеспечивает абсолютной надежности.


Это естественно: ведь лицо проще всего подделать. Эта особенность мастерски используется в киноиндустрии. Но для повышения надежности можно скомбинировать несколько биометрических методов. Какие трудности возникают при решении этой задачи? Прежде всего, необходимо распознавать человека независимо от ракурса и освещенности (рис. 1). Неплохо было бы учесть и различные изменения, вызванные возрастом или просто посещением парикмахерской. Не правда ли, было бы весьма забавно, если бы система "узнавала" вас днем, но не узнавала вечером? Не говоря уже об утре после праздников...

 


Задачи распознавания образов не имеют точного аналитического решения. Они требуют умения выделять ключевые признаки, характеризующие зрительный образ, определять относительную важность этих признаков при помощи весовых коеффициентов и учитывать взаимосвязи между ними.


В последнее время наибольшей популярности достигли методы распознавания образов на базе нейронных сетей. Исскуственные нейронные сети являются, в некотором роде, математическим аналогом человеческого мозга. В процессе обучения нейронной сети происходит автоматическое извлечение ключевых признаков, определение взаимосвязей между ними, а также степени важности каждого признака. Благодаря хорошим обобщающим способностям нейронная сеть может успешно применять опыт, полученный при обучении, к неизвестным образам.


Можно выделить две основные области применения нейронной сети для распознавания лица человека.

  1. Поиск лица в базе данных.
  2. Контроль доступа.

Эти задачи предъявляют разные требования к системам распознавания, а также к ошибкам первого и второго рода. Ошибкой первого рода называется ситуация, когда объект не распознается (пропускается) системой. Ошибка второго рода происходит, когда данный объект принимается за другой.


Необходимо также отметить различие задач верификации и распознавания. В первом случае необходимо подтвердить (или не подтвердить) принадлежность лица к некоторому известному множеству. Другими словами, система должна подтвердить, что объект - тот, за кого себя выдает. Во втором случае система должна найти лицо среди известных или сообщить, что его в этом ряду нет. Другими словами, система должна определить, знаком ей этот человек или нет.

 

Поиск лица в базе данных


При решении этой задачи наиболее высокие требования предъявляются к ошибке первого рода. Система должна найти соответствие входного изображения одному из известных ей, находящихся в базе данных. Иногда в результирующем ответе допускается присутствие нескольких изображений.


Обычно поиск необходимо произвести за разумное время, невзирая на размеры базы данных (которая может насчитывать от 10 тыс. до 10 млн. изображений). Проще всего это достигается, если в качестве набора данных хранить не сами изображения, а некоторые особо характерные признаки. Требования к точности здесь не так критичны, как в задачах контроля доступа.


Одним из основных методов решения таких задач является метод главных компонент (метод "собственных лиц"). Раньше коэффициенты, полученные путем разложения входного изображения на главные компоненты, использовались для сравнения изображений путем вычисления Евклидова расстояния, а в современных, более совершенных методах это делается на основе метрики Махаланобиса с использованием Гауссовского распределения. Развитие метода главных компонент на основе нейронных сетей описано в работе.

 

Контроль доступа


Эта задача предъявляет жесткие требования к ошибке второго рода. Другими словами, система не должна принять "незнакомое" лицо за "знакомое". В некоторых случаях этого можно добиться за счет увеличения допуска на ошибки первого рода, то есть отказа в доступе "знакомым" лицам.


В этой группе задач существует небольшое количество лиц (5-50 человек), которым разрешен или запрещен доступ в некоторое место. Людей, не входящих в эту группу, система не должна пропускать. Часто возникает необходимость установить конкретную личность. При этом от системы требуется высокая достоверность распознавания, возможно даже - за счет увеличения числа отказов знакомым лицам, хотя, конечно, этого лучше избегать. Достаточно представить себе ситуацию, когда разработанная вами система не пропустит на рабочее место директора. Или кассира в день зарплаты...


Кроме того, система должна работать в реальном масштабе времени. В процессе эксплуатации было бы неплохо иметь возможность добавлять в круг "знакомых" новые лица. Неплохо дать системе набор изображений (параметров) одного лица при разной освещенности.


Решение задач этого типа сводится к следующему. Имеется обучающий набор изображений заданной группы лиц. К этому набору система обращается при распознавании или настраивается на него в процессе обучения. Обученные нейронные сети в этом случае также обладают хорошей обобщающей способностью.

Уменьшение влияния отрицательных факторов


Несмотря на то что в общем случае методы распознавания чувствительны к таким параметрам изображения, как масштаб, сдвиг и освещенность объекта, существует несколько методов, позволяющих уменьшить влияние этих факторов.


Для того чтобы тот или иной метод стал невосприимчивым (инвариантным) к масштабу изображения, можно привести поступающее на вход изображение к масштабу изображений, хранящихся в базе данных (или пересчитать значения ключевых признаков, если в базе данных используются именно они). Другой метод заключается в том, что в обучающую выборку включают изображения разного масштаба. Но есть методы, изначально инвариантные к масштабу изображения (см. список литературы в конце статьи).


Одной из наиболее сложных проблем является обеспечение инвариантности к изменению освещенности. В некоторой степени она решается путем выравнивания гистограммы яркостей. Или же можно использовать в обучающей выборке несколько изображений одного и того же лица при различной освещенности. Оригинально смотрится метод распознавания лица по изображению в инфракрасном спектре. В этом случае проблема сводится к наличию специальной аппаратуры.


Инвариантность к сдвигу изображения обеспечивается либо путем предварительной обработки, либо все тем же универсальным (но вовсе не лучшим) способом - обучить нейронную сеть по нескольким различным изображениям одного и того же лица.

 

Способы сравнения изображений


После того как ключевые признаки изображения выделены, необходимо сравнить их с имеющимися в базе. Все алгоритмы,предназначенные для этой цели, можно разделить на две группы - по способу сравнения изображений. В первой группе методов вводится некоторое n-мерное пространство признаков, где n - количество признаков, таких как яркость отдельного пикселя изображения, значения главных компонент и т. п. Эти признаки образуют координаты точки в n-мерном пространстве. Сам процесс сравнения в данном случае представляет собой вычисление расстояния точки, характеризующей неизвестный (исходный) образец до всех известных точек при помощи какой-либо метрики.


Но не все так просто, как может показаться на первый взгляд. Учесть всевозможные изменения изображения для реальных объектов довольно тяжело. Эта проблема приводит к появлению огромного количества обучающих примеров. Дело в том, что даже незначительное, с точки зрения человека, изменение объекта (ракурс, освещение, другая прическа, наличие бороды) может очень сильно сдвинуть положение точки в пространстве признаков. И в этом случае система может среагировать не на приметы человека, а на ракурс изображения, выбрав в качестве похожего на исходное лицо то, которое находится в том же ракурсе.

 

 

В общем случае проблему невозможно решить ни предварительной обработкой изображения, ни с помощью различных преобразований. Вторая группа методов частично преодолевает этот недостаток. В изображении лица выделяются наиболее выразительные части (области глаз, бровей, носа, губ), после чего с помощью метода первой группы производится сравнение этих областей. Результаты каждого такого сравнения сопоставляются, и по ним делается окончательное заключение.


Отдельно стоит выделить следующий интересный метод. Вычисляется оптический поток между двумя сравниваемыми изображениями. Затем на основе потока вычисляется мера искажения входного изображения по отношению к каждому изображению из базы данных. Степень похожести изображений определяется по величине искажения.

 

Общие рекомендации по улучшению распознавания


Изображение, которое необходимо распознать,- это, прежде всего, двумерное отображение трехмерного объекта - лица. И это изображение по своей природе обладает некоторой избыточностью. Его локальные участки взаимосвязаны. Для получения хороших результатов эту информацию необходимо использовать.


В некоторых методах предлагается использовать для распознавания цветовую сегментацию лица, но все же большинство методов использует полутоновое изображения.


Существуют также методы, использующие бинарное изображение. В этом случае каждый пиксель изображения имеет одно из двух значений: 1 или 0. Естественно, что такие изображения обрабатываются быстрее всего, но для надежного распознавания предоставляемого ими объема информации бывает недостаточно, так как при преобразовании полутонового изображения в бинарное теряются важные данные. Однако при повышенных требованиях к скорости (даже в убыток качеству) такой способ является лучшим.


Иногда используют процедуры, позволяющие восстанавливать трехмерное изображение объекта по полутоновому изображению, чтобы потом анализировать трехмерную поверхность. Но восстановить трехмерный облик по одному изображению невозможно. Для решения этой проблемы требуется несколько изображений с разными ракурсами.


Неплохие результаты дает метод извлечения характеристик изображения, если заранее известно, какой частью лица является данный объект. Можно обозначить такие ключевые точки, как центры глаз, длина/ширина носа, размер губ и т. п.

 

Напоследок


Затронутая тема настолько обширна, что раскрыть ее полностью в одной статье невозможно. Тем более что в этой области непрерывно ведутся исследования и разработки, и то, что сегодня считается передовым и лучшим, уже через месяц может оказаться бесперспективным и тупиковым. Но я надеюсь, что мне удалось заинтересовать и приблизить к этой проблеме всех, кому интересны передовые технологии и направления в современном мире. Тем же, кто хочет узнать больше о технологиях распознавания, я рекомендую следующую литературу.

  • Пентланд А.С., Чаудхари Т. "Распознавание лиц для интеллектуальных сред".- Открытые Системы, 2000.- № 3. www.osp.ru/os/2000/03.
  • Moghaddam B. and Pentland A. Probabilistic Visual Learning for Object Representation. IEEE Transactions on Pattern Analysis and Machine Intelligence.- 1997.- Vol. 19.
  • Valentin D., Abdi H., O’Toole A. J. and Cottrell G. W. "Connectionist models of face processing: a survey" IN: Pattern Recognition 1994. Vol. 27.
  • Bryliuk D., Starovoitov V. "Application of Recirculation Neural Network and Principal Component Analysis for Face Recognition" The 2nd International Conference on Neural Networks and Artificial Intelligence. Minsk: BSUIR, 2001.
  • http://metalwarrior.narod.ru - очень неплохой сайт, где есть множество ссылок по рассмотренной теме.
2004.07.01
19.03.2009
В IV квартале 2008 г. украинский рынок серверов по сравнению с аналогичным периодом прошлого года сократился в денежном выражении на 34% – до $30 млн (в ценах для конечных пользователей), а за весь календарный год – более чем на 5%, до 132 млн долл.


12.03.2009
4 марта в Киеве компания Telco провела конференцию "Инновационные телекоммуникации", посвященную новым эффективным телекоммуникационным технологиям для решения задач современного бизнеса.


05.03.2009
25 февраля в Киеве компания IBM, при информационной поддержке "1С" и Canonical, провела конференцию "Как сохранить деньги в условиях кризиса?"


26.02.2009
18-19 февраля в Киеве прошел юбилейный съезд ИТ-директоров Украины. Участниками данного мероприятия стали ИТ-директора, ИТ-менеджеры, поставщики ИТ-решений из Киева, Николаева, Днепропетровска, Чернигова и других городов Украины...


19.02.2009
10 февраля в Киеве состоялась пресс-конференция, посвященная итогам деятельности компании "DiaWest – Комп’ютерний світ" в 2008 году.


12.02.2009
С 5 февраля 2009 г. в Киеве начали работу учебные курсы по использованию услуг "электронного предприятия/ учреждения" на базе сети информационно-маркетинговых центров (ИМЦ).


04.02.2009
29 января 2009 года в редакции еженедельника "Computer World/Украина" состоялось награждение победителей акции "Оформи подписку – получи приз!".


29.01.2009
22 января в Киеве компания "МУК" и представительство компании Cisco в Украине провели семинар для партнеров "Обзор продуктов и решений Cisco Small Business"

 

 
 
Copyright © 1997-2008 ИД "Комиздат".