Главная arrow книги arrow Копия Глава 24. Восприятие arrow Распознавание объектов
Распознавание объектов

На данном этапе необходимо сделать одно важное замечание — геометрические трансформации, такие как перенос, масштабирование и поворот, или трансформации яркости изображения, вызванные физическим перемещением источников света, имеют иной характер по сравнению с изменениями внутри категории, например, такими различиями, которыми характеризуются лица разных людей. Очевидно, что единственным способом получения информации о различных типах человеческих лиц или о разных способах написания цифры 4 является обучение. С другой стороны, влияния геометрических и физических трансформаций носят систематический характер, поэтому должна существовать возможность исключить их из рассмотрения на основе продуманного проектирования состава характеристик, используемых для представления обучающих экземпляров.

Практика показала, что одним из весьма эффективных методов обеспечения инвариантности по отношению к геометрическим трансформациям является предварительная обработка рассматриваемого участка изображения и приведение его к стандартной позиции, масштабу и ориентации. Еще один вариант состоит в том, что можно просто игнорировать причинный характер геометрических и физических трансформаций, рассматривая их как дополнительные источники изменчивости изображений, поступающих в классификатор. В таком случае в обучающее множество необходимо включить экземпляры, соответствующие всем этим вариантам, в расчете на то, что классификатор выявит логическим путем данные о соответствующем множестве трансформаций входных данных, что позволит исключить из рассмотрения указанные причины изменения внешнего вида экземпляров.

Теперь перейдем к описанию конкретных алгоритмов распознавания объектов. Для упрощения сосредоточимся на задаче, постановка которой определена в двухмерной системе координат, — и обучающие, и тестовые примеры заданы в форме двухмерных растровых изображений. Очевидно, что данный подход вполне применим в таких областях, как распознавание рукописного текста. Но даже в случае трехмерных объектов может оказаться эффективным подход, предусматривающий использование способа представления этих объектов с помощью многочисленных двухмерных изображений (рис. 24.18) и классификации новых объектов путем сравнения их с хранимыми изображениями (т.е. с некоторыми другими данными, представляющими те же объекты).

Рис. 24.18. Многочисленные изображения двух трехмерных объектов в разных видах