Сегментация изображения - Искусственный интеллект

Сегментация изображения

Мозг человека не использует полученные им результаты восприятия в непосредственном виде, а организует эти результаты определенным образом, поэтому вместо коллекции значений яркости, связанных с отдельными фоторецепторами, мозг выделяет целый ряд визуальных групп, которые обычно ассоциируются с объектами или частями объектов. Такая способность является не менее важной и для машинного зрения.

Сегментация — это процесс разбиения изображения на группы с учетом подобия характеристик пикселов. Основная идея этого процесса состоит в следующем: каждый пиксел изображения может быть связан с некоторыми визуальными свойствами, такими как яркость, цвет и текстура2. В пределах одного объекта или одной части объекта эти атрибуты изменяются относительно мало, тогда как при переходе через границу от одного объекта к другому обычно происходит существенное изменение одного или другого из этих атрибутов. Необходимо найти вариант разбиения изображения на такие множества пикселов, что указанные ограничения удовлетворяются в максимально возможной степени.

Существует целый ряд различных способов, с помощью которых эта интуитивная догадка может быть формализована в виде математической теории. Например, в [1402] рассматриваемая задача представлена как задача сегментации графа. Узлы графа соответствуют пикселам, а ребра — соединениям между пикселами. Ребрам, соединяющим пары пикселов i и j, присваиваются весас учетом того, насколько близки значения яркости, цвета, текстуры и т.д. для двух пикселов соответствующей пары. Затем осуществляется поиск разбиений, которые минимизируют нормализованный критерий отсечения. Грубо говоря, критерием сегментации графа является критерий минимизации суммы весов соединений между группами и максимизации суммы весов соединений в пределах групп.

Процесс сегментации, основанный исключительно на использовании низкоуровневых локальных атрибутов, таких как яркость и цвет, чреват существенными ошибками. Чтобы надежно обнаруживать границы, связанные с объектами, необходимо также использовать высокоуровневые знания о том, какого рода объекты могут по всей вероятности встретиться в данной сцене. При распознавании речи такая возможность появилась благодаря использованию формальных средств скрытой марковской модели; в контексте обработки изображений поиск такой универсальной инфраструктуры остается темой интенсивных исследований. Так или иначе представление высокоуровневых знаний об объектах является темой следующего раздела.