Главная arrow книги arrow Копия Глава 25. Робототехника arrow Планирование движений в условиях неопределенности
Планирование движений в условиях неопределенности

В этой области робототехники нашел свое применение целый ряд методов организации работы в условиях неопределенности. Некоторые из этих методов основаны на приведенных в главе 17 алгоритмах принятия решений в условиях неопределенности. Если робот сталкивается с неопределенностью только при переходах из одного состояния в другое, но само состояние является полностью наблюдаемым, то эту задачу лучше всего можно промоделировать в виде марковского процесса принятия решения, или MDP (Markov Decision Process). Решением задачи MDP является оптимальная политика, с помощью которой робот может определить, что делать в каждом возможном состоянии. Таким образом, он получает возможность исправить погрешности движения всех видов, тогда как решение, полученное от детерминированного планировщика, с указанием единственного пути, может быть гораздо менее надежным. В робототехнике вместо термина политика обычно используют термин функция навигации. Функцию стоимости, показанную на рис. 25.13, а можно преобразовать в такую функцию навигации, обеспечив отслеживание градиента.

Так же как и в задачах, описанных в главе 17, задачи, рассматриваемые в настоящей главе, становятся гораздо более трудными в условиях частичной наблюдательности. Возникающая в результате задача управления роботом представляет собой частично наблюдаемую задачу MDP, или POMDP (partially observable MDP). В таких ситуациях робот обычно поддерживает внутреннее доверительное состояние, наподобие описанного в разделе 25.3. Решением задачи POMDP является политика, определенная на доверительных состояниях робота. Иными словами, входными данными для рассматриваемой политики является все распределение вероятностей. Это позволяет роботу основывать свое решение не только на том, что ему известно, но и на том, что неизвестно. Например, если робот действует в условиях неопределенности в отношении какой-то важной переменной состояния, он может принять рациональное в этих условиях решение и вызвать на выполнение действие по сбору информации. Такой подход в инфраструктуре MDP невозможен, поскольку в задачах MDP подразумевается наличие полной наблюдаемости. К сожалению, методы точного решения задач POMDP не применимы к робототехнике, поскольку не существует известных методов для непрерывных пространств. А в результате дискретизации обычно создаются такие задачи POMDP, которые слишком велики, чтобы их можно было решить с помощью известных методов. Все, что можно сделать в настоящее время, — это пытаться свести неопределенность в отношении позы к минимуму; например, в эвристике плавания вдоль берегов требуется, чтобы робот оставался неподалеку от известных отметок в целях уменьшения неопределенности в отношении его позы. Такая ситуация, в свою очередь, приводит к постепенному уменьшению неопределенности при нанесении на карту обнаруженных поблизости новых отметок, а это в дальнейшем позволяет роботу исследовать новые территории.