Главная arrow книги arrow Копия Глава 17. Принятие сложных решений arrow Задачи последовательного принятия решений Пример
Задачи последовательного принятия решений Пример

Предположим, что агент находится в среде с размерами 4x3, показанной на рис. 17.1, а. Начиная с начального состояния, он должен выбирать какое-то действие в каждом временном интервале. Взаимодействие со средой оканчивается после того, как агент достигает одного из целевых состояний, обозначенных +1 и -1. В каждом местонахождении в распоряжении агента имеются действия Up (Вверх), Down (Вниз), Left (Влево) и Right (Вправо). На данный момент предполагается, что эта среда является полностью наблюдаемой, поэтому агент всегда знает, где он находится.

Рис. 17.1. Определение задачи: простая среда с размерами 4x3, в которой перед агентом поставлена задача последовательного принятия решений (а); модель перехода для этой среды: "намеченный" результат достигается с вероятностью 0.8, ас вероятностью О.2 агент движется под прямыми углами влево или вправо от намеченного направления (б). Столкновение со стеной приводит к тому, что дальнейшее движение не происходит. С двумя конечными состояниями связаны вознаграждения +1 и -1 соответственно, а со всеми другими состояниями связано вознаграждение -0. 04

Если бы эта среда была полностью детерминированной, то достижение требуемого решения было бы несложным: [Up, Up, Right, Right, Right]. К сожалению, среда не всегда реагирует правильно на осуществление этого решения, поскольку действия выполняются ненадежно. Конкретная принятая нами модель стохастического движения показана на рис. 17.1, б. Каждое действие достигает намеченной цели с вероятностью 0.8, но в течение всего остального времени в результате выполнения действия агент движется под прямыми углами к выбранному направлению. Более того, если агент ударяется в стену, то остается в том же квадрате. Например, выполняемое из начального квадрата (1,1) действие Up перемещает агента в квадрат (1,2) с вероятностью 0 . 8, но с вероятностью 0 .1 агент движется вправо, в квадрат (2,1), а с вероятностью 0 .1 он движется влево, ударяется в стену и остается в квадрате (1,1). В такой среде последовательность действий [Up, Up, Right, Right, Right] позволяет обойти барьер и достичь целевого состояния, квадрата (4,3), с вероятностью , Существует также небольшой шанс случайно достичь цели, обойдя барьер с другой стороны с вероятностью, поэтому суммарная вероятность достижения цели равна 0 . 32 77 6 (см. также упр. 17.1).