Страница 3 из 4 Следующий вопрос состоит в том, как должно выглядеть решение этой задачи. Выше в данной главе было показано, что какая-либо фиксированная последовательность действий не может служить решением этой задачи, поскольку в конечном итоге после ее выполнения агент может оказаться в состоянии, отличном от целевого. Поэтому в решении должно быть указано, что следует делать агенту в любом состоянии, которого он может достичь. Решение такого рода — это так называемая стратегия. Для обозначения стратегии обычно принято использовать π; а π( s) — это действие, рекомендованное в соответствии со стратегией π для состояния s. Если агент имеет полное описание стратегии, то всегда знает, что делать дальше, независимо от результата любого действия. Каждый раз, когда осуществляется данная конкретная стратегия, начиная с начального состояния, стохастический характер среды приводит к формированию другой истории пребывания в среде. Поэтому качество определения стратегии измеряется по ожидаемой полезности возможных историй пребывания в среде, создаваемых с помощью этой стратегии. Оптимальной стратегией называется такая стратегия, которая позволяет достичь максимальной ожидаемой полезности. Для обозначения оптимальной стратегии принято использовать запись π*. Если агенту указана стратегия π*, он принимает решение, что делать, проверяя свои текущие результаты восприятия, которые сообщают ему, что он находится в текущем состоянии s, а затем выполняя действие π* (s). В любой стратегии функция агента представлена явно, поэтому стратегия является описанием простого рефлексного агента, сформированным с учетом информации, которая используется агентом, действующим на основе полезности. Оптимальная стратегия для мира, приведенного на рис. 17.1, показана на рис. 17.2, я. Обратите внимание на то, что стоимость выполнения одного шага довольно мала по сравнению со штрафом, который связан со случайным попаданием в квадрат (4,2), поэтому оптимальная стратегия для состояния (3,1) является предельно осторожной. Этот стратегия рекомендует, что нужно совершить дальний обход препятствия, а не пытаться пройти по короткому пути и тем самым подвергнуться риску попасть в квадрат (4,2).
|