Страница 2 из 3 Основная идея всех методов временной разности состоит в том, что вначале определяются условия, выполняемые локально, когда оценки полезностей являются правильными, а затем составляется уравнение обновления, в котором оценки переносятся в это идеальное уравнение "равновесия". В случае пассивного обучения равновесие задается уравнением 21.2. Теперь уравнение 21.3 по сути вынуждает агента достичь равновесия, заданного в уравнении 21.2, но с учетом некоторых нюансов. Прежде всего следует отметить, что данное обновление касается только наблюдаемого преемника s', тогда как фактические условия равновесия касаются всех возможных следующих состояний. Можно было бы предположить, что это вызовет необоснованно большие изменения в значении при возникновении очень редких переходов, но фактически, поскольку эти редкие переходы действительно случаются крайне редко, среднее значение сходится к правильному значению. Более того, если в качестве коэффициента α вместо фиксированного параметра будет применяться функция со значением, уменьшающимся по мере увеличения количества случаев посещения некоторого состояния, то само значение U(s) будет сходиться к правильному значению2. Эти рассуждения позволяют составить программу агента, приведенную в листинге 21.2. На рис. 21.3 показана производительность пассивного агента TD в мире 4x3. Обучение этого агента происходит менее быстро по сравнению с агентом ADP, и он показывает более значительную изменчивость, но сам алгоритм агента гораздо проще и требует меньше вычислений в расчете на каждое наблюдение. Обратите внимание на то, что алгоритм TD не требует применения модели для осуществления предусмотренных в нем обновлений. Информацию о связях между соседними состояниями поставляет сама среда в форме наблюдаемых переходов. Листинг 21.2. Алгоритм агента для пассивного обучения с подкреплением, который позволяет определить с помощью обучения оценки полезностей на основе временнь/х разностей Подход на основе ADP и подход на основе TD фактически тесно связаны. В обоих этих алгоритмах предпринимаются попытки внести локальные корректировки в оценки полезностей, для того чтобы обеспечить "согласование" каждого состояния с его преемниками. Одно из различий между ними состоит в том, что в алгоритме TD состояние корректируется для согласования с его наблюдаемым преемником (уравнение 21.3), а в алгоритме ADP состояние корректируется для согласования со всеми преемниками, которые могут быть получены с учетом весов их вероятностей (уравнение 21.2). Это различие исчезает, когда результаты корректировок TD усредняются по большому количеству переходов, поскольку частота появления каждого преемника в множестве переходов приблизительно пропорциональна его вероятности. Более важное различие состоит в том, что в алгоритме TD выполняется отдельная корректировка в расчете на каждый наблюдаемый переход, а в алгоритме ADP выполняется столько корректировок, сколько требуется для восстановления соглавыполняется столько корректировок, сколько требуется для восстановления согласованности между оценками полезностей и и моделью среды т. Хотя наблюдаемый переход вносит в τ только локальное изменение, его результаты могут потребовать распространения по всем полезностям и. Таким образом, алгоритм TD может рассматриваться как грубое, но эффективное первое приближение алгоритма ADP. Рис. 21.3. Кривые обучения с помощью алгоритма TD для мира 4x3: оценки полезности для избранного подмножества состояний, полученные как функции от количества попыток (а); среднеквадратичная ошибка в оценке для U (1,1), усредненная по 20 прогонам, состоящим из 500 попыток каждый (б). Показаны результаты только для первых 100 попыток, чтобы можно было провести сравнение с рис. 21.2
|