Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Обучение с учетом временной разницы
Обучение с учетом временной разницы

Существует также возможность взять (почти) самое лучшее из обоих описанных выше подходов; это означает, что можно аппроксимировать приведенные выше уравнения ограничений, не решая их для всех возможных состояний. Ключом к созданию этого метода становится то, что можно использовать наблюдаемые переходы для корректировки значений наблюдаемых состояний так, чтобы они согласовывались с уравнениями ограничений. Рассмотрим, например, переход из состояния (1,3) в состояние (2,3) во второй попытке, показанной на с. 1013. Предположим, что в результате первой попытки были получены оценки полезностии. Итак, если будет постоянно происходить этот переход, то следует учитывать, что указанные полезности будут подчиняться следующему уравнению:

Рис. 21.2. Кривые пассивного обучения ADP для мира 4x3, полученные при оптимальной стратегии, которая показана на рис. 21.1: оценки полезности для избранного подмножества состояний, полученные как функции от количества попыток (а). Обратите внимание на то, что примерно при 78-й попытке происходят значительные изменения; именно тогда агент впервые попадает в терминальное состояние с полезностью -1, соответствующее квадрату (4,2); среднеквадратичная ошибка в оценке для U (1,1), усредненная по 20 прогонам, состоящим из 100 попыток каждый (б) поэтому значение будет равно 0.88. Таким образом, текущая оценка этой полезности, равная 0 . 84, может оказаться немного заниженной и должна быть увеличена. Более общий вывод состоит в том, что если происходит переход из состояния s в состояние s', то к значению полезностиприменяется следующее обновление:

(21.3)

где α — параметр скорости обучения. Поскольку в этом правиле обновления используется разность между полезностями последовательных состояний, соответствующее уравнение часто называют уравнением временной разности, или сокращенно TD (Temporal Difference).