Простой метод непосредственной оценки полезности был изобретен в конце 1950-х годов в области адаптивной теории управления Видроу и Хоффом [1587]. Идея этого метода состоит в том, что полезностью данного конкретного состояния является ожидаемое суммарное вознаграждение, связанное с действиями, выполняемыми, начиная с этого состояния, а каждая попытка представляет собой выборку этого значения для каждого посещенного состояния. Например, первая попытка из трех приведенных выше предоставляет одну выборку с суммарным вознаграждением 0.72 для состояния (1,1), две выборки со значениями 0 . 76 и 0 . 84 для состояния (1,2), две выборки со значениями 0 . 80 и 0 . 88 для состояния (1,3) и т.д. Таким образом, в конце каждой последовательности алгоритм вычисляет наблюдаемое будущее вознаграждение для каждого состояния и обновляет соответствующим образом оценку полезности для этого состояния путем ведения текущего среднего значения для каждого состояния в таблице. В пределе, после выполнения бесконечного количества попыток, среднее по выборкам сходится к значению истинного ожидания, приведенному в уравнении 21.1. Очевидно, что непосредственная оценка полезности представляет собой один из видов контролируемого обучения, в котором каждый пример задает состояние в качестве входных данных, а наблюдаемое будущее вознаграждение — в качестве выходных. Это означает, что данный метод позволяет свести обучение с подкреплением к стандартной задаче индуктивного обучения, которая рассматривалась в главе 18. В разделе 21.4 описано использование более мощных видов представлений для функции полезности, таких как нейронные сети. Методы обучения для этих представлений могут применяться непосредственно к наблюдаемым данным. Метод непосредственной оценки полезности позволяет успешно свести задачу обучения с подкреплением к задаче индуктивного обучения, о которой уже многое известно. Но, к сожалению, этот метод не позволяет воспользоваться очень важным источником информации — в нем не учитывается тот факт, что полезности состояний не являются независимыми! Дело в том, что полезность каждого состояния равна сумме его собственного вознаграждения и ожидаемой полезности его состояний-преемников. Это означает, что значения полезности подчиняются уравнениям Белл-мана для данной конкретной стратегии (см. также уравнение 17.10): (21.2) Поскольку в методе непосредственной оценки полезности игнорируются связи между состояниями, он не позволяет воспользоваться дополнительными возможностями для обучения. Например, во второй из трех попыток, приведенных выше, достигается состояние (3,2), которое еще не было до сих пор посещено агентом. После следующего перехода агент достигает состояния (3,3), которое, как известно из первой попытки, имеет высокую полезность. Уравнение Беллмана позволяет сразу же определить, что состояние (3,2) также, по-видимому, будет иметь высокую полезность, поскольку оно ведет к состоянию (3,3), но метод непосредственной оценки полезности не позволяет ничего определить с помощью обучения до конца этой попытки. В более широком контексте метод непосредственной оценки полезности можно рассматривать как поиск в пространстве гипотез для U, которое имеет размеры намного большие, чем необходимо, поскольку включает также много функций, которые нарушают уравнения Беллмана. По этой причине данный алгоритм часто сходится очень медленно.
|