Алгоритм итерации по значениям |
Страница 2 из 2 Мы можем применить алгоритм итерации по значениям к миру 4x3 (см. рис. 17.1, а). Начиная с исходных значений, равных нулю, полезности изменяются, как показано на рис. 17.4, а. Обратите внимание на то, как состояния, находящиеся на различных расстояниях от квадрата (4,3), накапливают отрицательное вознаграждение до тех пор, пока в какой-то момент не обнаруживается путь к состоянию (4,3), после чего значения полезности начинают возрастать. Алгоритм итерации по значениям может рассматриваться как способ распространения информации через пространство состояний с помощью локальных обновлений. Рис. 17.4. Пример применения алгоритма итерации по значениям: график, показывающий изменение полезностей выбранных состояний в процессе итерации по значениям (а); количество итераций по значениям k, необходимое для того, чтобы можно было гарантировать, что ошибка не превышает для различных значений с, как функция от коэффициента обесценивания γ (б)
<< В начало < Предыдущая 1 2 Следующая > В конец >> |