Страница 2 из 4 Применение сочетания метода обучения на основе временной разности с методом формирования моделируемых результатов опытов с помощью модели было предложено в архитектуре Саттона Dyna [1479]. Идея выметания с учетом приоритетов была предложена независимо Муром и Аткесоном [1077], а также Пенгом и Уильямсом [1203]. Метод Q-обучения был разработан в докторской диссертации Уоткинса [1558]. Задачи с n-рукими бандитами, которые моделируют задачу исследования непоследовательных решений, были глубоко проанализированы в [116]. Оптимальные стратегии исследования для нескольких постановок задач могут быть получены с помощью метода, называемого индексами Гиттинса [561]. Целый ряд методов исследования, применимых для решения задач последовательного принятия решений, обсуждается в [74]. В [171] и [785] описаны алгоритмы, позволяющие исследовать неизвестные варианты среды и гарантирующие сходимость к стратегиям, близким к оптимальным, за полиномиальное время. Истоки идей по применению функциональной аппроксимации в обучении с подкреплением можно найти в работах Самюэла, который использовал линейные и нелинейные функции оценки, а также методы выбора характеристик для уменьшения пространства характеристик. В дальнейшем были разработаны такие методы, как СМАС (Cerebellar Model Articulation Controller) [12], который по сути сводится к использованию суммы перекрывающихся локальных ядерных функций, и ассоциативные нейронные сети [75]. В настоящее время в качестве аппроксиматоров функций наиболее широко используются нейронные сети. Наиболее известным приложением является программа TD-Gammon [1499], [1500], которая описывалась в данной главе. Одной из существенных проблем, возникающих при использовании обучающихся по методу TD агентов, основанных на нейронной сети, является то, что они, как правило, забывают полученные раньше результаты опытов, особенно касающиеся тех частей пространства состояний, которых они стали избегать после приобретения достаточной компетентности. Этот недостаток может приводить к катастрофическому отказу, если снова возникают подобные обстоятельства. Такую проблему позволяет устранить функциональная аппроксимация с помощью обучения на основе экземпляра (instance-based learning) [477], [1159].
|