Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Определение функции "действие—стоимость" с помощью обучения
Определение функции "действие—стоимость" с помощью обучения

Как и в случае обучающегося агента ADP, это уравнение может непосредственно использоваться в качестве уравнения обновления для процесса итерации, в котором вычисляются точные Q-значения при наличии оцениваемой модели. Но для этого требуется, чтобы с помощью обучения осуществлялось также определение модели, поскольку в уравнении используется вероятность T{s, a, s' ). С другой стороны, в подходе на основе временной разности модель не требуется. Уравнение обновления для Q-обучения по методу TD, которое вычисляется каждый раз, когда в состоянии s, ведущем к состоянию s', выполняется действие а, является следующим:

(21.8)

Полный проект агента для исследующего среду Q-обучающегося агента, в котором используется метод TD, приведен в листинге 21.3. Обратите внимание на то, что в нем используется точно такая же функция исследования £, которая была предусмотрена для исследующего среду агента ADP, поэтому возникает необходимость вести статистические данные о выполненных действиях (таблицу N). Если бы применялась более простая исследовательская стратегия (скажем, выбор действий случайным образом в некоторой части этапов, притом что эта часть уменьшается со временем), то можно было бы отказаться от ведения этих статистических данных.

Такой Q-обучающийся агент определяет с помощью обучения оптимальную стратегию для мира 4x3, но достигает этой цели с гораздо меньшей скоростью по сравнению с агентом ADP. Это связано с тем, что метод TD не вынуждает агента добиваться согласованности значений во всей модели. В связи с этим сравнением возникает общий вопрос: что лучше — определять с помощью обучения модель и функцию полезности или функцию "действие—значение" без модели? Иными словами, в чем состоит наилучший способ представления функции агента? Это —фундаментальный вопрос искусственного интеллекта. Как было указано в главе 1, традиционно одной из ключевых характерных особенностей многих исследований по искусственному интеллекту была (часто не выраженная явно) приверженность подходу, основанному на знаниях. Такой подход сводится к предположению, что наилучший способ задания функции агента состоит в формировании представления некоторых аспектов среды, в которой находится агент.

Листинг 21.3. Проводящий исследование среды Q-обучающийся агент. Это — активный ученик, который определяет с помощью обучения значение Q(a,s) каждого действия в каждой ситуации. В нем используется такая же исследовательская функция f, как и в проводящем исследование среды агенте ADP, но исключается необходимость определять с помощью обучения модель перехода, поскольку Q-значение любого состояния может быть непосредственно связано с соответствующими значениями его соседних состояний

Некоторые исследователи, и принадлежащие, и не принадлежащие к сообществу специалистов по искусственному интеллекту, выступили с заявлениями, что доступность методов, не требующих применения модели, таких как Q-обучение, означает, что подход, основанный на знаниях, не является необходимым. Тем не менее пока нет почти никаких оснований, позволяющих судить об обоснованности этих заявлений, кроме интуиции. А интуиция авторов в размышлениях о том, какой подход является наиболее перспективным, подсказывает, что по мере усложнения среды преимущества подхода, основанного на знаниях, становятся все более очевидными. Это обнаруживается даже в играх, таких как шахматы, шашки и нарды (см. следующий раздел), где усилия по определению с помощью обучения функции оценки на основе модели увенчались большим успехом, чем методы Q-обучения.