Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Резюме
Резюме

В данной главе рассматривалась задача обучения с подкреплением, решение которой позволяет агенту добиться успеха в неизвестной среде, пользуясь только полученными им результатами восприятия, а изредка также вознаграждениями. Обучение с подкреплением может рассматриваться как микроскопическая модель всей проблематики искусственного интеллекта, но для решения этой задачи применяется целый ряд упрощений, позволяющих быстрее добиться успеха. Основные идеи, изложенные в этой главе, перечислены ниже.

•    Характер информации, которая должна быть получена в результате обучения, зависит от общего проекта агента. В данной главе рассматривались три основных проекта: проект, основанный на модели, в котором используется модель Τ и функция полезности U; проект без модели, в котором применяется функция "действие—значение", или Q-функция. и рефлексный проект, в котором используется стратегия π.

•    Для определения полезностей с помощью обучения могут использоваться три перечисленных ниже подхода.

1. При непосредственной оценке полезности применяется суммарное прогнозируемое наблюдаемое вознаграждение для заданного состояния в качестве прямого свидетельства, позволяющего определить полезность данного состояния с помощью обучения.

2.   В адаптивном динамическом программировании (Adaptive Dynamic Programming — ADP) с помощью обучения определяются модель и функция вознаграждения на основании наблюдений, а затем используется итерация по значениям или по стратегиям для получения полезностей или выявления оптимальной стратегии. В методе ADP обеспечивается оптимальное использование локальных ограничений, налагаемых на полезности состояний под влиянием структуры отношений соседства в рассматриваемой среде.

3.   В методах временной разности (Temporal Difference — TD) обновляются оценки полезности для их согласования с состояниями-преемниками. Подход, основанный на использовании этих методов, может рассматриваться как простая аппроксимация подхода ADP, в котором не требуется модель для процесса обучения. Однако применение определенной в процессе обучения модели для выработки псевдорезультатов опытов способствует ускорению обучения.