Главная arrow книги arrow Копия Глава 18. Обучение на основе наблюдений arrow Формы обучения
Формы обучения

В главе 2 было показано, что проект обучающегося агента может рассматриваться как состоящий из производительного элемента, определяющего, какие действия должны быть выполнены, и обучающего элемента, который модифицирует производительный элемент для того, чтобы он вырабатывал лучшие решения (см. рис. 2.7). Исследователи, работающие в области машинного обучения, предложили целый ряд типов обучающих элементов. Для того чтобы разобраться в их работе, целесообразно рассмотреть, как влияет на их проект тот контекст, в котором они должны функционировать. На проект обучающего элемента влияют три описанных ниже аспекта.

•    Компоненты производительного элемента, подлежащие обучению.

•    Обратные связи, которые могут применяться для обучения этих компонентов.

•    Способы представления, используемые для компонентов.

Проведем анализ каждого из этих аспектов по очереди. В данной книге уже было показано, что существует много способов построения производительного элемента для агента. В главе 2 было описано несколько проектов агентов (см. рис. 2.3-2.6). Ниже перечислены компоненты этих агентов.

1.    Средства прямого отображения условий (распространяющихся на текущее состояние) в действия.

2.    Средства логического вывода релевантных свойств мира из последовательности результатов восприятия.

3.    Информация о том, как развивается мир и какие результаты возможных действий могут быть получены агентом.

4.    Информация о полезности, которая показывает, насколько желательными являются те или иные состояния мира.

5.    Информация о ценности действий, показывающая желательность действий.

6.    Цели, описывающие классы состояний, достижение которых максимизирует полезность для агента.

Обучение каждого из этих компонентов может осуществляться с помощью соответствующей обратной связи. Рассмотрим, например, агента, который учится вождению, чтобы стать таксистом. Каждый раз, когда инструктор кричит "Тормози!", агент должен усвоить очередное правило "условие—действие", позволяющее определить, когда следует тормозить (компонент 1). Рассматривая множество видеоизображений, на которых, как ему сказано, имеются автобусы, он может научиться распознавать автобусы (компонент 2). Осуществляя попытки выполнения действий и наблюдая за их результатами (например, проводя жесткое торможение на мокрой дороге), он может определить путем обучения, каковы результаты его действий (компонент 3). В дальнейшем, перестав получать чаевые от пассажиров, которые почувствовали себя полностью разбитыми во время утомительной поездки, агент может обучить полезный компонент своей общей функции полезности (компонент 4), который будет подсказывать, что пассажиров надо беречь.