Страница 2 из 3 Тип обратной связи, доступной для обучения, обычно является наиболее важным фактором, определяющим характер задачи обучения, с которой сталкивается агент. В области машинного обучения, как правило, различаются три случая: контролируемое обучение, неконтролируемое обучение и обучение с подкреплением. В задаче контролируемого обучения предусматривается изучение некоторой функции на примерах ее входных и выходных данных. Все приведенные выше случаи, касающиеся компонентов 1, 2 и 3, представляют собой примеры задач контролируемого обучения. В случае, который относится к компоненту 1, агент изучает правило "условие-действие", касающееся торможения, т.е. функцию, которая связывает входные состояния с булевым выходом (тормозить или не тормозить). В случае компонента 2 агент изучает функцию, преобразующую входные изображения в булев выход (который показывает, содержит ли изображение автобус). В случае компонента 3 сведения о торможении выражаются в виде функции, которая связывает состояния и действия по торможению, скажем, с длиной тормозного пути в футах. Обратите внимание на то, что в случаях 1 и 2 учитель указывает в примерах правильное выходное значение, а в случае 3 выходное значение должно быть получено непосредственно из результатов восприятия агента. В полностью наблюдаемых вариантах среды всегда соблюдается такое условие, что агент может наблюдать за результатами своих действий и поэтому использовать методы контролируемого обучения, чтобы научиться предсказывать эти результаты. В частично наблюдаемых вариантах среды задача обучения становится более сложной, поскольку непосредственные результаты могут оказаться недоступными для восприятия. Задача неконтролируемого обучения касается выявления определенных закономерностей во входных данных в тех условиях, когда не задаются конкретные выходные значения. Например, агент-водитель такси может постепенно развить представление о "днях с хорошими условиями дорожного движения" и "днях с плохими условиями дорожного движения", даже не получая обозначенных соответствующими заголовками примеров тех или других дней. Обучающийся агент, полностью остающийся без контроля, не может узнать в процессе обучения, что делать, поскольку он не имеет информации о том, каковым является определение понятия правильного действия или желательного состояния. Мы будем изучать проблему неконтролируемого обучения в основном в контексте систем формирования вероятностных рассуждений (глава 20).
|