Главная arrow книги arrow Копия Глава 25. Робототехника arrow Реактивное управление
Реактивное управление

Практика показала, что разновидности такого простого контроллера, действующего на основе обратной связи, позволяют реализовывать исключительно надежные способы ходьбы, с помощью которых робот свободно маневрирует на пересеченной местности. Очевидно, что в таком контроллере не используется модель, кроме того, для выработки управляющих воздействий не осуществляется алгоритмический вывод и не производится поиск. В процессе эксплуатации подобного контроллера решающую роль в выработке поведения роботом играет обратная связь от среды. Само программное обеспечение робота, отдельно взятое, не определяет, что фактически происходит после того, как робот входит в какую-то среду. Поведение, проявляющееся в результате взаимодействия (простого) контроллера и (сложной) среды, часто называют эмерджентным поведением (т.е. поведением не планируемым, а обусловленным ситуацией). Строго говоря, все роботы, рассматриваемые в этой главе, обнаруживают эмерджентное поведение в связи с тем фактом, что ни одна из используемых в них моделей не является идеальной. Но по традиции этот термин применяется для обозначения лишь таких методов управления, в которых не используются явно заданные модели среды. Кроме того, эмерджентное поведение является характерным для значительной части биологических организмов.

С формальной точки зрения реактивные контроллеры представляют собой одну из форм реализации политики для задач MDP (или, если они имеют внутреннее состояние, для задач POMDP). В главе 17 было описано несколько методов выработки политики на основании модели робота и его среды. В робототехнике большое практическое значение имеет подход, предусматривающий составление подобной политики вручную, поскольку часто невозможно сформулировать точную модель. В главе 21 описаны методы обучения с подкреплением, позволяющие формировать политику на основании опыта. Некоторые из подобных методов (такие как Q-обучение и поиск политики) не требуют модели среды и позволяют создавать высококачественные контроллеры для роботов, но взамен требуют предоставления огромных объемов обучающих данных.