Страница 2 из 2 • Задачи MDP в частично наблюдаемой среде, или задачи POMDP, являются гораздо более трудными для решения, чем задачи MDP. Они могут быть решены путем преобразования в задачу MDP в непрерывном пространстве доверительных состояний. Оптимальное поведение при решении задач POMDP должно предусматривать сбор информации для уменьшения неопределенности и поэтому принятия лучших решений в будущем. • Для вариантов среды POMDP может быть создан агент, действующий на основе теории решений. В таком агенте для представления модели перехода и модели наблюдения для обновления его доверительного состояния и проектирования возможных последовательностей действий в прямом направлении используется динамическая сеть принятия решений. • Теория игр описывает рациональное поведение для агентов в тех ситуациях, в которых одновременно взаимодействуют множество агентов. Решениями для игр являются равновесия Нэша — профили стратегий, в которых ни один из агентов не имеет стимулов, под влиянием которых он мог бы уклониться от определенной для него стратегии. • Проектирование механизма может использоваться для определения правил, по которым должно быть организовано взаимодействие агентов в целях максимизации некоторой глобальной полезности благодаря функционированию отдельных рациональных агентов. Иногда удается найти механизмы, позволяющие достичь этой цели, не требуя от каждого агента, чтобы он учитывал то, какие варианты выбраны другими агентами. Мы вернемся к тематике задач MDP и POMDP в главе 21, где описаны методы обучения с подкреплением, позволяющие агенту совершенствовать свое поведение на основании опыта, полученного в последовательных, неопределенных вариантах среды.
<< В начало < Предыдущая 1 2 Следующая > В конец >> |