Главная arrow книги arrow Копия Глава 17. Принятие сложных решений arrow Резюме
Резюме

В этой главе показано, как использовать знания о мире для принятия решений, даже если результаты действий являются неопределенными, а вознаграждения за действия могут оставаться недоступными до тех пор, пока не будет осуществлен целый ряд действий. Основные идеи этой главы кратко изложены ниже.

•    Задачи последовательного принятия решений в неопределенных вариантах среды, называемые также марковскими процессами принятия решений (Markov Decision Process — MDP), определяются с помощью моделей перехода, задающих вероятностные результаты действий, и функции вознаграждения, которая показывает, какое вознаграждение соответствует каждому состоянию.

•    Полезность последовательности состояний представляет собой сумму всех вознаграждений вдоль этой последовательности, которая, возможно, со временем подвергается обесцениванию. Решением задачи MDP является стратегия, в которой с каждым состоянием, достижимым для агента, связано некоторое решение. Оптимальная стратегия максимизирует полезность встречающейся последовательности состояний при ее осуществлении.

•    Полезностью состояния является ожидаемая полезность последовательностей состояний, встречающихся при осуществлении оптимальной стратегии, начиная с этого состояния. Алгоритм итерации по значениям для решения задач MDP действует по принципу итеративного решения уравнений, связывающих полезности каждого состояния с полезностями его соседних состояний.

•    В алгоритме итерации по стратегиям чередуются этап вычисления полезностей состояний согласно текущей стратегии и этап усовершенствования текущей стратегии по отношению к текущим полезностям.