Оптимальность в задачах последовательного принятия решений

Копия Глава 17. Принятие сложных решений

Страница 2 из 4

Следующий вопрос, на который необходимо найти ответ, состоит в том, как рассчитать полезность последовательностей состояний. Мы будем рассматривать задачу поиска ответа на этот вопрос как задачу многоатрибутной теории полезности (см. раздел 16.4), где каждое состояниерассматривается как атрибут последовательности состояний. Чтобы получить простое выражение в терминах атрибутов, необходимо принять своего рода предположение о независимости предпочтений. Наиболее естественное предположение состоит в том, что отношение предпочтения агента между последовательностями состояний является стационарным. Стационарность предпочтений означает следующее: если две последовательности состояний,, начинаются с одного и того же состояния (т.е.), то эти две последовательности должны быть упорядочены по предпочтениям таким же образом, как и последовательности и . На естественном языке эту мысль можно выразить так, что если вы предпочитаете одно будущее развитие событий, начинающееся завтра, другому развитию событий, то вы должны также предпочесть это будущее развитие событий, если оно начнется сегодня. На первый взгляд, предположение о стационарности выглядит довольно безобидно, но влечет за собой весьма важные последствия: как оказалось, в условиях стационарности существуют только два способа присваивания значений полезности последовательностям, которые описаны ниже.

1. Аддитивные вознаграждения. Полезность последовательности состояний определяется следующим образом:

В мире 4x3, показанном на рис. 17.1, используются аддитивные вознаграждения. Обратите внимание на то, что свойство аддитивности уже было определено неявно в используемых нами функциях стоимости пути для алгоритмов эвристического поиска (см. главу 4).

2. Обесцениваемые вознаграждения, Полезность последовательности состояний определяется с помощью следующего соотношения:

где γ — это коэффициент обесценивания, который представляет собой число от 0 до 1. Коэффициент обесценивания описывает предпочтение агентом текущих вознаграждений перед будущими вознаграждениями. Если коэффициент γ близок к 0, вознаграждения, которые должны быть получены в отдаленном будущем, рассматриваются как малозначащие, а если коэффициент γ равен 1, то обесцениваемые вознаграждения полностью эквивалентны аддитивным вознаграждениям, поэтому аддитивные вознаграждения представляют собой частный случай обесцениваемых вознаграждений. По-видимому, обесценивание представляет собой хорошую модель изменения во времени предпочтений и животных, и человека. Коэффициент обесценивания γ эквивалентен процентной ставке (1/γ) -1.

<< В начало < Предыдущая 1 2 3 4 Следующая > В конец >>