Страница 4 из 4 На практике часто происходит так, что стратегиястановится оптимальной задолго до того, как сходится значение. На рис. 17.5 показано, как максимальная ошибка в значениии убыточность стратегии приближаются к нулю по мере осуществления процедуры итерации по значениям для среды 4x3 со значением γ = 0 . 9. Стратегиястановится оптимальной при i=4, даже несмотря на то, что максимальная ошибка в значениивсе еще остается равной 0.46. Теперь подготовлено все необходимое для использования процедуры итерации по значениям на практике. Известно, что процедура итерации по значениям в пределе сходится к правильным значениям полезности; ошибка в оценках полезностей может быть ограничена, даже если процедура итерации по значениям останавливается после конечного количества итераций; кроме того, может быть ограничена убыточность стратегии, которая связана с осуществлением соответствующей стратегии с максимальной ожидаемой полезностью. В качестве заключительного замечания отметим, что все результаты, приведенные в данном разделе, соответствуют такому случаю, когда применяется обесценивание полезностей, а γ<1. Если γ=1 и среда содержит терминальные состояния, то можно вывести аналогичное множество результатов оценки сходимости и определения предельных значений ошибок, если выполняются некоторые формальные условия. Рис. 17.5. Зависимости максимальной ошибки в оценках полезности и убыточности стратегии по сравнению с оптимальной стратегией от количества итераций в процедуре итерации по значениям
<< В начало < Предыдущая 1 2 3 4 Следующая > В конец >> |