В этом разделе представлен алгоритм вычисления оптимальной стратегии, называемый итерацией по значениям. Основная его идея состоит в том, что нужно рассчитать полезность каждого состояния, а затем использовать полезности состояний для выбора оптимального действия в каждом состоянии.
|