Страница 2 из 3 Константа нормализации α зависит от а и b (см. упр. 20.8). На рис. 20.5 показано, как выглядит это распределение при различных значениях а и b. Среднее значение этого распределения равно а/(а+b), поэтому большие значения а показывают обоснованность убеждения, что Θ ближе к 1, чем к 0. При больших значениях а+b распределение становится более заостренным, что выражает большую уверенность в правильности значения Θ. Таким образом, семейство бета-распределений предоставляет удобный ряд возможностей выбора распределений априорных вероятностей гипотезы. Рис. 20.5. Примеры распределения beta [a ,b] для различных значений [a,b] Кроме такой гибкости, семейство бета-распределений обладает еще одним замечательным свойством: если переменная Θ имеет распределение априорных вероятностей beta [ а, b], то после наблюдения в любой точке данных распределение апостериорных вероятностей для Θ также становится бета-распределением. Семейство бета-распределений называется сопряженным распределением априорных вероятностей для семейства распределений, относящихся к некоторой булевой переменной5. Рассмотрим, как применяется это свойство. Предположим, что наблюдается появление вишневого леденца; в таком случае имеет место следующее соотношение: Таким образом, после обнаружения вишневого леденца наращивается параметр а для получения нового распределения апостериорных вероятностей; аналогичным образом, после обнаружения лимонного леденца наращивается параметр b. Поэтому гиперпараметры а и b можно рассматривать как виртуальные счетчики, в том смысле, что распределение априорных вероятностей beta [a, b] ведет себя точно так же, как если бы обучение начиналось с равномерного распределения априорных вероятностей beta [1,1], после чего было фактически обнаружено а-1 вишневых леденцов и b-1 лимонных. Изучая последовательность бета-распределений, соответствующих возрастающим значениям а и b, и поддерживая постоянные пропорции, можно наглядно продемонстрировать, как изменяется распределение апостериорных вероятностей по параметру Θ по мере поступления новых данных. Например, предположим, что пакет с конфетами в действительности содержит 75% вишневых леденцов. На рис. 20.5, б показана последовательность распределений beta [ 3,1 ], beta [6,2], beta [30,10]. Очевидно, что эта последовательность сходится к узкому пику вокруг истинного значения Θ. Поэтому при наличии больших наборов данных процесс байесовского обучения постепенно сходится (по меньшей мере в данном случае) и позволяет получить такие же результаты, как и обучение с учетом максимального правдоподобия.
|