Страница 3 из 4 На этот вопрос можно ответить с использованием статистической проверки значимости. Такая проверка начинается с принятия предположения о том, что в данных нет никаких скрытых закономерностей (это предположение называется нуль-гипотезой). После этого проводится анализ фактических данных для определения того, в какой степени они отличаются от данных, характеризующихся абсолютным отсутствием закономерностей. Если полученная степень отклонения является статистически маловероятной (обычно принято считать, что вероятность отклонения составляет 5% или меньше), то такие данные рассматриваются как надежное свидетельство наличия значимых закономерностей в данных. Вероятности вычисляются на основании стандартных распределений величины отклонения, которые можно надеяться обнаружить в случайно сформированных выборках. В данном случае нуль-гипотеза состоит в том, что атрибут является нерелевантным, а следовательно, приращение информации для бесконечно большого образца будет равно нулю. Необходимо вычислить вероятность того, что после принятия нуль-гипотезы образец с размером ν будет показывать наблюдаемое отклонение от ожидаемого распределения положительных и отрицательных примеров. Такое отклонение можно измерить, сравнивая фактические количества положительных и отрицательных примеров в каждом подмножестве,, с ожидаемыми количествами,, при том условии, что принято предположение об истинной нерелевантности атрибута: Удобный критерий суммарного отклонения определяется следующей формулой: Согласно нуль-гипотезе, значение D распределяется в соответствии с распределением χ2 (хи-квадрат) с v-1 степенями свободы. Вероятность того, что атрибут действительно является нерелевантным, можно рассчитать с помощью стандартных таблиц x2 или с применением статистического программного обеспечения. В упр. 18.11 предлагается внести соответствующие изменения в алгоритм Decision-Tree-Learning для реализации этой формы отсечения, которая известна под названием отсечение x2.
|