Обучение на основе экземпляра |
До сих пор приведенное в данной главе описание статистического обучения сосредоточивалось в основном на задаче подгонки параметров ограниченного семейства вероятностных моделей к неограниченному набору данных. Например, в методе неконтролируемой кластеризации используются смешанные гауссовы распределения на основании того предположения, что структуру рассматриваемых данных можно объяснить, трактуя их как сумму постоянного количества гауссовых распределений. Авторы настоящей книги называют такие методы параметрическим обучением. Методы параметрического обучения часто бывают простыми и эффективными, но предположение о том, что в данных воплощено конкретное ограниченное семейство моделей, часто слишком упрощает то, что происходит в реальном мире, из которого поступают эти данные. Верно, что при наличии очень малого объема данных нельзя надеяться определить в процессе обучения параметры сложной и подробной модели, но представляется неразумным по-прежнему придерживаться гипотезы с той же фиксированной сложностью, даже после того, как доступный набор данных становится очень большим! В отличие от параметрического обучения, методы непараметрического обучения позволяют увеличивать сложность гипотезы по мере роста объема данных. Чем больше данных поступает в распоряжение исследователя, тем более развитой может становиться гипотеза. В данном разделе рассматриваются два очень простых семейства методов не параметрического обучения на основе экземпляра (или обучения на основе содержимого памяти), получивших такое название потому, что они позволяют конструировать гипотезы непосредственно на основе самих обучающих экземпляров.
|