Главная arrow книги arrow Копия Глава 23. arrow Библиографические и исторические заметки
Библиографические и исторические заметки

В [980] приведен хороший обзор проблематики классификации и кластеризации документов. В [738] используются теория статистического обучения и теория машин векторов поддержки для теоретического анализа ситуаций, в которых классификация должна быть успешной. В [37] приведены данные о том, что при классификации новостных сообщений агентства Reuters, относящихся к категории "Earnings" (Доходы), была достигнута точность 96%. В [824] приведены данные о том, что при использовании наивного байесовского классификатора достигается точность вплоть до 95%, а при использовании байесовского классификатора, в котором учитываются некоторые зависимости между характеристиками, — вплоть до 98,6%. В [922] приведен обзор результатов, достигнутых за сорок лет применения наивных байесовских моделей для классификации и поиска в тексте.

Последние достижения в этой области публикуются в журнале Information Retrieval и в трудах ежегодной конференции SIGIR.

Одними из первых программ извлечения информации являются Gus [143] и Frump [380]. В основе некоторых проектов современных систем извлечения информации лежат работы в области семантических грамматик, проводившиеся в 1970-х и 1980-х годах. Например, в интерфейсе системы резервирования авиабилетов с семантической грамматикой используются такие категории, как Location (место нахождения) и FlyTo (место назначения), а не NP и vp. Описание результатов реализации одной из систем, основанных на семантических грамматиках, приведено в [130].

Новейшие результаты исследований по извлечению информации пропагандируются на ежегодных конференциях MUC (Message Understanding Conference), спонсором которых выступает правительство США. Система FASTUS была разработана Хоббсом и др. [664]; в сборнике статей, в котором впервые была опубликована информация об этой системе [1299], можно найти информацию и о других системах, в которых используются модели конечных автоматов.