Страница 3 из 5 В последнее время растет интерес к области информационного поиска, обусловленный широким применением поиска в Internet. В [1296] приведен обзор ранних работ в этой области и представлен принцип ранжирования вероятностей. В [980] дано краткое введение в проблематику информационного поиска в контексте статистических подходов к решению задач NLP. В [59] приведен обзор общего назначения, заменивший более старые классические работы [492] и [1347]. Книга Managing Gigabytes [1606] посвящена решению именно той задачи, о которой говорит ее название, — описанию того, как можно эффективно индексировать, применять сжатие и выполнять запросы применительно к совокупности текстов гигабайтовых размеров. В рамках конференции TREC, организованной Национальным институтом стандартов и технологии (National Institute of Standards and Technology— NIST) при правительстве Соединенных Штатов, проводятся ежегодные соревнования между системами информационного поиска и публикуются труды с описанием достигнутых результатов. За первые семь лет таких соревнований производительность участвующих в них программ выросла примерно в два раза. Наиболее широко применяемой моделью для информационного поиска является модель векторного пространства Салтона [1348]. В первые годы развития этой области указанная работа Салтона была фактически самой влиятельной. Имеются также две альтернативные вероятностные модели. Модель, представленная в этой книге, основана на [1225]. В ней моделируется совместное распределение вероятностей P(D,Q) в терминах P(Q\ D). В другой модели [985], [1297] используется вероятность P(D|Q). В [879] показано, что обе эти модели основаны на одном и том же совместном распределении вероятностей, но от выбора модели зависит то, какие методы должны применяться для определения параметров с помощью обучения. Описание, приведенное в данной главе, основано на обеих этих моделях. В [1522] приведено сравнение различных моделей информационного поиска. В [187] описана реализация машины поиска для World Wide Web, включая алгоритм PageRank, в основе которого лежит независимый от запроса критерий качества документа, базирующийся на анализе Web-ссылок. В [805] описано, как находить авторитетные источники информации в Web с использованием анализа ссылок. В [1411] приведены результаты исследования журнала с данными о миллиарде поисковых операций, выполненных в Web. В [864] приведен обзор литературы по исправлению орфографических ошибок. В [1230] описан классический алгоритм выделения основы с помощью правил, а в [860] описан вариант, в котором применяется словарь.
|