Страница 5 из 5 Преимуществом сглаженной модели является то, что она менее восприимчива к шуму и позволяет присвоить ненулевую вероятность релевантности документу, не содержащему все слова запроса. А преимуществом несглаженной модели является то, что она позволяет проще выполнить вычисления применительно к коллекциям с многочисленными документами, поскольку после создания индекса, где указано, в каких документах упоминается каждое слово, появляется возможность быстро формировать результирующий набор путем применения операции пересечения к этим спискам, после чего остается вычислить только для документов, входящих в полученное пересечение, а не для каждого документа. Таблица 23.1. Вероятностная модель информационного поиска для запроса [Bayes information retrieval model], применяемого к коллекции документов, состоящей из пяти глав оригинала настоящей книги. В этой таблице указано количество слов, относящееся к каждой паре "документ-слово", и общее количество слов N для каждого документа. Используются две модели документа ( — это несглаженная модель однословных сочетаний для i-ro документа; — та же модель со сглаживанием путем добавления единицы) и вычисляется вероятность запроса применительно к каждому документу для обеих моделей. Очевидно, что текущая глава (глава 23) имеет наивысшие показатели при использовании любой модели, поскольку в ней появление искомых слов имеет в 200 раз более высокую вероятность по сравнению с любой другой главой
<< В начало < Предыдущая 1 2 3 4 5 Следующая > В конец >> |