Страница 3 из 5 Существует несколько способов декомпозиции совместного распределения . В настоящей главе будет описан подход, известный под названием языкового моделирования, в котором предусматривается получение оценки языковой модели для каждого документа, а затем вычисление для каждого запроса вероятности этого запроса с учетом языковой модели документа. Используя г для обозначения выражения R=true, можно перезаписать приведенное выше определение вероятности следующим образом:  Как уже было сказано, может быть предпринята попытка максимизировать значение , но равным образом можно максимизировать отношение вероятностей . Это означает, что ранжирование документов может осуществляться на основе следующей оценки:  Преимущество такого подхода состоит в том, что из процедуры вычисления устраняется терм P{D,Q). Теперь примем предположение, что в случае нерелевантных документов каждый документ является независимым по отношению к запросу. Иными словами, если какой-то документ нерелевантен по отношению к запросу, то получение информации о существовании этого документа не позволит определить, в чем состоит сам запрос. Это предположение может быть выражено с помощью такой формулы:  На основании этого предположения получим следующее:  Коэффициент измеряет независимую от запроса вероятность того, что документ является релевантным. Таким образом, этот коэффициент представляет собой меру качества документа; некоторые документы с большей вероятностью будут релевантными по отношению к любому запросу, поскольку сами эти документы имеют изначально высокое качество. Применительно к статьям для академических журналов качество можно оценить на основании количества упоминаний об этих статьях в других источниках, а для оценки Web-страниц можно использовать количество гиперссылок на ту или иную страницу. В каждом из этих случаев можно присвоить больший вес адресатам ссылок, характеризующимся высоким качеством. Одним из факторов оценки релевантности документа, независимой от запроса, может также служить продолжительность существования этого документа.
|