В данной главе показано, как можно использовать простые языковые модели, прошедшие статистическое обучение, для обработки коллекций, состоящих из миллионов слов, а не просто отдельных предложений. В главе 22 было показано, что агент может взаимодействовать с другим агентом (человеком или программой), используя фрагменты текста на естественном языке. Для полного извлечения смысла фрагментов речи необходимо проводить всесторонний синтаксический и семантический анализ фрагментов речи, а такая возможность возникает благодаря тому, что эти фрагменты речи невелики и относятся только к ограниченной проблемной области. В данной главе рассматривается подход к обеспечению понимания языка, основанный на использовании совокупностей текстов. Совокупностью текстов (corpus, во множественном числе — corpora) называется большая коллекция текстов, подобная тем миллиардам страниц, из которых состоит World Wide Web. Эти тексты написаны людьми и для людей, а задача программного обеспечения состоит в упрощении поиска нужной информации. В этом подходе предусматривается использование статистики и обучения для получения возможности воспользоваться содержимым совокупности, и в нем обычно применяются вероятностные языковые модели, обучение которых может проводиться с использованием существующих данных и которые проще по сравнению с дополненными грамматиками DCG, описанными в главе 22. При решении большинства подобных задач доступный объем данных превышает тот, который требуется для создания более простой языковой модели. В данной главе рассматриваются три конкретные задачи: информационный поиск (раздел 23.2), извлечение информации (раздел 23.3) и машинный перевод (раздел 23.4). Но вначале в ней представлен обзор вероятностных языковых моделей.
|