Страница 4 из 4 На третьем этапе выполняется обработка базовых групп; под этим подразумеваются именные и глагольные группы. Общая идея состоит в том, чтобы объединить на этом этапе слова в такие элементы, которые можно будет легко обрабатывать на последующих этапах. Именная группа состоит из заглавного существительного, за которым следуют необязательные определители и другие модификаторы. Поскольку именная группа не включает всех сложных конструкций, предусмотренных для именного словосочетания NP в грамматике , не требуются рекурсивные правила контекстно-свободной грамматики — достаточно только использовать правила регулярной грамматики, допустимые для конечных автоматов. Глагольная группа состоит из глагола и присоединенных к нему вспомогательных частиц и наречий, но без прямого и косвенного объекта и пропозициональных предложений. Предложение, приведенное выше в качестве примера, может быть преобразовано на этом этапе в следующую конструкцию:  где NG обозначает именную группу; VG — глагольную группу; PR — предлог, CJ— союз. На четвертом этапе базовые группы объединяются в сложные фразы. И в этом случае цель состоит в том, чтобы применяемые правила могли быть реализованы с помощью конечного автомата и допускали быструю обработку, а полученный результат сводился к непротиворечивым (или почти непротиворечивым) выходным фразам. В правиле комбинирования одного из типов учитываются события, типичные для рассматриваемой проблемной области. Например, следующее правило отражает один из способов описания процесса формирования совместного предприятия:  Этот этап является первым из каскада этапов, в которых полученные выходные данные помещаются в шаблон базы данных, а также выводятся в выходной поток. На последнем этапе происходит слияние структур, которые были сформированы на предыдущем этапе. Если в следующем предложении сказано: "The joint venture will start production in January" (Это совместное предприятие начнет выпускать продукцию в январе), то на данном этапе будет отмечено, что в двух ссылках на совместное предприятие ("joint venture") упоминается один и тот же объект, и они будут объединены в одну ссылку. Вообще говоря, средства извлечения информации действуют успешно применительно к ограниченной проблемной области, в которой возможно заранее определить, какие темы будут обсуждаться и в каких терминах будет проходить это обсуждение. Такие средства показали свою применимость для целого ряда проблемных областей, но они не способны заменить полномасштабную обработку текста на естественном языке.
<< В начало < Предыдущая 1 2 3 4 Следующая > В конец >> |