Главная arrow книги arrow Копия Глава 15. Вероятностные рассуждения во време arrow Разработка устройства распознавания речи
Разработка устройства распознавания речи

Качество системы распознавания речи зависит от качества всех ее компонентов — языковой модели, моделей произношения слов, моделей фонем и алгоритмов обработки сигналов, используемых для извлечения спектральных характеристик из акустического сигнала. Выше описано, как может быть составлена языковая модель, и указано, что для ознакомления с подробными сведениями об обработке сигналов следует обратиться к другим учебникам. Кроме того, в данной книге не рассматриваются модели произношения и модели фонем. Структура моделей произношения (таких как модели произношения слова "tomato", показанные на рис. 15.15) обычно разрабатывается вручную. В настоящее время для английского языка и других языков составлены большие словари произношения, но далеко не все они отличаются приемлемой точностью. Структура моделей фонем с тремя состояниями является одинаковой для всех фонем, как показано на рис. 15.16. При использовании таких моделей остается только правильно определить сами вероятности. Как же можно получить такие данные, учитывая то, что для этих моделей могут потребоваться сотни тысяч или миллионы параметров?

Единственный осуществимый метод состоит в том, чтобы проводить обучение этих моделей по фактическим речевым данным, объем которых, безусловно, является буквально неограниченным. Очередная проблема заключается в том, как организовать такое обучение. Полный ответ на этот вопрос будет дан в главе 20, но в этом разделе мы можем изложить основные идеи. Рассмотрим двухсловную языковую модель; в данной главе описывалось, как провести ее обучение, подсчитывая частоты пар слов в реальном тексте. А можно ли применить такой же подход для определения вероятностей перехода между фонемами в модели произношения? Ответ на этот вопрос будет положительным, но только если кто-то возьмет на себя труд обозначить каждое вхождение каждого слова правильной последовательностью фонем. Это — трудная и чреватая ошибками задача, но она была выполнена для некоторых стандартных наборов данных, соответствующих нескольким часам речевых записей. Если известны последовательности фонем, то можно оценить вероятности перехода для моделей произношения на основе данных о частотах пар фонем. Аналогичным образом, если дано состояние фонем для каждого фрейма (а для получения этих данных требуется выполнить еще более трудоемкую работу по расстановке меток вручную), то можно оценить вероятности перехода для моделей фонем. Кроме того, если известны состояния и акустические характеристики фонем в каждом фрейме, то можно также оценить качество акустической модели либо непосредственно по данным о частотах (для моделей VQ), либо с использованием методов статистической подгонки (применительно к моделям, в которых применяется сочетание гауссовых распределений; см. главу 20).