Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4.b._Konspekt2.doc
Скачиваний:
116
Добавлен:
22.08.2013
Размер:
5.43 Mб
Скачать

1.5. Автокорреляция речевого сигнала

Автокорреляционная функция (АКФ) сигнала однозначно связана с его спектром [1]. АКФ вычисляется либо на сравнительно длинных отрезках (секунды и более), либо на временных сегментах длительностью 10 – 20 мс. В первом случае получают обобщённые оценки сигнала, во втором – описание текущего сигнала, адекватное характеру артикуляционных движений, то есть получают параметры , пригодные для распознавания звуков.

Если анализируемый сегмент представлен последовательностью от-счётов сигнала X1, X2, X3,,Xn, тогда для вычисления кратковременной АКФ можно использовать выражение:

N-τ

B(τ)= 1/(N-τ) Σ Xt Xt+τ

T=1

При значениях τ равных 0, 1, 2, …, 9 получается набор коэффициентов АКФ:B(0),B(1),B(2), …,B(9), однозначно определяющих данный сегмент.

В реальном масштабе времени далеко не каждая ЭВМ может выполнить такую обработку сигнала [1].

2. Устройства распознавания речи

2.1. Разновидности устройств речевого ввода и модель устройства речевого ввода

Задача распознавания речи (речевого ввода) существенно сложнее задачи синтеза речи (речевого вывода) и к настоящему времени решается лишь при ряде ограничений [3]:

1. Ограничен объём словаря для вводимой информации (от 50 до 300 слов; при увеличении словаря падает достоверность, растёт время распоз-навания);

2. Устройства ввода распознают изолированно (раздельно) произно- симые слова. Задача распознавания слитной речи пока окончательно не решена;

3. Проявляется зависимость достоверности распознавания от индиви-дуальных свойств речи конкретного оператора, вследствие чего требуется настройка устройства на данного диктора и его словарь. Достоверность распознавания при соблюдении некоторых условий достигает тем не менееь 92 – 99 %.

В связи с перечисленными выше ограничениями устройства речевого ввода (УРВ) можно классифицировать следующим образом:

1.Устройства для распознавания изолированной или слитной речи;

2.Устройства с ограниченным словарём (словником);

3.Устройства адаптированные на конкретного диктора

Большинство реально работающих устройств использует сравни- тельно несложный общий алгоритм распознавания речи, суть которого кратко заключается в следующем.

Предварительно, на этапе обучения устройства формируется и записывается в память словарь эталонов – массив слов, которые устройство должно распознавать с заданной достоверностью. Затем на этапе распознавания произнесённое диктором слово (реализация) сравнивается последовательно со всеми эталонами и вырабатывается решение о сходстве (несходстве) реализации и эталона.

Сравнительная простота общего алгоритма распознавания реализуется намного сложней, так как к техническим параметрам отдельных узлов УРВ предъявляются очень жёсткие требования. По этим причинам устройства распознавания речи развиты в настоящее время слабей, чем синтезаторы речи.

На рис.3 приведена модель устройства распознавания речи, с использованием которой (и её аналогов) были разработаны реальные устройства (в том числе такие серийные отечественные устройства как ИКАР, УРВ РМ, ЛЕКСИНАР и др.).

Модель УРВ состоит из нескольких блоков, каждый из которых реализует часть общего алгоритма распознавания речевого сигнала. Работа модели разбивается на два самостоятельных этапа (режима) работы:

а) Режим обучения устройства, на котором происходит формирова-ние словаря (словника);

б) Режим распознавания – основной режим работы УРВ.

Модель основана на распознавания раздельно произносимых слов, так как в этом случае временные интервалы между словами чётко различимы и не усложняют алгоритм. В составе модели имеется мини-дисплей (МД), который информирует диктора о том какие действия диктор должен предпринимать, если в работе УРВ имеются какие-либо неполадки или отклонения от алгоритма или о том, что обучение устройства или распознавание слов происходит нормально.

Опуская некоторые детали, рассмотрим несколько упрощенный принцип работы модели УРВ

РЕЖИМ ОБУЧЕНИЯ УСТРОЙСТВА(Режим 1): Диктор (Д) последовательно произносит в микрофон отдельные слова. Речевой сигнал с микрофона усиливается усилителем и в нормированном виде поступает на дальнейшую обработку –блок 1. Далее вблоке 2 происходит преобразование аналогового речевого сигналаX(t) в цифровую форму – формируется цифровое информационное описание речевого сигналаX*(t). Алгоритм формирования цифрового описания зависит от того, какой метод положен

в основу формирования признаковых параметров. Будем считать, что речевой сигнал подвергается спектральному анализу (см. раздел 2.1). В блоке 3 происходит формирование словаря УРВ и запись словаря в память устройства. Формирование словаря происходит последовательно для всех слов, которые должны входить в словарь На этом заканчивается режим 1 – режим обучения УРВ.

РЕЖИМ РАСПОЗНАВАНИЯ (режим 2):Этот режим является основным, то есть это собственно режим распознавания слов. Начальная часть режима (блоки 1 и 2) реализуются аналогично.

Сформированный цифровой образ слова, произнесённого диктором слова – реализация Xp(i)– поступает вблок 4, в котором происходит сравнение реализации с эталонамиXэ(j). В этом же блоке происходит нормализация темпа речи методом деформации оси времени с тем, чтобы длительность звучания реализации соответствовала длительности звучания эталона. Результатом работыблока 4 массив данных – так называемыхмер сходства(или несходства)– {Mk}, каждая из которых характеризует близость произнесённого слова к эталонам.

В блоке 5 происходит анализ мер сходства и вырабатывается решение, определяющее результат распознавания.

Возможны 5 вариантов решения (подсказок диктору):

а) Входная реализация тождественна (близка) одному из эталонов заданного словаря;

б) Реализация не принадлежит данному словарю;

в) Реализация равноудалена от нескольких эталонов словаря;

г) Реализация произнесена тихо;

д) Реализация не принадлежит к классу речевых сигналов (помеха).

Разумеется, эта модель, достаточно точно отражающая суть алгоритма распознавания и принцип реализации его в УРВ, рассмотрена с учётом большого количества упрощающих предположений. Это сделано намеренно с целью избежать излишних подробностей, мешающих понять суть процесса распознавания речи.

Соседние файлы в предмете Системы ввода и вывода данных