Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4.b._Konspekt2.doc
Скачиваний:
116
Добавлен:
22.08.2013
Размер:
5.43 Mб
Скачать

1. Признаковое описание речевых сигналов

Поскольку во всех устройствах распознавания речи и речевых синтезаторах носителями информации являются электрические сигналы (аналоговые и цифровые), предварительно дадим некоторые определения и определим численные характеристики некоторых из них.

Речевой аппарат говорящего можно уподобить резонатору – устрой-ству, при возбуждении которого рождается акустический сигнал, преобразуемый с помощью микрофона и усилителя в электрический сигнал. При неизменных параметрах резонатора (положение языка, губ, нёба) этот резонатор генерирует акустический сигнал с неизменной частотой – сигнал основного тона. При этом частота основного тона мужских голосов лежит в пределах 130 – 146 Гц, женских – 188 – 295 Гц. В тех случаях, когда речь содержит сильные ударения, эмоционально окрашена (крик) частота основного тона поднимается до 400 Гц.

При произнесении связной речи речевой аппарат человека находится в постоянном движении – непрерывно перестраивается. Это рождает в речевом сигнале так называемые обертоны – сигналы с частотой кратной основному тону, что делает речевой сигнал насыщенным и воспринимается ухом человека лучше.

Частотный диапазон речи равен 20 – 20000 Гц (как правило меньше). В телефонном канале этот диапазон существенно меньше – 1000 – 6000 Гц без заметной потери информации при разговоре.

Так как речевой сигнал является квазислучайным, его трудно обраба-тывать общепринятыми методами. Поэтому речевой сигнал заменяют рядом его признаков, которые должны достаточно хорошо представлять речевой сигнал в процессе его обработки в ЭВМ.

Признаками речевого сигнала принято называть совокупность пара-метров, которая непосредственно используется при распознавании и синтезе речи.

Известно несколько методов анализа речевого сигнала с целью выделения его признаков:

1. Спектральное описание речевого сигнала;

2. Клиппирование речевого сигнала;

3. Выделение формантных параметров речи;

4. КЛП-анализ речи;

5. Автокорреляция речевого сигнала.

1.1. Спектальное описание речевого сигнала

Речевой сигнал, полученный с микрофона и усиленный до заданного уровня может быть разложен на гармонические составляющие или представлен как интеграл бесконечного числа гармонических составляю-щих:

F(t) = Σ Cn Сos( n ω t) (*)

n=0

где: n- номер гармоники;

Cn-амплитуда гармоники;

ωчастота (круговая).

Спектром сигналаF(t) называют совокупность простых гармониче-ских колебаний, на которые может быть разложено сложное колебатель-ное движение. По сути выражение (*) является аналитическим спектром функцииF(t). При этом гармонические колебания имеют характерный линейчатый спектр, а негармонические и затухающие колебания – сплош-ной спектр (см. рис.1,а,б, соответственно).

Основным способом разложения сигнала в спектр является преобра-зование Фурье с последующей полосовой фильтрацией. Речевой сигнал обычно анализируется в полосе частот от 50 Гц до 12 Кгц или меньше (300 – 3400 Гц в телефонном канале). Число спектральных полос не поддаётся точному расчёту и подбирается экспериментально (5 до 16, а иногда значительно больше). Для определения амплитуд спектральных составляющих используется детектирование.

В результате спектрального разложения речевого сигнала (фонем) получают «спектральный портрет» звукового образа речи:

А0, А1, А2, Аn

ω1, ω2 ω3, ωn

где: Аiамплитуды гармоник;

ωiчастоты гармоник.

Соседние файлы в предмете Системы ввода и вывода данных