1. Признаковое описание речевых сигналов

Поскольку во всех устройствах распознавания речи и речевых синтезаторах носителями информации являются электрические сигналы (аналоговые и цифровые), предварительно дадим некоторые определения и определим численные характеристики некоторых из них.

Речевой аппарат говорящего можно уподобить резонатору – устрой-ству, при возбуждении которого рождается акустический сигнал, преобразуемый с помощью микрофона и усилителя в электрический сигнал. При неизменных параметрах резонатора (положение языка, губ, нёба) этот резонатор генерирует акустический сигнал с неизменной частотой – сигнал основного тона. При этом частота основного тона мужских голосов лежит в пределах 130 – 146 Гц, женских – 188 – 295 Гц. В тех случаях, когда речь содержит сильные ударения, эмоционально окрашена (крик) частота основного тона поднимается до 400 Гц.

При произнесении связной речи речевой аппарат человека находится в постоянном движении – непрерывно перестраивается. Это рождает в речевом сигнале так называемые обертоны – сигналы с частотой кратной основному тону, что делает речевой сигнал насыщенным и воспринимается ухом человека лучше.

Частотный диапазон речи равен 20 – 20000 Гц (как правило меньше). В телефонном канале этот диапазон существенно меньше – 1000 – 6000 Гц без заметной потери информации при разговоре.

Так как речевой сигнал является квазислучайным, его трудно обраба-тывать общепринятыми методами. Поэтому речевой сигнал заменяют рядом его признаков, которые должны достаточно хорошо представлять речевой сигнал в процессе его обработки в ЭВМ.

Признаками речевого сигнала принято называть совокупность пара-метров, которая непосредственно используется при распознавании и синтезе речи.

Известно несколько методов анализа речевого сигнала с целью выделения его признаков:

1. Спектральное описание речевого сигнала;

2. Клиппирование речевого сигнала;

3. Выделение формантных параметров речи;

4. КЛП-анализ речи;

5. Автокорреляция речевого сигнала.

1.1. Спектальное описание речевого сигнала

Речевой сигнал, полученный с микрофона и усиленный до заданного уровня может быть разложен на гармонические составляющие или представлен как интеграл бесконечного числа гармонических составляю-щих:

∞

F(t) = Σ Cn Сos( n ω t) (*)

n=0

где: n- номер гармоники;

Cn-амплитуда гармоники;

ωчастота (круговая).

Спектром сигналаF(t) называют совокупность простых гармониче-ских колебаний, на которые может быть разложено сложное колебатель-ное движение. По сути выражение (*) является аналитическим спектром функцииF(t). При этом гармонические колебания имеют характерный линейчатый спектр, а негармонические и затухающие колебания – сплош-ной спектр (см. рис.1,а,б, соответственно).

Основным способом разложения сигнала в спектр является преобра-зование Фурье с последующей полосовой фильтрацией. Речевой сигнал обычно анализируется в полосе частот от 50 Гц до 12 Кгц или меньше (300 – 3400 Гц в телефонном канале). Число спектральных полос не поддаётся точному расчёту и подбирается экспериментально (5 до 16, а иногда значительно больше). Для определения амплитуд спектральных составляющих используется детектирование.

В результате спектрального разложения речевого сигнала (фонем) получают «спектральный портрет» звукового образа речи:

А0, А1, А2, Аn

ω1, ω2 ω3, ωn

где: Аi –амплитуды гармоник;

ωi – частоты гармоник.

<<< < Предыдущая 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 4243 / 5043 44 45 46 47 48 49 50 > Следующая >>>

Соседние файлы в предмете Системы ввода и вывода данных

#
22.08.201392.16 Кб241._Programma_discipliny.doc
#
22.08.201340.45 Кб172,a._Kal-plan_1.doc
#
22.08.201344.54 Кб252,b._Kal-plan_2.doc
#
22.08.201334.3 Кб343._Literatura.doc
#
22.08.20132.97 Mб1384,a._Konspekt_1.doc
#
22.08.20135.43 Mб1164.b._Konspekt2.doc
#
22.08.2013351.74 Кб295,a.Testy_1.doc
#
22.08.201373.22 Кб265,b.Testy_2.doc
#
22.08.20133.89 Mб506,a.Prezentaciya_1.ppt
#
22.08.20133.45 Mб206.b.Prezentaciya2.pptm
#
22.08.2013419.84 Кб267,a._Scenarij_1.doc