Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие СиСПИ.doc
Скачиваний:
84
Добавлен:
12.11.2019
Размер:
1.81 Mб
Скачать

Глава 4 Основы цифровой обработки сигналов

4.1. Анализ образования речи и формирование сообщения для передачи по каналам связи

Речь предназначена для общения. Возможности речи с этой точки зрения можно характеризовать по-разному. Один из количественных подходов основан на теории информации, разработанной Шенноном [8].

В соответствии с этой теорией речь можно описать ее информационным содержанием или информацией. Другой способ описания речи заключается в представлении ее в виде сигнала, т.е. акустического колебания.

На рис. 4.1 изображена схема, описывающая механизм образования речи в человеческом организме. При разговоре грудная клетка расширяется и сжимается, прокачивая поток воздуха из легких по трахее через голосовую щель. Если голосовые связки напряжены, как при образовании звонких звуков типа гласных, то они вибрируют подобно релаксационному генератору и модулируют поток воздуха, превращая его в короткие импульсы (порции). Если голосовые связки расслаблены, воздух свободно проходит через голосовую щель, не подвергаясь модуляции. Воздушный поток проходит через глоточную полость мимо основания языка и в зависимости от положения мягкого неба – через ротовую и (или) носовую полости. Поток воздуха выходит наружу через рот или нос (или обоими путями) и воспринимается как речь. В случае глухих звуков, таких, как s в слове snow или p в слове pit, голосовые связки расслаблены. При этом возможны два режима: либо образуется турбулентный поток, когда воздух проходит через сужение в голосовом тракте (как при образовании звука s), либо возникает короткий взрывной процесс, вызванный повышенным давлением воздуха за точкой перекрытия голосового тракта (как в звуке p). При изменении положения артикуляторов (губ, языка, челюсти, мягкого неба) во время произнесения непрерывной речи форма отдельных полостей голосового тракта существенно меняется.

Речевое общение начинается с того, что в мозгу диктора возникает в абстрактной форме некоторое сообщение. В процессе речеобразования это сообщение преобразуется в акустическое речевое колебание. Информация, содержащаяся в сообщении, представлена в акустическом колебании весьма сложным образом. Сообщение сначала преобразуется в последовательность нервных импульсов, управляющих артикуляторным аппаратом (т.е. перемещение языка, губ, голосовых связок и т. д.). В результате воздействия нервных импульсов артикулярный аппарат приходит в движение, результатом которого является акустическое речевое колебание, несущее информацию об исходном сообщении.

Образование речи можно сравнить на пропускание воздуха через неоднородную трубку. Данную трубку в человеческом организме заменяет гортань, глоточная полость, носовая полость и полость рта. Изменение пропускания воздуха, поступающего от сжимаемых мускульной силой легких через данную трубку, в основном голосовыми связками образуют акустические колебания. Данные акустические колебания, представляют собой сложную форму, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего.

Рис. 4.1. Схема механизма образования речи (по Фланагану).

Понятие звука почти совпадает с понятием колебаний. Звуковые волны возникают за счет колебаний. Они распространяются в воздухе или другой среде с помощью колебаний частиц этой среды. Следовательно, образование и распространение звуков в голосовом тракте подчиняется законам физики. В частности, основные законы сохранения массы, сохранения энергии, сохранения количества движения вместе с законами термодинамики и механики жидкостей применимы к сжимаемому воздушному потоку с низкой вязкостью, которые являются средой распространения звуков речи.

Особенностью речевых сигналов, является неравномерность распределения вероятностей (плотности вероятности) мгновенных значений сигнала. Малые уровни сигнала значительно более вероятны, чем большие. Особенно это заметно на фрагментах большой длительности с невысокой активностью речи.

Еще одна особенность речевых сигналов – их существенная не стационарность во времени: свойства, и параметры сигнала на различных участках значительно различаются. При этом размер интервала стационарности составляет порядка нескольких десятков миллисекунд.

Следовательно, речь формируется при прохождении выталкиваемого легкими потока воздуха через связки и голосовой тракт.

Голосовой тракт начинается от голосовых связок и заканчивается губами и в среднем имеет длину порядка 15-17 сантиметров. Голосовой тракт в силу своих резонансных свойств вносит в формируемый сигнал набор характерных для каждого человека частотных составляющих придающих, голосу тембровую окраску.

Частоты и полосы формант могут управляться изменением формы голосового тракта, например, изменением положения языка. Важной частью многих голосовых кодеров/декодеров является моделирование голосового тракта как кратковременного фильтра с изменяемыми параметрами.

Поскольку форма голосового тракта может изменяться сравнительно медленно (трудно предположить, что можно изменять положение языка чаще, чем 20 - 30 раз в секунду), то параметры такого фильтра должны обновляться (или изменяться) также сравнительно редко (обычно - через каждые 20 миллисекунд или даже реже).

Таким образом, голосовой тракт возбуждается потоком воздуха, направляемым в него через голосовые связки. В зависимости от способа возбуждения, возникающие при этом звуки можно условно разделить на три класса:

1. Гласные звуки, возникающие, когда голосовые связки вибрируют, открываясь и закрываясь, прерывая тем самым поток воздуха от легких к голосовому тракту. Возбуждение голосового тракта при этом производится квазипериодическими импульсами. Скорость (частота) открывания связок определяют высоту возникающего звука (тона). Она может управляться изменением формы и напряжения голосовых связок, а также изменением давления подводимого воздушного потока. Гласные звуки имеют высокую степень периодичности основного тона с периодом 2 - 20 мс. Эта долговременная периодичность хорошо видна на рис. 1.2,а где приведен фрагмент речевого сигнала с гласным звуком.

2. Согласные звуки, возникают при возбуждении голосового тракта турбулентным потоком, формируемым проходящим с высокой скоростью через открытые голосовые связки потоком воздуха. В таких звуках практически отсутствует долговременная периодичность, обусловленная вибрацией голосовых связок.

3. Звуки взрывного характера, возникают, когда закрытый голосовой тракт с избыточным давлением воздуха внезапно открывается.

Некоторые звуки в чистом виде не подходят ни под один из описанных выше классов, но могут рассматриваться как их смесь.

Таким образом, процесс образования речи можно рассматривать как фильтрацию речеобразующим трактом с изменяющимися во времени параметрами сигналов возбуждения, также с изменяющимися характеристиками (рис. 4.2).

Рис. 4.2. Модель процесса образования речи

При этом, несмотря на исключительное разнообразие генерируемых речевых сигналов, форма и параметры голосового тракта, а также способы и параметры возбуждения достаточно однообразны и изменяются сравнительно медленно. Речевой сигнал обладает высокой степенью кратковременной и долговременной предсказуемости из-за периодичности вибраций голосовых связок и резонансных свойств голосового тракта. Большинство кодеров/декодеров речи и используют эту предсказуемость, а также низкую скорость изменения параметров модели, системы образования речи для уменьшения скорости кода.

Под сигналом понимают физический процесс (например, изменяющееся во времени напряжение), отображающий некоторую информацию или сообщение. Математически сигнал описывается функцией определенного типа.

Всякое сообщение является некоторой совокупностью сведений о состоянии какой-либо материальной системы, которые передаются человеком (или устройством), наблюдающим эту систему, другому человеку (или устройству), обычно не имеющему возможности получить эти сведения из непосредственных наблюдений. Эта материальная система, вместе с наблюдателем, представляет собой источник сообщения. Для того чтобы сообщение было передано получателю, необходимо воспользоваться каким-либо физическим процессом. Изменяющаяся физическая величина (например, ток в проводе, электромагнитное поле, звуковые волны и т.п.), отображающая сообщение, называется сигналом. Совокупность средств, предназначенных для передачи сигнала, называется каналом связи. Здесь под «средством» можно понимать как устройство, так и физическую среду, в которой распространяется сигнал. Сигнал принимается получателем. Зная закон, связывающий сообщение и сигнал, получатель может выявить содержащиеся в сообщении сведения. Для получателя сообщение сигнал заранее не известен, и поэтому он является случайным процессом.

Сигнал может быть определен как функция, переносящая информацию о состоянии или поведении физической системы. Сигнал может принимать форму колебаний, зависящих от времени или от пространственных координат. Математически сигналы представляются в виде функций одной или более независимых переменных. Так, например, речевой сигнал математически представлен как функция времени.

Вид сигнала, проходящего по каналу связи, определяется физическими особенностями среды между передатчиком и приемником. В электрических каналах связи сигнал представляет собой ток в проводе либо напряжение электрического поля, в акустических каналах – звуковое давление и т.д.

Преобразование звукового сообщения в электрический сигнал осуществляется с помощью микрофона. Любой микрофон состоит из двух систем: акустико-механической и механоэлектрической.

Первым получил распространение угольный микрофон, который и до сих пор используют в телефонии. Действие его основывается на изменении сопротивления между зернами угольного порошка при изменении давления на их совокупность.

Угольный микрофон (рис. 4.3,а) работает следующим образом. При воздействии звукового давления на его диафрагму 1 она начинает колебаться. В такт этим колебаниям изменяется и сила сжатия зерен угольного порошка 2, в связи, с чем изменяется сопротивление между электродами 3 и 4, а при постоянном электрическом напряжении изменяется и ток через микрофон.

После угольного микрофона появился электромагнитный микрофон, который работает следующим образом (рис. 4.3,б). Перед полюсами (полюсными наконечниками) 2 магнита 3 располагают ферромагнитную диафрагму 1 или скрепленный с ней якорь. При колебаниях диафрагмы под воздействием на нее звукового давления меняется магнитное сопротивление системы, а значит, и магнитный поток через витки обмотки, намотанной на магнитопровод этой системы. Благодаря этому на зажимах обмотки возникает переменное напряжение звуковой частоты, являющееся выходным сигналом микрофона. Широкое распространение получил также и электродинамический микрофон в своих двух модификациях - катушечной и ленточной.

Принцип действия электродинамического катушечного микрофона состоит в следующем (рис. 4.3,в). В кольцевом зазоре 1 магнитной системы, имеющей постоянный магнит 2, находится подвижная катушка 3, скрепленная с диафрагмой 4. При воздействии звукового давления на диафрагму, она вместе с подвижной катушкой начинает колебаться. В силу этого в витках катушки, перерезывающих магнитные силовые линии, возникает напряжение, являющееся выходным сигналом микрофона.

Устройство ленточного электродинамического микрофона несколько отличается от устройства катушечной модификации (рис. 4.3,г). Здесь магнитная система микрофона состоит из постоянного магнита 1 и полюсных наконечников 2, между которыми натянута легкая, обычно алюминиевая, тонкая (порядка 2 мкм) ленточка 3. При воздействии на обе ее стороны звукового давления возникает сила, под действием которой ленточка начинает колебаться, пересекая при этом магнитные силовые линии, вследствие чего на ее концах развивается напряжение.

Рис. 4.3 Устройство микрофонов: а - угольного; б - электромагнитного; в - электродинамического; г - ленточного; д - конденсаторного; е - пьезоэлектрического

Так как сопротивление ленточки очень мало, для уменьшения падения напряжения на соединительных проводниках, напряжение, развиваемое на концах ленточки подается на первичную обмотку повышающего трансформатора, размещенного непосредственно вблизи ленточки. Напряжение на зажимах вторичной обмотки трансформатора является выходным напряжением микрофона.

Для электроакустических трактов высокого качества наибольшее распространение в настоящее время получил конденсаторный микрофон. Принципиально он работает следующим образом (рис. 4,3,д). Жестко натянутая мембрана 1 под воздействием звукового давления может колебаться относительно неподвижного электрода 2, являясь вместе с ним обкладками электрического конденсатора. Этот конденсатор включается в электрическую цепь последовательно с источником постоянного тока Е и активным нагрузочным сопротивлением R. При колебаниях мембраны емкость конденсатора меняется с частотой воздействующего на мембрану звукового давления, в связи, с чем в электрической цепи появляется переменный ток той же частоты и на нагрузочном сопротивлении возникает падение напряжения, являющееся выходным сигналом микрофона.

Нагрузочное сопротивление должно быть большим, чтобы падение напряжения на нем не уменьшалось сильно на низких частотах, где емкостное сопротивление конденсатора очень велико и эксплуатация такого микрофона была бы невозможна из-за сравнительно небольшого сопротивления микрофонных линий и нагрузки. По этой причине почти у всех современных конденсаторных микрофонов предусмотрены конструктивно связанные с самим микрофоном усилители, имеющие малый коэффициент усиления (порядка 1), высокое входное и низкое выходное сопротивления.

Некоторое распространение получили микрофоны пьезоэлектрические (рис. 4.3,е). Их действие основано на том, что звуковое давление воздействует непосредственно или через диафрагму 1 и скрепленный с ней стержень 2 на пьезоэлектрический элемент 3. При деформации последнего на его обкладках вследствие пьезоэлектрического эффекта возникает напряжение, являющееся выходным сигналом микрофона.