Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ушакова Т.Н..doc
Скачиваний:
23
Добавлен:
22.04.2019
Размер:
1.08 Mб
Скачать

3.2. Речеобразование, восприятие

и распознавание речи.

Элементы психоакустики.

Речеобразование — это строго скоординированный поведен­ческий акт, состоящий из многочисленных движений артику-ляторных органов, посредством которых реализуется механизм обмена информацией между людьми (Деркач и др., 1983).

Речевая коммуникация отличается от других способов передачи информации, к примеру, жестов и мимики, тем, что в ней используется инструмент человеческого языка.

3.2.1. Общие акустические сведения

Исходной формой звуковой коммуникации является звуча­щая речь, в которой информация передается в виде звуковых колебаний. Речевой сигнал как акустическое явление — это изменение во времени звукового давления. Звук представляет продольное колебательное движение частиц упругой среды — воздуха. Упругие колебания частиц, возникающие в одной точке среды, вызывают колебания соседних частиц. Колеба­тельный процесс распространяется в среде, и в результате возникают звуковые волны. Звуковыми, или акустическими, вол­нами называют упругие волны малой интенсивности, то есть слабые механические возмущения, распространяющиеся в упругой среде. Звуковые волны, воздействуя на органы слуха, способны вызывать слуховые ощущения. При распростране­нии звуков в пространстве следует учитывать следующие осо­бенности звуковой волны: при удалении от источника звука звуковые колебания постепенно затухают. Ослабление звука происходит пропорционально квадрату расстояния от источ­ника. К примеру, до слушателя, находящегося на расстоянии 5 метров от говорящего, доходит в 100 раз меньше звуковой энергии, чем до слушателя, находящегося на расстоянии 0,5 метра (Кодзасов, Кривнова, 2001). Высокочастотные звуки при прохождении через воздух поглощаются в большей сте­пени, чем низкочастотные звуки. При распространении в воз­духе звуков, исходящих из разных источников одновременно (несколько говорящих находятся в разных частях комнаты), происходит наложение звуковых волн. При распространении звука в закрытом помещении происходит отражение звука от стен и предметов, находящихся в данном помещении. Это яв­ление получило название реверберации. Необходимо учиты­вать возможность реверберации при проведении аудиозапи­сей в закрытых помещениях, особенно в домашних условиях.

Основными характеристиками звука являются частота отдельных составляющих и энергия. Частота колебательных движений определяется их числом в единицу времени: так, при совершении телом 100 колебательных движений в секунду частота получающегося звука составляет 100 герц. Герц — еди­ница измерения частоты, сокращенно обозначаемая Гц. Че­ловеческий слух воспринимает частотный диапазон от 16 до 20000 Гц. Однако ухо человека наиболее чувствительно к звуку, частота которого составляет от 2000 до 5000 Гц, и до­статочная чувствительность сохраняется в диапазоне 50 Гц — 10 000 Гц. При частоте звука выше и ниже этих значений абсо­лютная чувствительность уха понижается (Гельфанд, 1984).

Другим важным параметром звука является длитель­ность. Длительность воздействия звука влияет на субъективность восприятия (Гельфанд, 1984). К примеру, понижение длительности гласного звука до 40 мс, приводит к тому, что он воспринимается как щелчок.

При восприятии звука частота колебаний определяет вы­соту слышимого звука: чем выше частота колебаний, тем бо­лее высоким субъективно воспринимается звук, чем меньше частота— тем ниже воспринимаемая высота тона. Период колебания — это время, в течение которого совершается один колебательный цикл. Количество колебательных цик­лов, совершаемых за время, равное 1 секунде, называется частотой колебаний (обозначаемой латинской буквой — f и измеряемой в герцах). Зависимость частоты и субъективного ощущения высоты звука носит нелинейный характер. К при­меру, увеличение частоты в 10 раз не вызывает субъективного ощущения 10 кратного повышения звука.

Амплитуда колебаний определяет силу, или интенсив­ность, колебательного движения. Амплитудой простого звукового колебания называется величина максимального изменения звукового давления. Интенсивность колебаний определяет величину воздушного давления, воздействую­щего на барабанную перепонку. В психоакустике использу­ется два основные понятия, связанные с величиной звуко­вого давления, при котором возникают слуховые ощущения: порог слышимости и порог болевого ощущения. Под поро­гом слышимости понимается минимальное значение звуко­вого давления, при котором звук слышен. Звуковое давление, при котором возникает ощущение боли, получило название порога болевого ощущения.

Громкость звука является психоакустическим параметром и определяется способностью человека оценивать и определять интенсивность звука субъективными понятиями «тихо - громко» (Гельфанд, 1984). Чем больше интенсивность тона, тем меньше его частота влияет на субъективное восприятие громкости. В звуковом диапазоне, наиболее важном для речи (500—5000 Гц, 40—90 дБ), влияние частоты на оценку громкости не очень ве­лико (Рис. 3.2). Громкость чистых тонов выражается в сонах. Громкость сложных звуков, к которым относятся и речевые, зависит от их спектрального состава и определяется сравнением со стандартным тоном в 1000 Гц. При рассмотрении зависимости громкости звукового сигнала от его спектрального состава не­обходимо введение понятия критической полосы. В пределах некоторой полосы частот, называемой критической полосой, уровень громкости, а, следовательно, и громкость, не зависит от ширины полосы частот сигнала. При расширении этой полосы за пределы критической уровень громкости нарастает. В пси­хоакустических экспериментах разными способами измерения показано, что ширина критической полосы составляет 15—20% от средней частоты. Критическая полоса не является диапазо­ном с жестко фиксированными верхней и нижней границами. Она представляет собой интервал с шириной около 20% от сред­ней частоты, который может быть обнаружен в любом месте слухового диапазона (Телепнев, 1990). Такой интервал получил название Барк. Слуховой частотный диапазон покрывается 24 барками. (Основным физиологическим механизмом критичес­ких полос принято считать частотный фильтр базилярной мем­браны внутреннего уха, о чем будет сказано ниже.)

Слуховым ощущением громкости звука определяется его мощность. Мощностью звука называется энергия, которая излучается источником в единицу времени (измеряется в ват­тах— Вт). При распространении звуковой волны доля мощ­ности звука, приходящаяся на единицу площади, уменьшается. Для учета этого явления введено понятие интенсивности звука. Под интенсивностью, или силой звука, понимают мощность звуковой волны, приходящуюся на единичную площадку в один квадратный метр, ориентированную перпендикулярно к распространению волны. Поэтому при одинаковой мощности источника, чем больше удаленность от источника звука, тем меньше интенсивность воспринимаемого звука, и тем тише он будет восприниматься слушателем. Интенсивность звука практически никогда не измеряется непосредственно, так как, во-первых, диапазон звуковых интенсивностей, доступных человеческому восприятию от самых слабых до самых силь­ных, различается в 1014 раз; во-вторых, субъективная оценка громкости звуков приблизительно следует логарифмическому закону. С учетом сказанного, интенсивность представляют в логарифмической шкале по основанию 10 и вводят понятие уровня интенсивности для сравнения громкости звука. Еди­ница, выражающая единичный логарифм отношения двух интенсивностей, получила название белл. Десятичные доли белла, используемые в качестве единицы измерения в психо­акустике, получили название — децибелл (дБ). Порог слыши­мости, соответствующий тону с частотой 1000 Гц, принимается равным 0 дБ и называется стандартным или абсолютным по­рогом слышимости. Относительно стандартного порога пред­ставляют интенсивности всех остальных звуков воспринимае­мого диапазона. Ухо улавливает звук, интенсивность которого колеблется от 0 дБ и приблизительно до 140 дБ. При этом чувст­вительность уха к разным частотам различна.

Вышесказанное касалось простых колебательных дви­жений, т.е. чистых тонов. Чистые тоны могут отличаться высотой и громкостью, но при этом иметь одинаковую зву­ковую окраску. Звуковые колебания, возникающие в речи, относятся к сложным колебаниям. Любое колебание сложной формы в первом приближении может быть представлено в виде простых синусоидальных колебаний. Разложение слож­ного периодического колебания на простые синусоидальные составляющие называется спектральным разложением, или разложением Фурье. Простые колебания, входящие в состав разложения, называются гармоническими составляющими, или гармониками сложного периодического колебания. Гар­моники нумеруются. Номер гармоники задается величиной отношения единицы к периоду сложного колебания (1/Т). Первая гармоника называется основной частотой или часто­той основного тона и обозначается как ГО или F0. Гармоники, отличные от основного тона, называют обертонами, которые и придают звукам окраску — тембр — свойство, посредством которого различаются звуки, издаваемые разными источни­ками. Расстояние между последовательными гармониками равно частоте основного тона. Сложные периодические звуки отличаются по величине составляющих их гармоник, их амп­литуд и фаз. Таким образом, для того чтобы охарактеризовать сложный звук с точки зрения его акустических характеристик, нужно определить значение частоты основного тона и ее ин­тенсивность, величины остальных частотных составляющих и их относительные интенсивности. Эти данные описывают спектральную характеристику звука, или его спектр. Спектр звукового сигнала может быть изображен графически в виде диаграммы, называемой спектрограммой звука, или спектром. Как правило, спектр строится в координатах частота—амп­литуда, т.е. рассматривается амплитудно-частотный спектр звука. При построении такого спектра по оси X откладывают частоты гармоник, по оси Y — их амплитуды. В случае ука­зания по оси Y интенсивностей гармоник, говорят о спектре мощности звука, ибо такой спектр показывает, как полная энергия звука распределяется по отдельным частотным со­ставляющим. При соединении амплитуд гармоник линейча­того спектра непрерывной линией получаем спектральную огибающую, позволяющую оценить гармоники с точки зрения соотношения амплитуд. Спектр является важной физической характеристикой сложных периодических звуков.