Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

Фильтрующее действие речевого тракта зависит от его геоме­ трической формы и места расположения акустического источника. При работе голосового источника место его расположения не изме­ няется, ведущее значение оказывается за конфигурацией полостей речевого тракта. Характерный пример показывает рис. 1.8. При фо­ нации звука [i] к нёбу поднимается передняя часть спинки языка, большим оказывается объем полостей, расположенных позади места этого сужения, малым — объем между местом сужения и

Рис. 1.8. Схематическое изображение конфигурации артикуляторов (4, В

ногибающие спектров (Б, Г) для гласных звуков [i] и [а}. По [479J.

По оси абсцисс — частота; по оси ординат — относительная интенсивность.

ротовым отверстием; поднятая кверху занавеска мягкого нёба «отключает» носовые полости. В результате «настроенной» таким образом частотной фильтрации звуковые колебания голосового источника, спектр которых показан на рис. 1.5, В, характерным образом преобразуются. Огибающая спектра окончательного сигнала представляется рис. 1.8, Б. При образовании звука [а] объем полостей передней части речевого тракта оказывается зна­ чительно большим, так как спинка языка более удалена от нёба (рис. 1.8, В); спектр звукового сигнала оказывается существенно отличным (рис. 1.8, Г), хотя спектр голосового источника в обоих случаях одинаков.

Подобного же рода частотная фильтрация имеет место и при действии шумовых источников, но процесс усложняется измене­ нием места возникновения звука. В первом приближении источник может быть привязан к месту смычки артикуляторов. Фильтрую­ щие свойства речевого тракта определяются совокупностями объе­ мов, расположенных как за артикуляторной смычкой, так и перед ней.

21

При опускании нёбной 8анавески роль акустических резонато­ ров начинают играть и носовые полости. Образование назальных согласных [т] и [п] происходит при закрытом ротовом отверстии. Звук излучается через носовые отверстия, однако полость рта выступает в качестве параллельно подключенного резонатора. Сообщение между ротовым и носввым трактами может возникать и при фонации гласных — при их «назализации». В данном случае основная энергия излучается через ротовое отверстие, но звук приобретает характерную окраску.

Резонансные пики, проявляющиеся в картине спектра и со­ ответствующие набору собственных частот речевого тракта, назы­ ваются «форманты». Максимальное число их зависит от общей длины речевого тракта. Считается, что у взрослого мужчины их может быть до 7. Существенное значение для различия звуков имеют первые 2—3 низкочастотные форманты. • -л

Понятие «форманта» не является, однако, достаточно однознач­ ным. Дело в том, что при работе голосового источника возбужда­ ются колебания, имеющие спектр, приближающийся к линейча­ тому. Частоты гармоник могут находиться в разных положениях относительно резонансных частот речевого тракта, и соответственно этому оказывается, что спектральные максимумы результирую­ щего акустического сигнала не являются непосредственным отра­ жением пиков фильтрующей функции речевого тракта (особенно при высоких частотах основного тона, как, например, в^женских голосах). Вопрос о том, как может быть определена форманта

сточки зрения восприятия сигнала, будет обсуждаться в главе 10.

Кнастоящему времени проведено весьма значительное число исследований, целью которых были попытки найти и количественно выразить зависимости между важными для речеобразования аку­ стическими свойствами и геометрическими размерами тракта. Основой здесь являются измерения, осуществляемые с помощью рентгенографической техники, речевой тракт обычно аппроксими­ руется моделью в виде последовательно соединенных отрезков труб. Достаточно точные расчеты [184, 187] могут быть получены лишь в том случае, если звуки рассматривать заведомо стацио­ нарными. Несмотря на это, получаемые количественные резуль­ таты представляют явный интерес, особенно в связи с разработкой методов искусственного синтеза речевых сигналов.

1.2. АНАЛИЗ РЕЧЕВЫХ СИГНАЛОВ

Общепризнанным способом анализа акустического речевого сигнала, с помощью которого получена подавляющая часть данных, составивших современные сведения о его структуре, является динамическая спектрография. Среди большого числа иных методов (см. обзоры [87' 121> 1871) он представляется наиболее важным для исследователей речи. По этой причине только он и будет рассмотрен в настоящем разделе.

22

Рис. 1.9. Динамическая спектрограмма фразы Тоня топила баню.

Обозначения см. в тексте.

Принцип метода и соответствующая аппаратура были описаны в 1946 г. [3301, и вскоре же появилась солидная монография под названием «Видимая речь» [434], представившая богатый иллюстра­ тивный материал: множество динамических спектрограмм отдель­ ных звуков, звукосочетаний, слов, фраз и текстов (последние не только на английском, но и на многих других языках). С этих пор устройства, использующие этот метод, часто называются прибо­ рами «видимая речь».

В наиболее распространенных модификациях приборов анали­ зируемый отрезок сигнала (длительностью обычно около 2.5 с), записанный на магнитный носитель, многократно воспроизводится и подается на вход полосового фильтра. На диаграмме, предста­ вляющей результаты анализа, вычерчивается линия, степень черноты которой отражает интенсивность выходного сигнала упо­ мянутого фильтра. Запись производится на тепловой, электрочувствительной или фотографической бумаге. С каждым циклом ча­ стота настройки фильтра сдвигается, на диаграмме вычерчивается новая линия, несколько отодвинутая от предыдущей. В результате возникает трехмерное изображение с осями: время, частота, ин­ тенсивность. В приборах обычно используется принцип гетеро­ динного анализатора, абсолютная величина ширины полосы фильтра сохраняется постоянной по всей частотной шкале. Наи­ более часто ширина полосы пропускания фильтра берется довольно большой — порядка 300 Гц.

На рис. 1.9 показана динамическая спектрограмма фразы Тоня топила баню (запись ее артикуляторных параметров изображает рис. 1.3). Видно, что на динамической спектрограмме на протяже­ нии всей фразы, за исключением участков, отнесенных к [t], [tj и

[р'1, имеются области

почернения (наличия звуковой энергии)

в тех или иных зонах

частотной шкалы. Наибольшей степенью

почернения отличается

область нижних частот до 1000 Гц, здесь

располагаются максимально выраженные спектральные соста­ вляющие гласных. Можно видеть, что на участках гласных звуков наблюдается несколько областей почернения, положение которых по шкале частот изменяется на протяжении звука. Эти области соответствуют формантам гласного.

Более точная количественная характеристика амплитудночастотного спектра, соответствующая некоторому моменту изучае­ мого сигнала, может быть получена с помощью регистрации на той же диаграмме «видимой речи» так называемого спектрального среза. На рис. 1.9 темная вертикальная линия отмечает момент, к которому относится измерение, а кривая в правой части диа­ граммы отражает спектр в логарифмическом масштабе.

При рассмотрении рис. 1.9 отмечается также характерная структура динамической спектрограммы в виде вертикальных полос (в областях гласных звуков и звонких согласных). Эта струк­ тура отражает работу голосовых связок. Частота следования вер­ тикальных полос определяется частотой основного тона голоса.

На спектрограмме, например, четко отмечается уменьшение этой частоты к концу фразы.

На спектрограмме можно легко видеть также общее уменьше­ ние энергии (по сравнению с гласными) и некоторое снижение частоты основного тона на участках, относимых к звонким соглас­ ным [n'l, [1], [Ь], [п']; шум взрывных согласных [t], [t], [р'1 пред­ ставлен узкой вертикальной полоской, занимающей большую часть частотной шкалы, что и характерно для импульсного звука.

Огромное число исследований, выполнявшихся с помощью метода «видимой речи», было направлено на выявление характер­ ных инвариантных свойств тех или иных речевых звуков, нахожде­ ние различительных признаков соответствующих звуковых групп и многих других фонетически значимых особенностей сложной картины речевого сигнала. Большая практика позволила сформу­ лировать определенные правила чтения «видимой речи» [135,254,358], однако уже сравнительно давно стало ясно, что возможности ме­ тода в отношении расшифровки структуры речевого сигнала далеко не беспредельны и по сути исчерпались на этапах работ, проводившихся в пятидесятых и шестидесятых годах [344].

Были поставлены специальные исследования для выявления предельных возможностей «чтения» речи на основе динамиче­ ских спектрограмм. Выяснилось [63, 327, 3621, что полностью досто­ верного распознавания достичь не удается, но окончательные ре­ зультаты распознавания могут быть существенно улучшены, если спектрограммы относятся только к ограниченному набору фраз, содержание которых заранее известно.

1.3. СИНТЕЗ РЕЧЕВЫХ СИГНАЛОВ

Кроме прикладного использования (создание «гово­ рящих машин»), методы искусственного синтеза речевых сигналов применяются и в исследовательских целях. Здесь выделяются две основные группы задач. Во-первых, синтезаторы разрабатываются как функциональные модели процессов, имеющих место при речеобразовании. В данном случае они используются для разработки и подтверждения правильности тех или иных положений теории речеобразования. Во-вторых, синтезаторы используются как устройства, способные генерировать речеподобные звуки с точно задаваемыми параметрами. Звуки эти применяются и при исследо­ вании механизмов восприятия речи.

Широкое использование синтезированных звуков для иссле­ дования особенностей восприятия речи началось со времени работ, проводившихся в пятидесятых годах в Хаскинских лабораториях в США [7522°]. Идея исследований сводилась к попыткам найти полезные признаки звуковых сигналов, на основании которых че­ ловеком производится различение определенных звуков речи. В опытах создавались звуки, физические характеристики которых точно задавались и изменялись согласно желанию эксперимента­

25

тора. Слушатели идентифицировали эти звуки с теми или иными элементами речи.

Было изготовлено специальное электро-оптическое устройство, создающее речеподобные звуки. Управляющие сигналы рисова­ лись на лентах; вдоль ленты шла ось времени, поперек — ось частот [221]. С помощью этого в общем достаточно примитивного устройства и были начаты современные исследования связи физи­ ческих особенностей речевого сигнала с особенностями его вос­ приятия.

К настоящему времени созданы значительно более совершенные средства синтеза речевых сигналов. Наибольшее приближение

Рис. 1.10. Блок-схема синтезатора речевых сигналов OVE-III. По [W].

Обозначения см. в тексте.

к естественной речи дают системы, в той или иной форме модели­ рующие основные явления, которые имеют место при речеобразо­ вании. Не имея возможности хоть в какой-то мере охватить все разнообразные системы [46, 121, 138, 261], рассмотрим в качестве примера принципы устройства хорошо известного современного аналогового синтезатора (OVE-III), разработанного в Лаборато­ рии передачи речи Стокгольмского технологического инсти тута [35 ].

В синтезаторе (рис. 1.10) источниками энергии создаваемых колебаний служат два генератора. Генератор последовательности импульсов треугольной формы (7) представляет голосовой источ­ ник. Под влиянием управляющего сигнала его частота изменяется, что отражает изменение основной частоты голоса. Второй генера­ тор (12) создает шумовые колебания, воспроизводящие действие шумовых источников.

Колебания от генераторов попадают в систему, в которой ос­ новными являются элементы с управляемым усилением (2, 9, 11, 16), управляемые частотные фильтры (4—8, 13—15) и смесители сигналов (5,10). Фильтры, у которых под влиянием электрических

26

управляющих сигналов изменяется как положение резонансной частоты, так и ширина полосы пропускания, являются важными элементами формантных синтезаторов. Эти фильтры моделируют резонансные свойства полостей речевого тракта.

Для образования гласных звуков служат четыре таких после­ довательно включенных фильтра (4, 5, 6, 7), обеспечивающих появление в выходном сигнале четырех формант. Управляемыми параметрами являются: уровень интенсивности сигнала от голо­ сового источника, резонансные частоты и ширина полос всех фор­ мантных фильтров.

Эффект подключения носовых полостей при образовании на­ зальных звуков достигается благодаря прохождению колебаний голосового источника через параллельную ветвь, имеющую лишь один формантный фильтр (<§) и управляемый усилитель (9). Третья ветвь служит для образования шумных фрикативных согласных. Она состоит из двух формантных фильтров (14, 15) и одного «антиформантного» фильтра (13), производящего подавление частот в определенной области, положение которой также изменяется отдельным управляющим сигналом. Необходимость введения специальных фильтров для образования шумных звуков связана с тем, что место положения шумового источника перемещается по трубке речевого тракта и шумные звуки образуются при разведен­ ных голосовых связках. Влияние этих факторов делает акусти­ ческие условия отличными от тех, которые имеются при образова­ нии гласных.

Важный для английского и ряда иных языков эффект возникно­ вения аспирационного шума (результат турбуленции, возникаю­ щей в районе голосовой щели при неколеблющихся голосовых связках) производится с помощью регулируемого усилителя (11), подмешивающего определенную долю шумовых колебаний к сиг­ налу голосового источника.

Выходные сигналы всех трех ветвей — гласных, назальных и шумных звуков — складываются на электронном сумматоре (10) и образуют выходной речеподобный сигнал.

Прибор типа OVE-III является так называемым синтезатором последовательного типа; фильтры в нем соединены один за другим, воспроизводя таким образом частотную фильтрацию в последова­ тельно расположенных резонансных полостях речевого тракта. Известны разработки синтезаторов, в которых трубка речевого тракта моделируется еще более детально в виде длинной цепочки резонансных элементов, воспроизводящих изменения ее попереч­ ных сечений [285, 487].

Однако речевые сигналы достаточно успешно можно воспроиз­ вести и с помощью так называемых синтезаторов параллельного типа. Управляемые фильтры в них параллельно подключаются к генераторам, а их выходные сигналы суммируются [28#].

При проведении исследований восприятия речи система парал­ лельного синтеза имеет определенные преимущества. Так, частоты

и интенсивности каждой форманты управляются независимо, в то время как в последовательном синтезаторе они оказываются взаимосвязанными в силу того, что управляемые фильтры под­ ключаются друг за другом. В параллельном синтезаторе легче добиться большего динамического диапазона, проще могут быть получены речеподобные сигналы,’у которых все физические харак­ теристики точно задаются по желанию экспериментатора.

В значительной части исследований восприятия речи могут быть использованы достаточно краткие речеподобные сигналы от­ носительно простой структуры. В этом случае управление синтеза­ тором оказывается относительно простым и для этой цели могут быть использованы удобные и точные системы генераторов различ­ ных функций, работающие на основе аналоговых электронных схем.

1.4. АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ

Проблема машинного распознавания речевых сигна­ лов имеет особое значение для исследователей восприятия речи по следующей элементарной причине. Признаком достаточной изученности процесса восприятия речи является возможность построения функциональной модели этого процесса. Такая модель должна прежде всего быть способной распознавать речь, т. е. она по определению должна быть системой автоматического распозна­ вания речи. Хотя обратное положение — система автоматиче­ ского распознавания речи должна моделировать процесс восприя­ тия речи человеком — формально не является обязательным, за предлагавшимися системами автоматического распознавания, как правило, стояли идеи их авторов об определенных принципах организации процесса восприятия.

Соответственно эволюция работ по автоматическому распозна­ ванию речи достаточно хорошо отражает эволюцию пред­ ставлений относительно процесса восприятия речи человеком. Ниже мы коротко расскажем только об основных идеях — прин­ ципиальных подходах, — не останавливаясь ни на конкретных математических методах, ни на технической реализации систем. Эти вопросы подробно освещены в ряде обзорных работ [г 44’ 46,

88, 146]

1.4.1. АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ И ПРОБЛЕМА РАСПОЗНАВАНИЯ ОБРАЗОВ

Первая попытка создать техническое устройство, способное распознавать звуки речи, была предпринята Мяснико­ вым в начале сороковых годов [ш 112]. однако серьезный интерес к проблеме автоматического распознавания речи со стороны мате­ матиков и инженеров возник примерно 15 лет тому назад. Задача автоматического распознавания речи рассматривалась в то время как частный случай общей проблемы распознавания образов.

28

Основные усилия были направлены на анализ и формализацию проблемы, определение необходимой системы понятий, поиск адекватного математического аппарата.

Читателю, желающему познакомиться с теорией распознавания образов, следует обратиться к специальной литературе [60, 68, 69, 124] в настоящей книге мы ограничимся очень кратким и схема­ тическим изложением основных идей подхода.

Распознавание образа в живой и неживой системе рассматри­ вается как результат обучения. В процессе обучения системе предъявляются изображения сигналов и сообщаемые «учителем» названия классов, к которым принадлежат эти изображения (сиг­ налы). Изображения сигнала соответствуют указанию значений сигнала по некоторому произвольно выбранному набору призна­ ков (а^, х2, . . ., хп). Соответственно каждое единичное изображе­ ние может быть представлено точкой в «-мерном пространстве измеряемых признаков сигнала. Обучающаяся система использует гипотезу о том, что изображения, относящиеся к одному и тому же классу, образуют компактные множества в пространстве призна­ ков сигнала, т. е. каждому классу соответствует определенная

область

в этом «-мерном пространстве. Задача системы состоит

в том,

чтобы найти наилучшие границы между областями.

При предположении, что граница между двумя областями соответ­ ствует гиперплоскости, определение границы сводится к подбору

коэффициентов а0, alt . .

., ап

в уравнении, описывающем эту

п

=

 

гиперплоскость: #0 + 2

Это уравнение называется линей-

г=1

 

п

 

 

ной решающей функцией. Если значение «0 + 2 п,-г,-больше нуля, i=i

то изображение относится к одному классу, если оно меньше нуля, то изображение относится к другому классу. Значения коэффи­ циентов а0, alt . . ., ап подбираются так, чтобы минимизировать вероятность ошибочной классификации.

В случае автоматического распознавания речевых сигналов такой общий подход был использован как для фонемного распозна­ вания звуков речи, так и для распознавания изолированных словкоманд. В случае изолированных слов каждое слово рассматрива­ лось как самостоятельный образ. Изображение слова включало признаки звукового сигнала, соответствующего слову в целом.

Хотя задача автоматического распознавания изолированных слов-команд из ограниченного набора (от 5—10 до 50—200 слов) решается довольно успешно I28’ 33 80133] и находит практическое применение [11в], в научном отношении она не представляет большого интереса. От нее не может быть перехода к распознава­ нию естественной связной речи.

Не существует сомнений, что распознавание связной речи должно основываться на фонемном или близком к фонемному рас­ познавании. При фонемном распознавании изолированных зву­

29

ков речи звуки речи рассматривались как сигналы, а фонемы — как названия классов. Решающие функции, найденные в процессе обучения, соответствовали границам между фонемными областями в пространстве выбранных исследователями признаков сигнала. Как выяснилось, автоматическое фонемное распознавание изоли­ рованно произнесенных звуков речи (преимущественно исследо­ вались гласные) может не уступать по надежности фонемному рас­ познаванию их человеком [88]. Однако система, обученная на изо­ лированных звуках речи, оказывается практически неработоспо­ собной в условиях, когда ей предъявляется для распознавания связная речь.

Мы остановимся лишь на нескольких из огромного числа во­ просов, с которыми столкнулись исследователи, пытавшиеся раз­ работать системы для автоматического фонемного распознавания связной речи.

Как уже говорилось, система автоматического распознавания образов формируется под влиянием «учителя», который знает возможные классы сигналов и сообщает относительно каждого сигнала, к какому классу он относится. В роли такого учителя системы автоматического распознавания речи обычно выступает лингвист.

Предполагалось, что, слушая речевой поток, лингвист может точно указать моменты времени, когда начинается и кончается данная фонема, причем у него не возникает сомнений в том, какая именно фонема произносится. Реально оказалось, что оба эти предположения не оправдываются (см. главы 2 и 3). Последова­ тельно прослушивая отрезки речевого потока, соответствующие примерно слогам, фонетисты могут более или менее однозначно записать сигнал последовательностью фонетических символов, соответствующих фонемным вариантам или аллофонам (число их значительно превышает число фонем). Для фонемной записи звука речи нужно в ряде случаев услышать или слово в целом, или даже несколько соседних слов.

7 "]Уже на первых этапах работы по автоматическому распознава­ нию звуков речи стало ясно, что нужны какие-то гипотезы, на­ правляющие выбор полезных признаков сигнала. Математические методы позволяют сравнить эффективность выбранных систем признаков или уменьшить размерность описания, однако сам из­ начальный выбор признаков оказывается вне пределов теории распознавания. Вопрос о выборе подходящих признаков стано­ вится особенно важным, когда дело идет об описании принципи­ ально нестационарных сигналов, как это имеет место в случае естественного речевого потока. С вопросом выбора признаков тесно связан вопрос о сегментации речевого потока. Если возможно предварительное разделение потока на элементарные отрезки, то в качестве полезных признаков могут выступать свойства отрезков.

Таким образом, первый этап работ по автоматическому рас­ познаванию речи позволил проанализировать задачу и выявить

30

Соседние файлы в папке Нормальная физиология