Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

восстановление p*(t) без

существенных задержек по

сравнению

со временем поступления

возможно только

с помощью

методов, обеспечивающих быстрое получение мгновенных спек­ тров [142]. В таких методах время наблюдения сигнала достаточно мало и само спектральное изображение является функцией вре­ мени. В использующих этот метод приборах — «динамических спектрографах» — дело ограничивается получением «текущих» во времени изображений относительной энергии частотных со­ ставляющих сигнала. Фазовый спектр теряется.

Для речевых исследований особое значение имеет рассматри­ ваемый в данной главе метод динамической спектрографии, нося­ щий название «видимая речь». Примечательно, что принцип метода в определенной степени согласуется с теми преобразованиями, которые, как известно, происходят в периферических отделах слуховой системы (быстрый спектральный анализ с почти полной потерей фазовой информации; преобразование частотной шкалы в шкалу координат вдоль оси улитки внутреннего уха). Однако основания выбора конкретных характеристик приборов типа «ви­ димая речь» являются довольно условными [33°]. Исследования частотного анализа сигналов, осуществляемого слуховой системой (см. главу 7), могут послужить основой для их уточнения.

Еще более сжатое описание (уровень В, рис. 1.1) основывается на результатах изучения физических процессов, происходящих

вречевом аппарате. При образовании акустического речевого сигнала имеют место явления двух основных типов: собственно создание звуковых колебаний и изменение спектра этих колебаний

ввоздушных полостях речевого тракта, действующих как акусти­

ческие фильтры.

Существо процессов может быть представлено функциональной моделью речевого аппарата. Состояния модели, соответствующие созданию определенных речевых звуков, описываются небольшим числом параметров, характеризующих работу генераторов звуко­ вых колебаний и передаточную функцию речевого тракта. Соответ­ ственно в пределах набора этих же величин составляется пара­ метрическое описание звукового речевого сигнала. В первом приближении параметрическое описание является как бы сокра­ щенным описанием по наиболее важным признакам картины, наблюдаемой на изображении спектрографов «видимая речь». Реально же для получения параметрического описания речевых сигналов применяются довольно сложные измерительные и вычи­ слительные процедуры [35121’137].

Уровень Г рис. 1.1 соответствует фонетическому описанию, которое предполагает изображение речевого сигнала в виде дискрет­ ной последовательности символов, набор которых весьма ограни­ чен. Для создания фонетического описания необходимо применение особых процедур, прежде всего процедуры фонемной клас­ сификации последовательных участков речевого сигнала и про­ цедуры сегментации — разделения непрерывного речевого сиг­

нала па отрезки, в пределах которых должны приниматься реше­ ния о их фонемной принадлежности.

Следует отметить, что в фонетическом описании должны быть отражены также и так называемые просодические характеристики рочи (см. главу 5), которые, в частности, указывают, выражает ли фраза вопрос, восклицание, выделяются ли в ней определенные слова н т. п. Решения о фонетическом описании сигнала не могут быть приняты мгновенно, производящая описание система должна работать над более или менее протяженным изображением речевого сигнала и соответственно должна обладать оперативной памятью.

В технике автоматического распознавания речи известны по­ пытки создания систем, производящих фонетическое описание как на основании спектральных изображений речевого сигнала, так

ина основании его параметрического описания. В фонетических

ипсихологических работах, связанных с исследованием восприя­

тия речи, обычно используются параметрические описания. Вопрос о том, каким описанием сигнала реально пользуется чело­ век, осуществляющий фонетическую интерпретацию сигнала, является одним из главных предметов обсуждения в настоящей книге.

Существенной особенностью p*(t), синтезированной на осно­ вании фонетического описания р (t), является то, что она в прин­ ципе не содержит сведений об индивидуальности диктора. В ней сохраняется информация только о том, что сказано и на каком языке.

Уровень описания смысла речевого сообщения (уровень Д, рис. 1.1) обеспечивает еще более общее представление содержания р (Z). Описание это не должно быть связано со словарем и грамма­ тикой языка, на котором было сделано исходное сообщение. Вопрос о необходимости таких описаний возник при разработке проблемы автоматического перевода. Некоторых аспектов под­ хода к описанию смысла касается глава 2.

1.1. ЭЛЕМЕНТЫ ТЕОРИИ РЕЧЕОБРАЗОВАНИЯ

Акустический речевой сигнал возникает в результате сложных координированных движений, происходящих в ряде ор­ ганов, вся совокупность которых и называется речевым аппара­ том (рис. 1.2, Л). Легкие со всей дыхательной мускулатурой обес­ печивают развитие давлений и возникновение воздушных потоков в речевом тракте. Последний (рис. 1.2, Б, Б) представляется гор­ танью и рядом воздушных полостей, конфигурация которых суще­ ственно изменяется в процессе речеобразования. Ведущую роль играют движения нёбной занавески, языка, губ и нижней челюсти.

Механизмы возбуждения акустических колебаний связаны либо с работой гортани, либо с возникновением шумных или импульс­ ных звуков при прохождении воздушного потока через сужения,

12

Рис. 1.2. Схема речеобразующего аппарата.

А — анатомическое изображение; В — функциональные элементы; В — эквивалентная блок-схема. На А: 1 — грудная клетка, 2 — легкие, 3 — трахея, 4 — голосовые связки, 5 — гортанная трубка, 6 — полость глотки, 7 — нёбная занавеска, 8 — полость рта, 9 — аолость носа. На Б: 1 — сила дыхательных мышц, 2 — объем легких, 3 — трахея, 4 —

голосовые связки, 5 — гортанная трубка, 6 — полость глотки, 7 —• нёбная занавеска, 8 — полость рта, 9 — полость носа, 10 — излучение из ротового отверстия, 11 — излуче­ ние из носовых отверстий. На В: 2, 3 — емкость легких и трахеи, 4 — голосовой источник колебаний, 5, в — емкость гортани и глотки, 7 — механизм нёбной занавески, 8 — ем­ кость полости рта, 9 — емкость полостей носа, 10 — выходной сигнал ротового тракта,

11 — выходной сигнал носового тракта, 12 — шумовой источник.

образующиеся в определенных местах речевого тракта. Особен­ ности этих источников акустической энергии будут описаны ниже.

Вовбужденнме акустические колебания подвергаются частот­ ной фильтрации в воздушных полостях речевого тракта, действую­ щих как акустические частотные фильтры. Конфигурация и объемы этих полостей в процессе речеобразования определенным образом изменяются. Соответственно этому изменяется и спектр исходных звуковых колебаний, создаваемых акустическими источниками.

Образование воздушных потоков, работа механизма гортани, все движения органов, образующих речевой тракт («артикуляторов»), происходят закономерно и координированно. Благодаря этой динамически слаженной деятельности и возникают сигналы связной речи.

1.1.1. КЛАССИФИКАЦИЯ ЗВУКОВ РЕЧИ

Перед изложением современных представлений аку­ стической теории речеобразования коснемся подходов к класси­ фикации звуков речи, основывающихся на рассмотрении особен­ ностей работы артикуляторного аппарата. Общепринятая класси­ фикация звуков речи базируется на ряде упрощающих допущений, из которых наиболее существенными являются следующие:

1)каждый язык может обойтись весьма ограниченным набором действий органов, участвующих в речеобразовании (набор «арти­ куляторных жестов»);

2)каждый артикуляторный жест есть некоторое характерное

для него состояние речевого аппарата (особенности работы ис­ точников звуковой энергии, конфигурация речевого тракта) и ведет к возникновению определенного звука речи;

3) артикуляторные жесты выполняются последовательно один за другим.

В результате этих допущений мы имеем дело с идеализирован­ ной речью, составляющейся из предельно четко выраженных, характерно различающихся между собой звуковых элементов. При этом обеспечивается возможность разобраться в исходной структуре звукового материала, на которой основывается есте­ ственная речь того или иного языка. Кратко рассмотрим класси­ фикацию звуков на примере русского языка.

Все звуки речи делятся на два основных типа: гласные и со­ гласные. При образовании гласных воздушный поток свободно проходит через весь речевой тракт; работает голосовой источник (для нормальной нешепотной речи); речевой тракт имеет опреде­ ленную конфигурацию, благодаря чему обеспечивается специфи­ ческая форма спектра, типичная для данного звука. Гласные могут искусственно продолжительно «тянуться», и в речевом потоке при нормальном темпе ударные гласные обычно имеют участок, где их характеристики оказываются относительно стационарными.

14

При образовании другого типа звуков — согласных — воз­ душный поток встречает более или менее выраженное препятствие, расположенное в том или ином месте речевого тракта. Образова­ ние согласных характеризуется, как правило, быстрыми изме­ нениями в действиях речеобразующего механизма, большинство согласных, по существу, определяется спецификой возникающих при этом переходных процессов. Классификация согласных рус-

Рис. 1.3. Запись основных артикуляторных параметров при произнесении фразы Тоня топила баню.

Обозначения см. в тексте.

ского языка [72] базируется на следующих альтернативных при­ знаках:

1)участие голосового источника: глухие, звонкие;

2)способ образования: щелевые, смычные, дрожащие;

3)место образования: губные, переднеязычные, среднеязыч­ ные, заднеязычные;

4)участие носовых полостей: назальные, чистые;

5)характер положения спинки языка: твердые, мягкие. Если попытаться поочередно произносить разные звуки речи,

то легко можно установить, что для каждого звука имеются свои отличительные особенности в работе речеобразующего механизма. Соответственные отличия имеют место и в акустических сигналах. Пониманию этих особенностей образования речевых звуков по­ могают специальные способы регистрации артикуляторных явле­ ний. Так, на рис. 1.3 приведена запись показателей работы рече­ образующего механизма при произнесении фразы Тоня топила баню, полученная с помощью техники комплексной регистрации артикуляторных параметров [159].

Рассмотрим рисунок. Кривая 1 показывает факты смыкания губ при произнесении [р] и [Ь]. Кривые 2 и 3 показывают касание языком нёба в точках, расположенных в передней части твердого

нёба по центральной линии (кривая 2) и несколько латеральнее этой линии (кривая 3). Наличие сигнала хотя бы на одной из этих кривых означает переднюю нёбно-язычную смычку, которая в рас­ сматриваемом случае образовывалась при произнесении [t], [n'], [t], [1], [nl. Кривая 4 показывает интенсивность сигнала, получаемого от ларингофона («горлового микрофона») и позволяет судить о наличии или отсутствии работы голосового источника (фонации). Фонация началась на первом гласном и имела лишь небольшие перерывы в моменты смычных согласных [t] и [р]. Кривая 5 — отметка времени (1 с).

Записи, подобные приведенной, помогают характеризовать состояния артикуляторного аппарата и их изменения, имеющие место при произнесении того или иного речевого материала (зву­ ков, слов, фраз). Однако четкая артикуляторная картина в случае слитной речи наблюдается только при тщательном и небыстром произнесении, т. е. при так называемом полном стиле. При нор­ мальной устной речи, особенно при ускоренном ее темпе, дело существенно усложняется. Ранее указывалось, что соответствую­ щие определенным звукам речи положения и движения всех орга­ нов, участвующих в речеобразовании, можно рассматривать как артикуляторные жесты. Ясно, что каждый из этих жестов явно отличается от других только при намеренно четком, еще лучше раздельном, его исполнении.

При непрерывном и особенно при ускоренном произнесении четкость их стирается. Типичной является такая ситуация, когда элементы движений, характеризующих образование звуков после­ довательности, начинают осуществляться заранее на участках, которые относятся к предшествующим звукам. К тому же каждый жест может оказаться зависящим от жестов, которые были осуще­ ствлены перед ним и которые должны быть осуществлены после него. Все это означает, что полностью предсказать данный жест исходя только из отдельно взятого соответствующего ему звука речи оказывается невозможным I372].

Анализ трудностей, которые возникают при описании рече­ вого сигнала, основывающемся на данных артикуляции, выходит за рамки настоящей книги. Отметив это, перейдем к изложению основных данных акустической теории речеобразования, выделив описание источников акустической энергии и явлений частотной фильтрации в речевом тракте.

1.1.2. ИСТОЧНИКИ АКУСТИЧЕСКОЙ ЭНЕРГИИ

Воздушный поток, создаваемый в речевом тракте бла­ годаря действию дыхательной системы, может модулироваться тремя способами, показанными на рис. 1.4. В результате модуля­ ции энергия воздушного потока в какой-то своей части преобра­ зуется в акустические колебания.

Наиболее мощным источником акустической энергии является гортань, представляющая собой орган, приспособленный для создания звуковых колебаний. Находящиеся внутри полости гортани две эластичные складки — «голосовые связки» — обра­ зуют своеобразный и тонко управляемый клапанный механизм. При наличии определенных условий — достаточной величины под­ связочного давления, сведения и соответствующего натяжения го­ лосовых связок—последние приходят в колебательное движение.

Колебания эти происходят благодаря взаимодействию сил, направленных в разные стороны. Сила, создаваемая подсвязоч-

Рис. 1.4. Основные способы модуляции воздушного потока, обеспечивающие

возникновение звуков речи. По [47в].

А — периодическая модуляция колеблющимися голосовыми связками; Б — возникнове­ ние турбулентности в потоке, проходящем через место резкого сужения речевой трубки; В — возникновение взрывных звуков при быстром открывании полной смычки. Белые стрелки — звуковой сигнал, черные — место образования звука.

ным давлением, стремится раздвинуть голосовые связки; благо­ даря упругости соответственно натянутых мышцами связок воз­ никает сила, пытающаяся свести их вместе. Определенное значение имеет также эффект Бернулли (возникновение силы, сближающей стенки канала, если в нем с большой скоростью протекает поток жидкости или газа). Площадь отверстия между голосовыми связ­ ками (голосовая щель) периодически изменяется. Как правило, в течение некоторой доли периода колебаний голосовая щель оказывается полностью сомкнутой, воздушный поток полностью прерывается. Типичной является картина, изображенная на рис. 1.5, Б.

Частотный спектр, соответствующий подобной последователь­ ности воздушных толчков, представляет рис. 1.5, В. Расстояния по шкале частот между отдельными гармоническими компонен­ тами линейчатого спектра определяются частотой, с которой следуют импульсы. Эта важнейшая характеристика голосового ис­ точника — основная частота голоса — характерным образом изме­ няется в потоке речи. Изменения эти имеют существенное значе­ ние для выражения повествовательной, вопросительной, воскли-

Рпс. 1.5. Характеристики работы голосового источника.

Л — схематическое изображение фронтального сечения гортани в области голосовых свя­ зок, движения которых показаны горизонтальными стрелками’, стрелки внизу показывают

напор воздуха. Б — типичная форма изменений скорости воздушного потока, возникаю­ щих благодаря действию колеблющихся голосовых связок; по оси абсцисс — время; по оси ординат — объемная скорость. В — спектр колебаний, осциллограмму которых изображает рис. 1.5, Б; по оси абсцисс — частота колебаний; по оси ординат — интен­ сивность.

Рпс. 1.6. Характеристики работы шумовых источников.

А — протекание воздушной струи через сушение в речевой трубке; Б — шумовой сигнал, возникающий благодаря явлению турбулентности; В — широкополосный спектр шумового сигнала; Г — образование воздушного толчка при открывании сомкнутых артикуляторов,

за которыми создано дополнительное давление; Д — импульсный сигнал, возникающий в момент открывания смычки артикуляторов; Е — спектр импульсного сигнала. Стрелки

на А, Г характеризуют движение воздушных потоков.

дательной интонации, для словесных и особенно логических уда­ рений, для обозначения незаконченности или оконченности фразы и т. п. Для мужских голосов типичной областью изменений основ­ ной частоты голоса является 80—150 Гц, для женских — более высокая область 120—400 Гц.

В сложном механизме регулирования основной частоты голоса основную роль играют: задаваемая мышцами гортани степень натяжения голосовых связок и величина подсвязочного давления, создаваемого дыхательной системой. Интенсивность звуковых колебаний, создаваемых гортанью, зависит от максимальной ве­ личины объемной скорости воздуха, проходящего через голосовую щель в момент ее открытия, и в основном определяется величиной подсвязочного давления, создаваемого дыхательной системой. Форма воздушного толчка — наклон фронтов треугольника, изо­ браженного на рис. 1.5, Б, отношение длительности фазы откры­ тия голосовой щели к длительности всего периода — также изме­ няется в зависимости от подсвязочного давления и от степени натяжения связок. С этими изменениями связано изменение спек­ трального состава колебаний, возбуждаемых голосовым источни­ ком, что в конечном итоге также оказывает свое влияние на ха­ рактер звукового сигнала речи.

Механизм возбуждения шумных звуков сводится к возникнове­ нию турбуленции в потоке воздуха, проходящего через речевой тракт. Возникновение шума связано как с величиной линейной скорости частиц воздуха, так и с геометрическими свойствами (ве­ личиной «эффективной площади») канала, в котором проходит воздушный поток. В речевом тракте условия, необходимые для возникновения шума, имеют место при образовании сужения в ка­ ком-либо сечении речевой трубки и создании достаточного напора воздуха за этим сужением.

Механизм создания таких шумных звуков, как [fj, [s], [J] ит. п., называемых фрикативными, соответствует возникновению шума при продувании воздуха через сопло (рис. 1.6, Л). Возбуждаются беспорядочные звуковые колебания, спектр которых отличается значительной протяженностью в области высоких частот. Подоб­ ные согласные звуки можно производить продолжительное время, поддерживая их параметры стационарными.

Наоборот, краткостью отличаются шумные взрывные звуки ([р], [t], [к] и др.). При их артикуляции производится полное смы­ кание стенок в определенном месте речевого тракта, глубже места этой «смычки» создается повышенное давление, и смычка быстро размыкается (рис. 1.6, Г). Быстрый толчок воздуха создает короткий импульсный звук.

Голосовой и шумовые (фрикативный или взрывной) источники могут действовать и одновременно (звонкие согласные). При ше­ потном произнесонии гласных звуков источником возбуждения является турбулентный воздушный поток у частично сомкнутых

голосовых связок. Динадшка работы всех этих источников в слит­ ной речи отличается высокой степенью координации с движениями всех органов речеобразующего аппарата.

1.1.3.ЧАСТОТНАЯ ФИЛЬТРАЦИЯ

ВРЕЧЕВОМ ТРАКТЕ

Звуковые колебания, возникающие в речевом тракте в результате действия рассмотренных выше акустических источ­ ников, представляют собой как бы исходный «сырой» материал, подвергающийся в процессе создания речевого сигнала дальней­ шим преобразованиям. Ведущую роль здесь играют частотно­ избирательные свойства воздушных полостей всего речевого тракта. Если звуковые колебания имеют место в некотором огра­ ниченном объеме, то будут проявляться акустические резонансные

Рис. 1.7. Схематическое изображение преобразований сигнала в речевом тракте. По [134].

А — сигнал голосового источника; Б — фильтрующая система речевого тракта; В — выходной речевой сигнал; Г — спектр сигнала голосового источника; Д — вид частотной характеристики речевого тракта; Е — спектр речевого сигнала.

свойства этого объема, зависящие от его размеров и конфигурации. Рассматриваемый в этом аспекте речевой тракт представляет собой последовательно расположенные полости довольно сложной кон­ фигурации, к тому же существенно изменяющиеся в динамике речевого потока. В акустическом отношении подобная система является сложным частотным фильтром с переменными пара­ метрами.

Современная акустическая теория речеобразования [134] по­ казывает, что весь процесс создания речевого сигнала может быть сведен к возбуждению акустических источников и управляемой фильтрации создаваемых ими сигналов. Схему происходящих явлений можно пояснить рис. 1.7. Спектральные составляющие исходных колебаний, проходя через фильтр, умножаются на ве­ личины соответствующих ординат частотной характеристики фильтра. Преобразованный таким образом спектр и характери­ зует излучаемый речевой сигнал.

20

Соседние файлы в папке Нормальная физиология