Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4 курс / Оториноларингология / Руководство_по_физиологии_Физиология_сенсорных_систем_Часть_2_Общая-1.docx
Скачиваний:
0
Добавлен:
24.03.2024
Размер:
2.62 Mб
Скачать

Глава 13

ВОСПРИЯТИЕ РЕЧИ

Вопросы, рассматриваемые в настоящем разделе руководства, отнюдь не исчерпывают всей проблемы восприятия речи. Они касаются только самых начальных этапов преобразо­вания речевой информации — превращения звукового речевого сигнала в его фонетический образ. Изучение этих преобразований необходимо и, вероятно, достаточно для того, чтобы выяснить, как человек может превращать услышанный им звуковой сигнал в последовательность артикуляторных движений, т. е. как он может повторить то, что он услышал.

Вопрос о преобразованиях информации, обеспечивающих пони­мание человеком смысла сообщения, изучается математической лингвистикой и психолингвистикой. Однако система, осущест­вляющая эти преобразования (морфологический, синтаксический и семантический анализ), обязательно должна иметь в качестве своих входных сигналов не непосредственно звуковой поток, а описание его в виде последовательности фонетических образов — фонем с дополнительными указаниями (наличие ударения, харак­тер интонации и т. д.). Поэтому ясно, что не зная, как звуковой сигнал превращается в фонемы, нельзя описать и всего сложного процесса восприятия речи.

Одна из основных трудностей рассматриваемого ниже этапа исследований состояла в том, что реальность фонем в мозгу чело­века еще требовала доказательств. Для лингвиста фонемы пред­ставляют собой минимальные единицы, используемые для описания языка. Однако что собой представляют минимальные единицы, используемые мозгом для описания речи, совпадают ли они с фоне­мами, принятыми лингвистами, каким сигналам в нервной системе они соответствуют, как они формируются в процессе овладения речью — все эти вопросы не были исследованы, и они только ча­стично выяснены в настоящее время. Не ответив на них хотя бы в первом приближении, нельзя было ставить и вопроса о том, как звуковой сигнал преобразуется в фонемы.

Сама возможность экспериментального исследования восприя­тия речи возникла только благодаря тому, что на протяжении

427

двух последних десятилетий были разработаны технические (и математические) методы анализа и синтеза речевых сигналов, были, заложены основы физиологической и акустической теории речеобразования.

Элементарные сведения о речеобразовании, акустических свой­ствах речевого сигнала, методах анализа и синтеза речи излагаются в разделе «Элементы теории речеобразования». Овладение этими сведениями является необходимым для понимания материала, приводимого в последующих разделах.

ЭЛЕМЕНТЫ ТЕОРИИ РЕЧЕОБРАЗОВАНИЯ

Основные принципы речеобразования. Акустический речевой сигнал возникает в результате сложных координированных движений, происходящих в ряде органов, вся совокупность кото­рых и обозначается как речевой аппарат (рис. 155, а). Входящие в его состав легкие со всей дыхательной мускулатурой обеспе­чивают развитие давлений и возникновение воздушных потоков в речевом тракте. Последний (рис. 155, б) представляется гортанью и рядом воздушных полостей, конфигурация которых существенно изменяется в процессе речеобразования. Ведущую роль здесь играют движения нёбной занавески, языка, губ и нижней челюсти.

Сложная картина звукового речевого сигнала является про­дуктом ряда происходящих при этом акустических явлений (рис. 155, в). Акустические колебания возникают в результате определенных взаимодействий между воздушным потоком и струк­турами речевого тракта за счет энергии мышц дыхательной си­стемы.

Возбуждаемые колебания могут быть разделены на два основ­ных типа: почти периодические колебания, возникающие в ре­зультате работы гортани, и шумовые колебания, которые свя­заны с возникновением вихревых явлений в воздушном потоке, проходящем через речевой тракт.

Второе важнейшее акустическое явление — это действие воздушных полостей речевого тракта в качестве частотных фильт­ров. Конфигурация и величины объемов полостей речевого тракта определенным образом изменяются при создании разных звуков. Благодаря этому спектральная картина звуковых колебаний, созданных акустическими источниками, подвергается соответ­ствующей модификации.

Образование воздушных потоков, работа механизма гортани, все движения органов, образующих речевой тракт («артикулято­ров»), происходят закономерно и координированно. Благодаря этой динамически слаженной деятельности и возникают сигналы, складывающиеся в связную непрерывную речь. Созданные в ре­чевом тракте звуковые колебания излучаются наружу. Подавляю­щая доля энергии излучается через ротовое и носовые отверстия,

428

в

Рис. 155. Схема речеобразующего аппарата.

а — анатомическое изображение; б — функциональные элементы; в —| эквивалентная блок-схема. На а: 1 — грудная клетка, 2 — легкие, 3 — трахея, 4 — голосовые связки, 5 — гортанная трубка, 6 — полость глотки, 7 — нёбная занавеска, 8 — полость рта, 9 — полость носа. На б: 1 — сила дыхательных мышц, 2 — объем легких, з — трахея, 4 — голосовые связки, 5 — гортанная трубка, 6 — полость глотки, 7 — нёбная занавеска, 8 — полость рта, 9 — полость носа, 10 — излучение из ротового отверстия, 11 — излучение из носовых отверстий. На в: 2, з — емкость легких и тра­хеи, 4 — голосовой источник колебаний, 5, 6 — емкость гортани и глотки, 7 — механизм нёбной занавески, 8 — емкость полости рта, 9 — емкость полостей носа, 10 — выходной сигнал ротового тракта, 11 — выходной сигнал носового тракта, 12 — шумовой источник.

определенную роль играет изменение характеристик излучения, имеющее место при изменении величины ротового отверстия.

Таким образом, в процессе речеобразования имеет место следую­щая цепочка явлений: мышечная («моторная») активность речеоб­разующего аппарата — аэродинамические явления — акусти­ческие явления. Рассмотрим более подробно явления акусти­ческие.

Источники акустической энергии. Воздушный поток, созда­ваемый в речевом тракте благодаря действию дыхательной системы, может модулироваться тремя способами, показанными на рис. 156.

Рис. 156. Основные способы модуляции воздушного потока, обеспечивающие возникновение звуков речи (по: Stevens, 1964).

а — периодическая модуляция колеблющимися голосовыми связ­ками; б — возникновение турбулентности в потоке, проходящем через место резкого сужения речевой трубки; в — возникновение взрывных звуков при быстром открывании полной смычки. Белые стрелки — звуковой сигнал, черные — место образования звука.

В результате этого энергия равномерного воздушного потока в ка­кой-то своей части преобразуется в акустические колебания.

Наиболее мощным источником является гортань, представляю­щая собой орган, приспособленный для создания звуковых коле­баний. Находящиеся внутри полости гортани две эластичные складки — голосовые связки — образуют своеобразный и тонко управляемый клапанный механизм. При наличии определенных условий — достаточной величины подсвязочного давления, све­дения и соответствующего натяжения голосовых связок — по­следние приходят в колебательное движение.

Колебания эти происходят благодаря взаимодействию сил, на­правленных в разные стороны. Сила, создаваемая подсвязочным давлением, стремится раздвинуть голосовые связки; благодаря упругости соответственно натянутых мышцами связок возникает сила, пытающаяся свести их вместе. Определенное значение имеет также эффект Бернулли (возникновение силы, сближающей стенки канала, если в нем с большой скоростью протекает поток жидкости или газа). Площадь отверстия между голосовыми связ­ками (голосовая щель) ритмически изменяется. Как правило,

430

в течение некоторой доли периода колебаний голосовая щель оказывается сомкнутой, воздушный поток полностью прерывается. Типичной является картина, изображенная на рис. 157, б, где представлена осциллограмма объемной скорости воздуха в сечении голосовой щели.

Спектр этих колебаний представляет рис. 157, в. Расстояния но шкале частот между отдельными гармоническими компонен­

Рис. 157. Характеристики работы голосового источника. а — схематическое изображение фронтального сечения гортани в об- ласти голосовых связок, движения которых показаны горизонталь- ными стрелками; стрелки внизу показывают напор воздуха, б — типичная форма изменений скорости воздушного потока, возникаю- щих благодаря действию колеблющихся голосовых связок;, по оси абсцисс — время; по оси ординат — объемная скорость (^). в — спектр колебаний, осциллограмму которых изображает рис. б; по оси абсцисс — частота колебаний; по оси ординат — интен- сивность.

тами линейного спектра определяются частотой, с которой сле­дуют импульсы. Эта важнейшая характеристика голосового источ­ника — основная частота голоса — характерным образом изме­няется в потоке речи. Существенная доля информации, которая оказывается связанной с изменениями основной частоты голоса, относится к так называемым просодическим характеристикам речи (выражение повествовательной, вопросительной, восклицательной интонации, ударений словесных и особенно логических, обозна­чение незаконченности или оконченности фразы и др.). Для муж­ских голосов типичной областью изменений основной частоты голоса является 80—150 гц, для женских — более высокая об­ласть 120—400 гц.

431

В сложном механизме регулирования высоты голоса основную роль играют задаваемая мышцами гортани степень натяжения голосовых связок и величина подсвязочного давления, созда­ваемого дыхательной системой. Моменты включения и выключения голосового источника в динамике потока речи определяются в ос­новном движениями, сводящими и разводящими связки. Играет определенную роль и выравнивание внутриротового давления с подсвязочным, возникающее при фонации с наличием полного смыкания артикуляторов (такие звуки, как1 [b 1, [d], [g]). Воз­можно, что в кратковременной остановке фонации при глухих смычных звуках участвует своеобразный механизм: открывание дополнительного отверстия — «шепотного треугольника», на­ходящегося позади голосовых связок.

Сила звуковых колебаний, создаваемых гортанью, зависит от максимальной величины объемной скорости воздуха, проходя­щего через голосовую щель в момент ее открытия, и в основном определяется величиной подсвязочного давления, создаваемого дыхательной системой. Форма воздушного толчка — наклоны фронтов треугольника, изображенного на рис. 157, б, отношение длительности фазы открытия голосовой щели к длительности всего периода — также изменяется в зависимости и от подсвя­зочного давления и от степени натяжения связок. С изменениями формы импульсов связано изменение спектрального состава коле­баний, возбуждаемых голосовым источником, что в конечном итоге также оказывает свое влияние на характер звукового си­гнала речи.

Механизм возбуждения шумных звуков сводится к возникно­вению вихревых явлений — турбулентности — в потоке воздуха, проходящем через полости речевого тракта. Условия возникно­вения шума определяются как величиной линейной скорости частиц воздуха, так и геометрическими свойствами (величиной «эффективной площади») канала, в котором проходит воздушный поток. В речевом тракте подобные условия возникают при обра­зовании сужения в каком-либо сечении речевой трубки и созда­нии достаточного напора воздуха за этим сужением.

При создании таких шумных звуков, как [f ], [s], [f ] и т. п., называемых фрикативными, явление соответствует возникно­вению шума при продувании воздуха через сопло (рис. 158, а). Возбуждаются беспорядочные звуковые колебания, спектр кото­рых отличается достаточной равномерностью и значительной про­тяженностью в области высоких частот. Подобные согласные

1 Знаки, используемые для обозначения звуков речи, как правило, соответствуют международной фонетической системе. В отдельных случаях при обозначении звуков русской речи используются буквы русского алфа­вита. Для достижения однозначности обозначения звуков в тексте заключены в квадратные скобки.

43?

звуки можно производить продолжительное время, поддерживая их характеристики стационарными.

Наоборот, краткостью отличаются шумные взрывные звуки ([р], [t], Ik] и др.). При их артикуляции производится полное смыкание стенок в каком-то определенном месте речевого тракта,

Рис. 158. Характеристики работы шумовых источни- ков.

а — протекание воздушной струи через сужение в речевой трубке; б — шумовой сигнал, возникающий благодаря явле­нию турбулентности; в — широкополосный спектр шумового сигнала; г — образование воздушного толчка при открывании сомкнутых артикуляторов, за которыми создано дополнитель­ное давление; 0 — импульсный сигнал, возникающий в момент открывания смычки артикуляторов; е — спектр импульсного сигнала. По оси ординат: на б, д — время, на в, е — частота; по оси абсцисс: на б, в, д, е — интенсивность звуковых колеба­ний. Стрелки на а, г характеризуют движение воздушных по­токов.

глубже места этой «смычки» создается повышенное давление, и смычка быстро размыкается (рис. 158, б). Быстрый толчок воз­духа создает короткий импульсный звук.

Если расположение голосового источника относительно всех образований речевого тракта всегда остается неизменным, то источ­ники шумных и взрывных звуков, наоборот, могут располагаться в разных его местах, так как источник связан с местом образования смычки. Обычно рассматривают губные (губно-зубные), передне­язычные, среднеязычные и заднеязычные смычки. Место положе-

Сенсорные системы 433

ния источника является важным различительным параметром согласных звуков.

Голосовой и шумовые (фрикативный или взрывной) источники могут возбуждаться и одновременно (звонкие согласные). Времен­ная картина включения и динамики работы всех этих источников в слитной речи отличается высокой степенью координации с дви­жениями всех органов речеобразующего аппарата.

Частотная фильтрация в речевом тракте. Звуковые колебания, возникшие в результате действия рассмотренных выше акусти­ческих источников, представляют собою как бы исходный «сырой» материал, подвергающийся в процессе создания речевого сигнала дальнейшим преобразованиям. Ведущую роль здесь играют ча­стотно-избирательные свойства воздушных полостей всего речевого тракта. Если звуковые колебания возбуждаются в некотором ограниченном объеме, то будут проявляться акустические резо­нансные свойства этого объема, зависящие от его размеров и кон­фигурации. Рассматриваемый в этом аспекте речевой тракт пред­ставляет собой последовательно расположенные полости довольно сложной конфигурации, к тому же существенно изменяющиеся в динамике речевого потока. В акустическом отношении подобная система является сложным частотным фильтром с переменными свойствами.

Современная акустическая теория речеобразования (Fant, 1960) показывает, что весь процесс создания звукового речевого сигнала может быть сведен к возбуждению акустических источников и управ­ляемой фильтрации создаваемых ими сигналов. Схему происхо­дящих явлений можно пояснить (рис. 159). Спектральные состав­ляющие исходных колебаний, проходя через фильтр, умножаются на величины соответствующих ординат частотной характеристики фильтра. Преобразованный таким образом спектр и характеризует излучаемый речевой сигнал.

Фильтрующее действие речевого тракта зависит от его геомет­рической формы и места расположения акустического источника. При работе голосового источника место его расположения не из­меняется, ведущее значение оказывается за конфигурацией по­лостей речевого тракта. Характерный пример представлен на рис. 160. При фонации звука [i ] к нёбу поднимается передняя часть спинки языка, большим оказывается объем полостей, рас­положенных сзади от места этого сужения, малым — объем между местом сужения и ротовым отверстием; поднятая кверху нёбная занавеска «отключает» носовые полости. В результате «настроенной» таким образом частотной фильтрации звуковые колебания голосового источника, спектр которых показан на рис. 157, характерным образом преобразуются. Огибающая спектра окончательного сигнала дана на рис. 160, б. При образо­вании звука [а] значительно большим оказывается объем поло­стей передней части речевого тракта, спинка языка удалена от нёба

434

Рис. 159. Схематическое изображение преобразований сигнала в речевом тракте (по: Fant, 1960).

а — сигнал голосового источника; б — фильтрующая система речевого тракта; в — выходной речевой сигнал; г — спектр сигнала голосового источника; д — вид частотной характеристики речевого тракта; е — спектр речевого сигнала.

Рис. 160. Схематические изображения конфигурации ар­тикуляторов (а, в) и огибающие спектров (б, а) для глас­ных звуков [i] и [а] (по: Stevens, 1964).

По оси абсцисс — частота в кгц; по оси ординат — относительная интенсивность в дб.

28*

(рис. 160, в); спектр звукового сигнала существенно отлипей (рис. 160, г).

Подобного же рода частотная фильтрация имеет место и при Действии шумовых источников. Процесс здесь дополнительно осложняется изменением места возникновения звука. В первом приближении источник может быть привязан к месту смычки артикуляторов. Фильтрующие свойства речевого тракта опре­деляются как совокупностями объемов, расположенных в глубине за артикуляторной смычкой, так и перед ней.

При опускании нёбной занавески в качестве акустических резо­наторов начинают играть роль и носовые полости. Образование назальных согласных [т ] и [n ] происходит при закрытом ротовом отверстии. Звук излучается через носовые отверстия, однако влия­ние полости рта сказывается в качестве параллельно подклю­ченного резонатора. Сообщение между ротовым и носовым трак­тами может возникать также и при фонации гласных — при их «назализации». В данном случае основная энергия излучается через ротовое отверстие, но звук приобретает характерную окраску.

Резонансные пики, соответствующие набору собственных частот речевого тракта и проявляющиеся в картине спектра, называются формантами. Максимальное число их зависит от общей длины ре­чевого тракта. Считается, что у взрослого мужчины их может быть до 7. Однако важнейшее значение для различения звуков имеют 2—3 форманты.

К настоящему времени проведено весьма значительное число исследований, целью которых были попытки найти и аналити­чески выразить зависимости между важными для речеобразования акустическими свойствами и геометрическими размерами тракта. Основой здесь являются измерения, осуществляемые с помощью рентгенографической техники; речевой тракт обычно аппрокси­мируется моделью в виде последовательно соединенных отрезков труб.

Для случаев стационарных звуков речи вопрос разработан достаточно полно (Fant, 1960; Flanagan, 1965). Созданы модели работы речевого тракта, весьма удовлетворительно описывающие основные физические процессы, имеющие при этом место. Значи­тельно хуже обстоит дело с точным описанием и пониманием динамики всех явлений, происходящих в речевом тракте в связи с образованием непрерывного потока живой устной речи.

Динамическая организация речевого потока. Как упомянуто выше, современная акустическая теория речеобразования дает достаточно хорошее описание тех процессов, которые имеют место при создании относительно долго длящихся — стационар­ных звуков. Положение, однако, существенным образом ослож­няется, если рассматривать звуковой сигнал естественного потока речи. Оказывается, что реальный речевой сигнал не может быть

436

представлен просто как последовательность примыкающих дру? к другу сегментов, обладающих некоторыми стабильными акусти­ческими свойствами. Изображение услышанной речи в виде после­довательности букв или даже более богатого набора значков, принятого в фонетике, является существенно упрощенным описа­нием сигнала и оказывается возможным лишь благодаря всем сложным преобразованиям информации, которые происходят при восприятии речи.

Вопрос о характере распределения информации об отдельных фонемах в непрерывном потоке речи рассматривался Фантом

Рис. 161. Диаграмма, отражающая особенности динамиче­ской спектрограммы произнесенных слов Santa Claus (по: Fant, Lindblom, 1961).

По горизонтали — различающиеся между собой сегменты, на кото- рые разделяется спектрограмма; по вертикали — произнесенные фонемы. Жирные линии показывают сегменты, в которых имеются признаки соответствующих фонем.

и Линдблумом (Fant, Lindblom, 1961) и Чистович (1962). Авторы использовали метод динамической спектрографии (о нем будет сказано ниже) и пришли к выводу, что особенности спектрогра­фической картины, говорящие о наличии того или иного признака, характеризующего рассматриваемую фонему, оказываются, как правило, занимающими участки, значительно превосходящие ту длительность, которая может быть отведена в потоке речи на эту фонему. Участки потока, несущие данные о соответствующих фонемах, оказываются существенно перекрывающимися во времени (рис. 161).

Подобные особенности картины акустического сигнала нахо­дят свое объяснение при рассмотрении динамики физиологических явлений, лежащих в основе речеобразования. Все имеющие здесь место процессы представляют собою следствие определен­

437

ным образом организованной мышечной активности, охватываю­щей и дыхательную систему, и собственно речевой аппарат.

Для производства звуков речи необходимым условием’является создание достаточного подсвязочного давления и обеспечение потоков воздуха в речевом тракте, обладающих определенными скоростями. Это выполняется с помощью дыхательной системы. Дыхание во время речи характерным образом перестраивается. Как правило, перед началом речи делается более глубокий вдох, обеспечивающий наличие достаточного объема воздуха в легких. Фаза «речевого выдоха» отличается существенным повышением внутрилегочного давления и вместе с тем экономичным расходом воздуха и значительно увеличенной по сравнению с обычным дыха­нием длительностью.

При продолжающейся речи моменты вдохов определенным обра­зом согласуются с лингвистической конструкцией произносимого языкового материала. Производство вдохов, неизбежно ведущих к возникновению паузы, подчиняется определенным правилам. Они допускаются только либо после окончания фразы, либо в опре­деленных местах внутри предложения, разделяющих группы слов, обычно обозначаемые как синтагмы (Шейнин, 1966).

Величина и особенности развития во времени положительного внутрилегочного давления, необходимого для производства речи, существенно зависят от таких ее характеристик, как громкость, интонационная структура, логические ударения (рис. 162). В зна­чительно меньшей степени сказывается влияние конкретного фо­немного состава произносимого материала (Арутюнян, 1966, 1967).

Таким образом, видно, что организация акустических сигна­лов речевого потока в какой-то мере оказывается определяемой уже особенностями речевого дыхания. Это касается прежде всего таких характеристик, как громкость, интонация, фразовые уда­рения, обычно называемых просодическими. Их влияние распро­страняется на отрезки речевого потока, заведомо большие, нежели длительность отдельных фонем.

Действия дыхательной системы определенным образом коорди­нированы с моторной активностью гортани и периферических арти­куляторов. Если рассматривать особенности активности гортани как одного из важнейших участков образования непрерыв­ного речевого сигнала, то в механизме управления ею прежде всего следует выделить движения, определяющие возникнове­ние фонации, и движения, регулирующие высоту основного тона голоса.

Рис. 162. Изменения внутрилегочного давления (Рд) и объема воздуха, содер­жащегося в легких (7Л) при произнесении модельной фразы «у папа папа папа» с изменяющимся логическим ударением: а — на первом, б — на вто­ром, в — на третьем слове «папа» (по: Арутюнян, 1967).

Лар — сигнал ларингофона, Вр — отметка времени 1 сек.

438

Основным движением, обеспечивающим «пуск» — включение голосового источника при создании вокализованных звуков (глас­ных и звонких согласных), — является сведение голосовых свя­зок. Последнее обеспечивает возникновение резкого сужения в речевом тракте на уровне голосовой щели и при наличии достаточ­ного перепада давления на связках ведет к возникновению коле­бательных движений последних.

Изменения частоты колебаний голосовых связок обеспечиваются главным образом благодаря изменениям степени их натяжения, которое и является основным параметром «управления». Харак­терный пример, показывающий сложность управления артику­ляцией, представляет следующее явление. При артикуляции глу­хих смычных согласных, окруженных гласными (такие звукосоче­тания, как [ара]), несмотря на прекращение фонации во время смычного звука голосовые связки остаются в состоянии активного натяжения. Об этом говорит тот факт, что траектория, описывающая изменения частоты основного тона предшествующей и последующей гласных, оказывается непрерывной даже на участке смычного согласного, где колебания голосовых связок останавливаются (Венцов, 1966). Фонация в этот момент прекращается благодаря уменьшению перепада давления на голосовой щели ниже крити­ческой величины, при которой еще поддерживаются колебатель­ные движения связок. Это вызывается быстрым возрастанием положительного давлёния в ротовой полости. Одно из возможных объяснений последнего явления сводится к открытию хрящевой щели («шепотного треугольника»), находящейся в гортани позади голосовых связок (Венцов, 1969).

Приведенный пример снова показывает, что определенные эле­менты управления артикуляцией остаются едиными для участков, охватывающих ряд фонем.

Основным видом движений, которые происходят в находящихся еще более дистально отделах, является сближение или разведение стенок в определенных местах трубки, образующей речевой тракт, и изменение ее конфигурации. При фонации гласных звуков имеет место такое положение, когда сохранен проход воздуха вдоль всего речевого тракта, а конфигурация составляющих его полостей определяет произносимый звук. Для согласных же звуков харак­терно образование резкого сужения или даже возникновение пол­ного смыкания стенок в некотором достаточно строго локализо­ванном для данного звука месте по ходу речевой трубки. В резуль­тате при речи непрерывно происходят определенным образом организованные возвратно-поступательные движения артикулято­ров, которые и являются основой возникновения чередующейся смены согласных и гласных звуков, составляющих непрерывный речевой поток (рис. 163).

Координированная моторная активность всего речеобразующего аппарата несомненно предполагает наличие сложных процессов 440

«программирования» управляющих сигналов, возникающих в нерв­ной системе. Исходя из желания получить хотя бы исходные данные по этому весьма сложному вопросу, было проведено исследование, касающееся главным образом временных особенностей организа­ции непрерывного речевого потока (Чистович и др., 1965).

С помощью системы датчиков, преобразующих движения арти­куляторов, а также потоки и движения воздуха в электрические

5

1

1

02 ОЛ сек.

Рис. 163. Пример движений артикуля­торов, имеющих ме­сто при речеобразо- вании (произнесение звукосочетания [epip]) (по: Stevens, 1964).

Данные получены с помощью измерений серии кино-рентгенов- ских кадров. Графики показывают изменение во времени вели- чин, показанных на схематическом изображении сечения рече- вого тракта: Dp — расстояние между губами; By — расстояние по вертикали от твердого нёба до отмеченной точки на спинке языка; Dp — ширина глотки на некотором уровне над голосовой щелью.

сигналы (рис. 164), имелась возможность получать достаточный объем экспериментального материала, описывающего реальную моторную активность, лежащую в основе непрерывного акусти­ческого потока речи. Изучались особенности временнбй орга­низации деятельности артикуляторов на участках речевого потока разной протяженности: синтагм, слогов, элементов слога.

Одним из выводов исследования явилось представление о том, что основными элементами, из которых составляется связный поток устной речи, являются слоги, причем слоги открытые, т. е. окан­чивающиеся гласным. Есть основания полагать, что и при образо­вании «программ» артикуляции управляющие сигналы оказы­ваются в какой-то мере связанными в группы длительностью порядка слога. Изучение этих вопросов помогает в понимании, например, такого явления, как коартикуляция: переслаивание

441

в акустической картине признаков, характерных для звуков, следующих один за другим в речевом потоке (Ohman, 1966).

Принципы анализа речевых сигналов. Наибольшее применение для анализа речевых сигналов нашли хорошо известные методы частотного спектрального разложения. Практическое осуществле­ние метода может быть пояснено рис. 165. Исходный сложный

Рис. 164. Пример комплексной регистрации артикуляторных и акустиче- ских параметров (Кожевников и Шупляков, 1962).

1 — сигналы датчика, регистрирующего смыкание губ; 2 — сигналы смычки языка с нё­бом по срединной линии; 3 — сигналы смычки передней части языка с нёбом в точках, отстоящих на 5 мм от срединной линии; 4 — сигналы датчика, регистрирующего поток воздуха из ротовой щели; 5 — сигналы датчика, регистрирующего поток воздуха из но­совых отверстий; 6 — огибающая сигнала ларингофона; 7 — огибающая сигнала микро­фона; 8 — отметка времени 1 сек. Внизу обозначены произнесенные слова.

сигнал S (t) подается на вход фильтра <р,' пропускающего лишь колебания некоторой ограниченной области частот. Для того чтобы определить интенсивность отфильтрованных колебаний, они вы­прямляются детектором D и поступают на фильтр низких частот, которым обычно является сглаживающая, интегрирующая це­почка I. Выходной сигнал может измеряться стрелочным прибо­ром, подаваться на электронную вычислительную машину, реги­стрироваться тем или иным способом.

Если постепенно изменять частоту настройки фильтра, повторно подавая на его вход один и тот же изучаемый отрезок сигнала, или же использовать целый набор фильтров с близко расположенными частотами настройки и подавать сигнал одновременно на входы

442

всей системы фильтров, то можно разложить исходный сложный сигнал на целый ряд компонент и получить его описание, подобное изображённому на рис. 166. Этот рисунок представляет изображе-

Рис. 165. Блок-схема простейшего частотного анализатора.

Объяснения в тексте.

ние процессов, происходящих в анализаторе в том случае, когда на его вход в момент времени tQ было подано напряжение, состоя­щее из двух синусоидальных колебаний различных частот. Видно,

Рис. 166. Процесс установления показаний анали- затора во времени (по: Харкевич, 1957).

Ось С — интенсивность колебаний; ось т — частота; ось t — время. Остальные объяснения в тексте.

что должно пройти некоторое время, прежде чем эти компоненты начнут разделяться. При спектральном анализе действует своего рода «принцип неопределенности», заключающийся в том, что при увеличении разрешающей способности по частоте неизбежно нужно увеличивать время анализа, а повышение разрешения временных подробностей сигнала ограничивает различение его частотных

443

компонент. Ситуация приближенно может быть охарактеризована произведением AFxAJ=l, где AF — разрешающая способность по частоте, в гц, — разрешающая способность по времени, в сек.

Выбор характеристик фильтров, детектора и интегрирующей цепочки зависит от задач производимого анализа. Так, если необ­ходимо получить исходные данные для выбора частотных харак­теристик каналов связи, по которым передается речевой сигнал, то время анализа можно сделать произвольно большим и получить высокое частотное решение. Наоборот, производя измерения при достаточно широких полосах фильтров, можно получить подроб­ное описание временной динамики, имея, однако, лишь небольшое число отсчетов по шкале частот.

Существенным является вопрос, как представить результаты анализа такого изменяющегося во времени сигнала, каковым яв­ляется речь. Возможно получать через определенные промежутки времени изображения с осями частота—интенсивность. Такие «спектральные разрезы», последовательно повторяемые через до­статочно короткие промежутки времени, могут достаточно точно представить динамику сигнала. Однако такой вид изображения является громоздким и недостаточно наглядным.

Широкое р аспространение в исследованиях речи получил способ анализа, известный под названием «видимая речь» или динамическая спектрография. В наиболее известной модификации прибора анализируемый отрезок речи (обычно около 2.5 сек.), записанный на магнитный носитель, многократно воспроизводится. На диаграмме, отражающей результаты анализа (на тепловой, электрочувствительной или фотобумаге), вычерчивается линия, степень черноты которой отражает интенсивность выходного сигнала фильтра. С каждым циклом частота настройки фильтра сдвигается, на диаграмме вычерчивается новая линия, несколько сдвинутая от предыдущей. В результате возникает трехмерное изображение с осями: время, частота, интенсивность. В прибо­рах обычно используется принцип гетеродинного анализатора, наиболее часто полоса пропускания фильтра берется довольно широкой — 300 гц.

Получающаяся в этих условиях картина (рис. 167) отличается довольно высоким разрешением во времени. При работе голосового источника четко намечаются вертикальные линии (7), каждая из ко­торых отражает отдельный цикл колебания голосовых связок. Это является показателем высокой разрешающей способности по времени. Вместе с тем достаточно наглядными оказываются и особенности распределения интенсивности по оси частот. Можно наблюдать положение отдельных формант (2) и их движение вдоль оси частот (5). Четко выделяются участки шумных звуков (4), паузы при полных смычках (5).

При желании повысить разрешение по оси частот анализ может производиться и с помощью более узкополосного фильтра (обычно

444

45 гц). Определенные ограничения точности анализа связаны с малым диапазоном величин, который можно зарегистрировать по оси интенсивностей в виде изменения степени почернения ма­териала, на котором изображаются результаты. Но и здесь можно достигнуть определенного улучшения путем предварительного сжатия диапазона регистрируемых сигналов. В последнее время для этой цели применяется также техника нанесения отметок, обозначающих на диаграмме различные уровни интенсивности. ^^Изображения сигналов в виде динамических спектрограмм пользуются заслуженной популярностью среди исследователей

Рис. 167. Динамическая спектрограмма фразы «Тоня топила баню».

Вдоль оси абсцисс анализируемая фраза (написана в знаках фонетической транскрипции); по оси ординат — частота анализируемого сигнала. Остальные объяснения в тексте.

речи. Уже в первых применениях «видимой речи» большое внимание обращалось на технику ее чтения (Potter et al., 1947). Однако все-таки приходится отметить, что в этом направлении были достигнуты относительно ограниченные успехи. Достоверность обнаружения и точность количественной оценки наблюдаемых параметров оставляет желать лучшего. Благодаря амплитудной компрессии пропадает информация, связанная с изменениями интенсивности сигнала, далеко не всегда четко выделяются фор­манты, с трудом поддается измерению основная частота голоса.

В последнее время все большие успехи достигаются в разра­ботке приемов и способов автоматизированного выделения и изме­рения определенных параметров. Прежде всего сюда относятся работа голосового и шумовых источников, частота основного тона голоса, выделение формант и слежение за изменениями их частоты. Особенно большие перспективы в этом направлении открывает при­менение электронных вычислительных машин. Проводящиеся исследования большей частью связаны с проблемой автоматиче-

445

ского распознавания речи и заслуживают отдельного рассмот­рения.

Принципы синтеза речевых сигналов. Проблема искусственного создания звуков речи привлекает внимание с давних пор. Еще в конце XVIII в. Кемпеленом была создана довольно совершенная говорящая машина. Роль легких выполняли меха, «речевой тракт» представляли ящички, колеблющиеся язычки и мягкая трубка, соответствующим образом управляемые руками оператора. Ма­шина могла имитировать, вероятно, более 20 речевых звуков, возможно было создавать даже некоторые короткие фразы. Позже были созданы и другие механические устройства синтеза. Опре­деленный интерес к подобным моделям не угас и до настоящего времени (Ladefoged, 1964; Anthony, 1965).

Однако существенное развитие способы сицтеза речевых сигна­лов получили только на базе электрических устройств, использую­щих достижения электроакустики и электроники. Известно большое число разработанных систем, выполненных разнообраз­ными способами (Сапожков, 1963; Фланаган, 1968), но в принци­пах подхода к синтезу можно выделить две основные группы: полосные методы и формантные методы.

Полосные методы синтеза представляют основной интерес для конструкторов систем синтетической телефонии. Для того чтобы сократить частотную полосу канала связи, по которому требуется передать речь, может быть применен способ, осущест­вляемый в так называемых полосных вокодерах. Процедура за­ключается в анализе сигнала передаваемой речи с помощью набора порядка 10—20 и более полосовых фильтров и передачи по каналу связи данных о изменениях интенсивности колебаний в каждом из фильтров. На приемном конце сигнал снова синтези­руется путем, грубо говоря, суммации сигналов, которые возбуж­даются согласно сигналам управления, передаваемым по каналу связи, в наборе частотных полос, эквивалентных таковым в анали­заторе передающего конца.

Для описываемых в настоящей главе исследований значительно больший интерес представляют иные методы синтеза, идущие по пути аналогии с реальными процессами, происходящими при речеобразовании, методы, часто обозначаемые как формант­ные. Не имея возможности хоть в какой-то мере полно охватить все разнообразные системы, рассмотрим в качестве примера прин­ципы устройства типичного современного аналогового синтезатора, используемого в Лаборатории передачи речи Стокгольмского техно­логического института и известного под маркой OVE III (Liljen- crants, 1967).

В синтезаторе (рис. 168) источниками энергии создаваемых колебаний служат два генератора. Генератор последовательности импульсов треугольной формы (7) представляет голосовой источник. Под влиянием управляющего сигнала его частота изменяется,

446

что отражает изменение основной частоты голоса. Второй генера­тор {12) создает шумовые колебания, воспроизводящие действие шумовых источников.

Колебания от генераторов попадают в систему, в которой ос­новными являются элементы с управляемым усилением и управ­ляемые частотные фильтры. Такие фильтры, у которых под влия­нием электрических управляющих сигналов изменяется как по­ложение резонансной частоты, так и ширина полосы пропускания являются важными элементами формантных синтезаторов. Эти

Рис. 168. Блок-схема синтезатора речевых сигналов OVE III (по: Liljencrants, 1967).

Объяснения в тексте.

фильтры моделируют резонансное действие полостей речевого тракта.

Для образования гласных звуков служат четыре таких после­довательно включенных фильтра (4, 5, 6, 7), обеспечивающих появление в выходном сигнале четырех формант. Управляемыми параметрами являются: уровень интенсивности сигнала от голо­сового источника; резонансные частоты и ширина полос всех формантных фильтров.

Эффект подключения носовых полостей при образовании на­зальных звуков достигается благодаря прохождению колебаний голосового источника через параллельную ветвь, имеющую лишь один формантный фильтр (8) и управляемый усилитель (9). Третья ветвь служит для образования шумных фрикативных согласных. Она состоит из двух формантных фильтров {14, 15) и одного «анти- формантного» фильтра {13), производящего подавление частот в оп­ределенной области, положение которой также изменяется отдель­ным управляющим сигналом. Необходимость введения специаль­

447

ных фильтров для образования шумных звуков связана с тем, что место положения шумового источника перемещается по трубке речевого тракта, шумовые звуки образуются при разведенных голо­совых связках. Влияние этих факторов делает акустические условия отличными от тех, которые имеются при образовании гласных.

Важный для английского и ряда иных языков эффект возник­новения аспирационного шума (результат турбулентности, возни­кающей в районе голосовой щели при неколеблющихся голосовых связках) производится с помощью регулируемого усилителя (11), подмешивающего определенную долю шумовых колебаний к си­гналу голосового источника.

Выходные сигналы всех трех ветвей — гласных, назальных и шумных звуков — складываются на электронном сумматоре (10) и образуют выходной речеподобный сигнал.

Подобная электрическая система воспроизводит как действие источников акустических колебаний, так и эффекты частотной фильтрации, имеющие место в речевом тракте. Однако для того чтобы производить связные речевые сигналы, она требует слож­ной системы управляющих сигналов.

В OVE III и ряде иных современных синтезаторов для этой цели используются цифровые электронные вычислительные ма­шины. Если ЦЭВМ имеет память значительного объема, то с ее помощью могут быть синтезированы достаточно длинные куски речи. Однако важнейшей проблемой остаются те закономерности, которым должны следовать управляющие сигналы для создания определенных звуков и особенно для обеспечения естественных переходов при сочетании звуков в слитную речь.

В данном направлении ведутся интенсивные исследования, достигнуты значительные успехи. С помощью ряда разработанных систем удается получать слитную речь весьма естественного зву­чания. Для аспектов исследования, которых касается настоящая глава, синтез речеподобных звуков является очень важным экспериментальным приемом. С помощью электронного синтеза­тора или даже более упрощенных устройств можно создавать слож­ные речеподобные звуки, все физические характеристики которых строго задаются. Подобные сигналы широко используются в ис­следованиях восприятия речи.

ФОНЕМНЫЙ ОБРАЗ РЕЧЕВОГО СИГНАЛА

Гипотезы о природе фонем. Как только проблемой восприятия речи начали заниматься физиологи и психологи, возник вопрос о том, с какого рода сигналами в нервной системе могут быть идентифицированы фонемы. Вопрос имел отнюдь не праздный характер, так как от его решения зависел выбор методов исследования.

448

Развитие представлений по этому вопросу нашло отражение в ряде работ, посвященных защите моторной теории восприятия речи, ее обсуждению и критике (Liberman, 1957; Stevens, 1960; Liberman et al., 1962; Чистович, 1961, 1962; Fant, 1964; Lane, 1965; Галунов и Чистович, 1965; Liberman et al., 1967).

реакция

Рис. 169. Схематическое представление различных гипо- тез о физиологической природе фонем.

1 — фонемы отождествляются с кинестетическими образами, воз­никающими при осуществлении артикуляторных движений; 2 — фонемы отождествляются с моторными командами к артикулятор­ным органам; 3 — фонемы отождествляются с абстрактными обо­значениями, одновременно представляющими подмножества слухо­вых изображений и инструкции к синтезу (или выбору) артикуля­торного комплекса.

Схемы, показанные на рис. 169, иллюстрируют эволюцию идей за прошедшее десятилетие. Сначала фонемы связывались с обрат­ными кинестетическими сигналами, возникающими у слушателя при «скрытом» проговаривании воспринимаемого сообщения (схема 7). Наличие мышечной активности артикуляторов при слуша­нии речи было показано экспериментально (Соколов, 1960). Однако

29 Сенсорные системы

449

эта точка зрения встречала слишком много возражений (Lane, 1965; Галунов и Чистович, 1965; MacNeilage, Rootes, 1967) и была вскоре отвергнута.

На следующем этапе развития представлений фонемы связы­вались с моторными командами к мышцам артикуляторов (схема 3). Эта точка зрения также вызывала серьезные возражения, так как характеристики моторных команд принципиально должны были зависеть от многих факторов (контекст, громкость и темп речи, конкретные условия речеобразования).

В настоящее время большинством исследователей принимается, что фонемы представляют собой абстрактное надсенсорное и над­моторное описание речевых элементов (схема 3). Если рассматри­вать фонему с точки зрения речеобразования, она является на­бором инструкций к синтезу (или выбору) артикуляторного ком­плекса. Если говорить об акустическом речевом сигнале, то фонема является обозначением подмножества сигналов, обладающих опре­деленными свойствами.

Переход от слухового описания сигнала (Л на схеме 3) к на­бору инструкций для синтеза артикуляторного комплекса логи­чески необходим для того, чтобы человек мог воспроизвести (по­вторить) услышанный им речевой сигнал.

Существенное допущение, которое делают исследователи, при­нимающие схему 3, состоит в том, что последовательность наборов таких инструкций, возникшая при восприятии слова или фразы, не только запоминается (это не вызывает сомнений), но и является тем описанием сообщения, с которым имеют дело следующие блоки анализа речи, обеспечивающие понимание смысла сообщения.

Еще одно допущение состоит в том, что человек не только за­поминает эти наборы инструкций, но может их сравнивать между собой (устанавливать их тождество или различие, степень сходства) и обозначать символами — буквами. Предполагается возможным, что число известных человеку букв меньше числа различных на­боров инструкций — психологических фонем. .

Эти допущения лежат в основе методов, лрцменяющихся для экспериментального исследования восприятия речи. Методы вклю­чают изучение характеристик имитации речеподобных сигналов и обозначения их буквами, парное сравнение стимулов.

Реальность фонем как субъективных образов речевых стиму­лов. Реальность фонем как абстрактных описаний (образов) речевых стимулов, используемых при запоминании стимулов и сравнении их между собой, была доказана в основном методом срав­нения функций идентификации с функциями различения. Этим методом были получены все данные, касающиеся согласных.

Согласные. В экспериментах применялись синтетиче­ские речеподобные стимулы, образующие ряд по какому-то из полезных акустических признаков стимула. На рис. 170 приве­дены стимулы, применявшиеся в работе Либермана и др. (Liber­

450

man et al., 1957). Они образуют ряд по значениям разности между частотой F 2 в начальный момент времени и частотой F2 на стацио­нарном участке слога.

Для получения функций идентификации стимулы, следующие друг за другом в случайном порядке, записывались на магнито­фонную ленту и предъявлялись испытуемым. Испытуемые должны были записывать в ответ на каждый стимул букву, обозначающую

Рис. 170. Формантная картина 14 синтетических стимулов, применявшихся в работе Либермана и др. (по: Liberman et al., 1957).

Нижний график является продолжением верхнего. По оси абсцисс — время, по оси ординат — частота. Цифры 1, 2, . . 14 являются.

условными обозначениями стимулов. Для стимулов 1—13 показан только начальный участок стимула, стимул 14 приведен полностью. Нижняя темная полоса представляет первую форманту (Г\), верх­няя — вторую форманту (Г2), Стимулы 1, 2, . . ., 14 отличаются друг от друга по начальному значению F2 и соответственно по на­правлению и скорости изменения F2 на переходном участке.

ту фонему, на которую этот стимул больше всего похож. Разрешен­ный набор букв был обычно ограничен экспериментатором (метод форсированного выбора).

Пример функции идентификации для одного из испытуемых в работе Либермана и др. (Liberman et al., 1957) приведен на рис. 171. Можно видеть, что применявшийся ряд стимулов раз­деляется на три области, одна из них связана с фонемой [Ъ|, вто­рая — с фонемой [d], третья — с фонемой [g]. Область стимулов, относимых к одной фонеме, была названа фонемной категорией.

Естественно, что при каком-то значении стимула ответы [Ь] и [d] будут равновероятны. Это значение называется фонемной границей между [Ь] и [d] по исследуемому признаку.

29*

451

После того как функция идентификации (рис. 171) получена, можно проверить предположение, что при запоминании и сравне­нии стимулов испытуемый действительно пользуется фонемами как субъективными описаниями этих стимулов. Будем предъяв­лять испытуемому триады типа х., x.+l, х.\ х., я.+1, хм (или х., **7+2, xi\ xi+v> ^+2), гДе * “ порядковый номер стимула в ряду по значениям акустического параметра, и попросим испытуемого определять, с первым или со вторым звуком в триаде совпадает последний звук. Этот метод называется методом АВХ-сравнения. Построив такие триады для всех значений i и предъявив их ис­пытуемому, мы получим функцию различения — вероятность

правильного ответа испы- туемого в зависимости от положения стимулов по шкале акустического пара- метра. Зная функцию иден-

Рис. 171. Функция идентифи- кации для стимулов, изобра- женных на рис. 170 (по: Li- berman et al., 1957).

По оси абсцисс указан номер сти- мула, по оси ординат — процент опознавания стимула как слога, начинающегося с согласного [Ь ] (белые треугольники), [^] (черные с белым треугольники) и [d] (чер- ные треугольники).

тификации, легко вычислить теоретические значения функции раз­личения при предположении, что вся информация о стимуле, ко­торую испытуемый может запомнить, сводится к знанию выбранного в ответ на стимул фонемного символа. Не останавливаясь на процедуре вычислений (она достаточно проста), укажем только, каких эффектов следует ожидать. Если хГ и ^+1-стимулы нахо­дятся внутри одной и той же фонемной категории, т. е. восприни­маются как один и тот же согласный в 100% случаев, ответы испы­туемого должны быть случайными, значение функции различения должно быть равно 0*5. Если х.- и а^+1-стимулы принадлежат разным категориям, значение функции различения должно быть больше 0.5. Оно будет равно 1.0, если ^.-стимул всегда воспри­нимается как один согласный, а ;г.+1-стимул всегда воспринимается как другой согласный. Иначе говоря, функция различения должна быть близка к 0.5 на интервалах, лежащих внутри фонемных ка­тегорий, и она должна иметь пики вблизи фонемных границ. В работе Либермана и др. (Liberman et al., 1957) при исследовании функции различения применялись стимулы, различающиеся на одну градацию признака (х^х i+1), на две градации (ж., xi+2) и на три градации (xi9 xi+3). Полученные данные (для того же испытуе­

452

мого, функция идентификации для которого приведена на рис. 171) показаны сплошными кривыми на рис. 172. Пунктирными кри­выми приведены теоретические значения функции различения, вычисленные на основании функции идентификации.

Можно видеть, что, пики вблизи фонемных границ на экспери­ментальной функции различения выражены достаточно отчетливо, однако испытуемый оказывается в какой-то мере способным раз­личать также стимулы, относящиеся к одной и той же фонемной категории.

В экспериментах последних лет (Liberman, 1968), когда тех­ника синтеза была, очевидно, улучшена, было получено лучшее

Рис. 172. Функция различения стимулов, изображенных на рис. 170 (по: Liberman et al., 1957).

По оси абсцисс указан номер х/ стимула, по оси ординат — процент правильных от­ветов. Сплошная кривая — экспериментально полученные значения, прерывистая — значения, вычисленные на основании функции идентификации. Данные для триад, образованных из хг- и х^х стимулов (график а), из х/ и х/+2 стимулов (график б), и из и xi+з стимулов (график в).

совпадение между теоретическими и экспериментальными значе­ниями функции различения.

Принципиально аналогичные данные были получены при ис­следовании идентификации и различения начальных глухих и звонких смычных согласных.

В различных языках выделяются три группы смычных соглас­ных: полностью звонкий согласный, глухой неаспирированный согласный и глухой аспирированный согласный. В случае полно­стью звонкого согласного (например, русские [b], [d], [g 1) го­лосовая щель смыкается значительно раньше размыкания смычки, в случае глухого аспирированного согласного (например, англий­ские [р], [t 1, [к]) голосовая щель остается открытой некоторое время после размыкания смычки.

В качестве акустического коррелята этого признака Лискер и Абрамсон (Lisker, Abramson, 1963, 1964) предложили принять параметр, названный ими «время начала голоса». Рис. 173, где приведены спектрограммы слога с полностью звонким согласным [di], глухим неаспирированным согласным [ti] и глухим аспири­рованным согласным [thi ], иллюстрирует способ измерения этого

453

параметра на динамических спектрограммах. За точку отсчета при­нимается момент размыкания смычки согласного, характеризую­щийся появлением энергии в высокочастотной части спектра (шум

взрыва, появление энергии в области второй и более высо- ких формант). Нача- ло голоса, если он предшествует размы- канию смычки, опре- деляется по появле- нию энергии в об- ласти основной ча- стоты голоса. В слу- чае начала голоса после размыкания смычки имеет место не только появление энергии на основной частоте и появление периодического ха- рактера всего сигна- ла, но и резкое уве- личение амплитуды первой форманты и общей энергии сиг- нала.

Слоги, приведен- ные на рис. 173, ха- рактеризуются по па- раметру «время на-

Рис. 173. Динамические спектрограммы (а) и энергетические огибаю- щие (б) слогов [di], [ti] и |thi] (по: Abramson, 1967).

Стрелками отмечен интервал времени между началом колебаний голосовых связок и размыканием преграды в [di] и интервал времени между появлением шума и началом колебаний голосовых связок в [ti] и [thi]. По оси абсцисс — время, по оси ординат — интенсивность (осциллограммы огибающей) или частота в гц (динамические спектро­граммы).

чала голоса» значениями — 85, 15 и 110 й мсек. Для ис­следования восприятия был синтезирован набор из 37 стимулов, крайние значения стимулов по параметру были — 150 и -р 150 мсек., шаг между стимулами 10 мсек, за исключением области от —10

454

до +50 мсек., где шаг равнялся 5 мсек. Характеристики двух край­них стимулов показаны на рис. 174. В данном случае стимулы со­ответствуют слогу с гласным [а ] и переднеязычным взрывным со­гласным [d], [t], [th]. Аналогичным образом были синтезированы слоги с губным согласным.

На рис. 175 приведены результаты идентификации губных со­гласных группой из 12 слушателей-американцев (Lisker, Abram-

1

0 -10 9П

Z

2 (

774

3 (

4

18

4400-5000

16

3350-3840

74

25602930

12

19762230

Мннвнннвммвв •^ииииииииив—,

10

8 ~6~

4

, 0

1500-1705 1150-1305 871-990 609-727

70-190

j— 1 ( , |

-150 О +150 +300 +W 0 +150 +300 +Ь50 мсек.

Рис. 174. Схематическое изображение характеристик двух синтетических слогов, один из которых (слева) начинается со звонкого согласного, а дру­гой (справа) — с глухого аспирированного согласного (по: Abramson, 1967).

По оси абсцисс — «время начала голоса» в мсек, от условно принятой точки отсчета, соот­ветствующей моменту размыкания смычки согласного. По осям ординат: 1 — уровень интенсивности сигнала в дб, 2 — частота основного тона голоса (она сохраняется постоян­ной на протяжении сигнала и равна 114 гц), з — вид источника возбуждения (а — голо­совой, б — шумовой), 4 — частотный спектр сигнала; он определен таким образом, что в каждой из 18 полос (номер полосы и ее нижняя и верхняя границы в гц указаны в двух соответствующих столбцах в левой части рисунка) энергия сигнала имеет максимальное значение в областях, отмеченных черным, и минимальное — вне этих областей.

son, 1967). Столбиками показаны значения по данному параметру естественных [Ь ] и [р 1 в английском языке.

На рис. 176 приведены функции различения, полученные на группе слушателей-американцев (Lisker, Abramson, 1967). При определении функции различения испытуемым предъявлялись 6 возможных триад: х,, xi+k, х<; х., xi+k, xi+k, xv xv xi+k, xi+k, xi+k, x.; xi+k, xv xi+k; xi+k, x^ xr (K = 2, 3, 4). Задача испытуемого состо­яла в определении того, какой (первый, второй или третий) стимул в триаде отличается от двух остальных. Вероятность случайного отгадывания в этом случае pai на 0.33. Сравнение рис. 175 и 176

455

Рис. 175. Функции идентификации для синтетических слогов, упорядочен- ных по параметру «время начала голоса», полученные на группе слушателей- американцев (по: Lisker, Abramson, 1967).

По оси абсцисс — «время начала голоса» в мсек.: по оси ординат — процент опознавания [Ь] (пунктирная кривая) и [р] (сплошная кривая). Соответственно пунктирными и чер­ными столбиками показаны гистограммы, полученные при измерении «времени начала голоса» в естественных [Ы и [р] в слогах СГ, находящихся в начале слова.

Рис. 176. Функция различения синтетических слогов, упорядочен­ных по параметру «время начала голоса», полученная на группе слушателей-американцев (по: Abramson, Lisker, 1967).

Данные для триад, образованных из xi и Xi+2 стимулов (сплошная линия), из Х{ и Xi+3 стимулов (прерывистая) и из. Xi и х^ стимулов (пунктирная). По оси абсцисс — среднее значение «времени начала голоса» в мсек, для х2 и Xi+j стимула (/ = 2, 3, 4); по оси ординат — количество правильных отве­тов в процентах. Вертикальной линией показано положение фонемной гра­ницы между [Ь] и [р], определенное в опытах по идентификации.

Рис. 177. Функции идентификации для синтетических слогов, упорядочен- ных по параметру «время начала голоса», полученные на группе слушателей- таиландцев (по: Lisker, Abramson, 1967).

По оси абсцисс — «время начала голоса» в мсек.; по оси ординат — процент опознаний [Ъ] (пунктирная кривая), [р] (сплошная кривая) и [ph] (прерывистая кривая)* Соответственно пунктирными, сплошными и прерывистыми столбиками показаны гистограммы, полу- ченные при измерении «времени начала голоса» в естественных [Ъ], [р] и [pj в слогах СГ, находящихся в начале слова.

Рис. 178. Функция различения синтетических слогов, упорядо­ченных по параметру «время начала голоса», полученная на группе слушателей-таиландцев (по: Abramson, Lisker, 1967).

Данные для триад, образованных из и х^+2 стимулов (сплошная линия), из Xi и Xi+3 стимулов (прерывистая) и из Xi и х^ стимулов (пунктирная). По оси абсцисс — среднее значение «времени начала голоса» в мсек, для Х{ и х/+у стимула (j = 2, 3, 4); по оси ординат — количество правильных ответов в про­центах. Вертикальными линиями показаны положения фонемных границ между [Ь] и [р] (слева) и между [р] и [ph] (справа), определенные в опытах по идентификации.

показывает, что пик на функции различения совпадает с положе­нием границы между [Ь ] и [р] на функции идентификации.

Заключение о том, что человек пользуется фонемами в качестве описания стимулов, становится особенно убедительным благодаря несовпадению данных, полученных для носителей английского языка, с данными, полученными для носителей языка таи. В этом

Рис. 179. Функции идентифика­ции (нижний график) и разли­чения (верхний график) для син­тетических щелевых согласных (по: Fujisaki, Kawashima, 1968).

По оси абсцисс — значения частоты полюса в кгц, использованные при синтезе этих согласных; по оси орди­нат на верхнем графике — процент правильных ответов (АВХ различе­ния), на нижнем графике — процент опознания фонемы (s) кружки — дан­ные, полученные для синтетического слога СГ; крестики — данные, полу­ченные для изолированного синтети­ческого щелевого согласного.

Рис. 180. Характеристики ими- тации синтетических гласных (по: Ghistovich et al., 1966).

По оси абсцисс — номер синтетического гласного стимула; по оси ординат — значения частот в кгц первой и вто­рой формант гласных-стимулов (точки) и гласных-реакций (крестики). Частота форманты для гласных-реакций опре­делялась как среднее арифметическое из значений частоты форманты, из­меренных на спектрограммах 36 глас­ных-реакций, созданных в ответ на данный гласный-стимул.

языке имеются все три согласных, различающиеся по параметру «время начала голоса»: полностью звонкий согласный, глухой неаспирированный, глухой аспирированный. На рис. 177 и 178 приведены функции идентификации и различения для таиланд­цев. В данном случае на функции различения имеется два пика, близкие к положению границ между [Ь] и [р ] и [р] и [ph 1.

В работе Фужизаки и Кавашимы (Fujisaki, Kawashima, 1968) исследовалась идентификация и различение 11 синтетических глухих фрикативных согласных звуков. Частота полюса (резо-

458

панса) задавалась в пределах от 3000 до 7810 гц. Частота нуля (антирезонанса) была равна 1 /2 частоты полюса. Шумовой стимул предъявлялся или изолированно, или в СГ слоге с гласным [е ]. В экспериментах по различению использовался тот же метод (АВХ), что и в опытах Либермана и др. (Liberman et al., 1957) по восприятию места образования звонких смычных согласных.

Результаты идентификации стимулов группой из 6 испытуе­мых приведены на рис. 179, низ. Стимулы опознавались как фонемы [s ] или [J ]. Положение границы, судя по графику, не зависело от того, был ли согласный изолированным или предъявлялся в слоге. Функции различения приведены на рис. 179, верх. Можно видеть достаточно явно выраженный пик различения на границе между фонемами.

Все приведенные выше данные не только доказывают, что у человека имеется весьма ограниченный набор субъективных образов согласных, но и что этот набор, очевидно, совпадает с на­бором фонем, принимаемых лингвистами.

Гласные. Вопрос о субъективных фонетических образах гласных оказался значительно более сложным. Сравнение функций различения с функциями идентификации не позволило сделать определенных выводов, так как было показано, что человек способен различать большое число градаций стимулов (синтети­ческих гласных), относимых им к одной и той же фонемной ка­тегории (Fry et al., 1962; Stevens, 1966; Stevens et al., 1969). Этот результат можно было интерпретировать двояким образом. Одна возможная интерпретация состояла в том, что множество фонети­ческих образов гласных образует континуум. Воспринимая глас­ный стимул, человек определяет по нему, какую конфигурацию нужно придать своему речевому тракту для того, чтобы создать звук, наиболее близкий к услышанному. Параметры этой «наибо­лее подходящей» конфигурации запоминаются и используются в качестве фонетического описания гласного. Следует заметить, что эта точка зрения фактически разделяется большинством фо­нетистов, которые верят, что, прослушав гласный, они могут опре­делить его точное положение в так называемом треугольнике гласных, т. е. определить требуемую величину опускания нижней челюсти и положение по передне-задней оси точки максимального подъема спинки языка.

Другая возможная интерпретация состояла в том, что человек способен запоминать не только фонему (в данном случае следует говорить о психологических фонемах), выбранную в результате воздействия стимула, но и какую-то дополнительную информацию относительно спектральных свойств стимула. В естественных условиях эта информация может иметь отношение к опознанию индивидуальности диктора.

Для выбора между этими двумя гипотезами были предприняты эксперименты по имитации синтетических гласных (Chistovich,

459

Fant, Serpa-Leitao, Tjernlund, 1966). Параметры стимулов былй подобраны так, чтобы наилучшим образом отражать акустические свойства речевого тракта испытуемого, который должен был ими­тировать эти стимулы. Следовательно, все стимулы, которые предъ­являлись испытуемому, принципиально могли бы быть созданы

Рис. 181. Положение в двухформантной плоскости синтетических гласных, использованных в экспериментах по психологическому шкалированию (а), и субъективные расстояния между синтетическими гласными, обозначенными на а номерами I, 2, 11,12, и остальными гласными ряда (б) (по: Голузина 1971).

На а: по оси абсцисс — частота первой форманты, по оси ординат — частота второй. Номер около точки является номером стимула. На б: по оси абсцисс — положение глас­ного (ху) на кривой рис. а; по оси ординат — субъективное расстояние между этим глас­ным и гласным, номер которого (г) указан на каждом из четырех графиков. Сплошная и пунктирная кривые соответствуют разному порядку следования стимулов в паре (х/ху или хух/).

его речевым трактом как физической системой. Задача испытуе­мого состояла в том, чтобы с наибольшей возможной точностью воспроизвести услышанный звук. На каждый из гласных-стимулов было получено по 36 гласных-реакций.

На рис. 180 точками показаны значения частот двух первых формант синтетических гласных-стимулов; крестиками показаны средние значения частот формант гласных-реакций. Можно видеть, что на несколько соседних стимулов испытуемый отвечает одной и той же реакцией. Это значит, что испытуемому известен только

460

некоторый конечный набор гласных-реакций, каждой реакции соответствует определенная область (категория) на множестве стимулов.

Доказательство того, что, запоминая гласный, человек исполь­зует фонему в качестве описания этого гласного, было получено в экспериментах по прямому численному шкалированию субъек­тивного расстояния между гласными-стимулами, приведенными на рис. 180 (Голузина, 1971).

Фонемная идентификация этих стимулов группой русских слу­шателей показала, что стимулы 1—3 воспринимаются как [i ], стимулы 4—9 — как [е], стимулы 10—12 — как [а].

В опытах по шкалированию испытуемым предъявлялись 144 пары, образованные из 12 стимулов. На каждую пару было полу­чено по 50 ответов (оценок расстояния в баллах). За субъективное расстояние для данной пары принималось среднее арифметическое из этих 50 оценок.

На рис. 181, б приведена зависимость субъективного расстояния от расстояния между стимулами на двухформантной плоскости (положение стимулов в двухформантной плоскости показано на рис. 181, а).

Можно видеть, что зависимость имеет отчетливый ступенча­тый характер: субъективное расстояние резко возрастает при пе­реходе от одной фонемной категории к другой, оно мало меняется в пределах фонемной категории.

Это позволяет утверждать, что испытуемые пользуются фо­немами в качестве описания стимулов и что расстояния, которые они указывают, это расстояния между фонемами.

Однако такой ступенчатый характер зависимости ярко выражен лишь в том случае, если стимулы в оцениваемой паре принадлежат к разным фонемным категориям. Так, если один из стимулов в паре относится к категории [i] (графики для i = l и i = 2 на рис. 181), а другой к категории [е] или [а], субъективное расстояние для всех пар [i]— [е] (/=4, 5, ... 9) примерно одинаково и сущест­венно меньше, чем расстояние для пар [Г]—[а] (/=10, И, 12).

Другая картина наблюдается в том случае, когда оба стимула в паре относятся к одной и той же фонемной категории. На рис. 182 приведены зависимости, полученные для пар [е—е]. Можно видеть, что субъективное расстояние монотонно возрастает с увеличением физической разницы между стимулами. Этого не могло бы быть, если бы информация о гласном, полученная при его восприятии, ограничивалась фонемным символом. Необходимо допустить, что человек способен на какое-то время запомнить не только фонему, выбранную на основании услышанного стимула, но и какие-то особенности звучания сигнала; назовем это условно «тембральной информацией». Если два сравниваемые стимула ока­зываются разными фонемами, тембральная информация является избыточной и не принимается во внимание при оценке расстояния.

461

Естественно думать, что для запоминания фонемы требуется мень­ший объем оперативной памяти, чем для запоминания тембральных особенностей стимула. Кроме того, фонемное описание является более существенным с поведенческой точки зрения. Отсюда ло­

Рис. 182. Субъективные рас­стояния между гласными, принадлежащими к одной и той же фонемной категории (стимулы 4—9 на рис. 181, а).

(ио: Голузина, 1971).

По оси абсцисс — положение глас­ного (ху) на кривой рис. 181, а; по оси ординат — субъективное расстояние между стимулами хj и Xi. Каждая пара кривых (сплош­ная и прерывистая кривые) соот­ветствует набору пар стимулов с одним и тем же значением х/. Субъективное расстояние для пар стимулов с j > г отложено вверх от горизонтальной прямой, субъек­тивное расстояние для пар стиму­лов с j < г отложено вниз.

Рис. 183. Функции идентифика­ции (нижний график) и разли­чения (верхний график) синтети­ческих гласных (по: Fujisaki, Ка- washima, 1968).

По оси абсцисс — частота в гц первой форманты синтетического гласного (частота второй форманты изменяется в пределах от 2350 гц до 1840 гц, по­нижаясь с возрастанием F*); по оси ординат на верхнем графике показано количество правильных ответов (АВХ различения) в процентах, на нижнем графике — количество опознания глас­ного как [е] в процентах.

гично ожидать, что фонемное описание стимула должно запоми­наться лучше и на более длительный срок, чем тембральное опи­сание.

В работе Фужизаки и Кавашимы (Fujisaki, Kawashima, 1968) исследовалась идентификация и различение синтетических [i ] и [е ] гласных в условиях, когда после каждого стимула следовал дополнительный, мешающий звук ([а] длительностью 50 мсек.). Полученные результаты оказались весьма близкими к тем, ко- 462

торые ранее наблюдались для согласных. Из рис. 183 видно, что на функции различения имеется отчетливый пик, соответствующий границе между фонемами [i ] и [е ]. Различение стимулов, лежащих внутри фонемной категории, оказывается плохим.

Итак, полученные данные позволяют сделать вывод, что множе­ство фонетических образов гласных также является дискретным. По сравнению с согласными вопрос более сложен тем, что, во- первых, число психологических гласных фонем может не совпадать с числом лингвистических фонем и, во-вторых, человек способен на короткое время запоминать не только фонему, но и тембраль- ное описание.

Набор психологических фонем. Сам факт классификации речевых сигналов при их восприятии является экспериментально доказанным, вопрос о числе классов — психологических фонем пока остается открытым.

Несомненно, что число психологических фонем не может быть меньше числа фонем, принимаемых лингвистами. Однако вполне возможно предположить, что одной лингвистической фонеме со­ответствует группа из нескольких психологических фонем. Дело в том, что лингвист обычно стремится к тому, чтобы число фонем, принимаемых им для описания данного языка, было минимальным. Последовательно проводя эту точку зрения, представители мос­ковской фонетической школы предлагают считать русские [ы] и [i ] одной и той же фонемой. Так как [ы] и [i] не встречаются в одинаковом окружении, использование одного и того же символа для их описания не приводит к появлению неоднозначности со­общения. Вместе с тем не вызывает сомнения, что [ы ] и [i] от­носятся к разным психологическим фонемам — им соответствуют различные артикуляторные комплексы, избирательно связанные у русского человека с двумя разными категориями акустических стимулов и с разными буквами.

В работе Вербицкой (Вербицкая, 1965) и Бондарко и др. (Бондарко и др., 1966) была сделана попытка выяснить, сколько классов гласных различает в русской речи носитель русского языка.

Стимулами служили сегменты естественных гласных, выре­занные с помощью электронного ключа из различных русских слов и звукосочетаний. Испытуемым (50 человек) предлагалось записы­вать эти стимулы русскими или латинскими буквами с добавле­нием диакритических знаков в случае необходимости.

По характеру полученных ответов можно было совершенно надежно утверждать, что гласные между твердыми и между мяг­кими согласными относятся испытуемыми к разным звуковым типам. Исследование акустических особенностей гласных в по­ложении между мягкими согласными показало, что они касаются преимущественно второй форманты. Частота F2 даже в точке минимума оказывается существенно выше того значения, которое

463

она принимает в соответствующем гласном, произнесенном изоли­рованно или между твердыми согласными. Судя по данным, при­водимым авторами, эти различия в F % особенно четко проявляются для гласного [и] между мягкими и твердыми согласными (например, тюль и тут).

В упомянутой работе Бондарко и др. (1966) такой же метод был применен для исследования типов согласных, выделяемых рус­скими слушателями. Целью экспериментов являлось выяснение вопроса, не выделяются ли огубленные (произносимые в слогах с [о] и [и]) и неогубленные согласные (в слоге с [а]) в отдельные классы. Результаты опытов не дали положительного ответа. Вместе с тем они показали, что при парном сравнении человек легко различает эти согласные.

Субъективное пространство фонем. Рассмотрим, как можно описать фонему, принимая, что она обозначает, во-первых, не­которое подмножество речевых сигналов, обладающих заданными свойствами, и, во-вторых, указания к синтезу артикуляторного комплекса.

Один из возможных способов описания состоит в том, что каж­дая фонема представляется символом, и этот символ никак не свя­зан с остальными символами.

Другой способ состоит в том, что каждая фонема описывается перечислением ее значений по нескольким «дифференциальным» признакам; при этом число признаков существенно меньше числа фонем. Идея такого описания фонем принадлежит Трубецкому (1960), она была далее развита Якобсоном, Фантом и Халле (Ja- kobson et al., 1952).

Логичность таких представлений достаточно очевидна, если рассматривать фонему как указания к синтезу артикуляторного комплекса. Эти указания можно представить как набор элементар­ных инструкций относительно поведения разных органов (губ, языка, голосовых связок).

Идея об упорядоченности множества фонем, сформулирован­ная лингвистами, находит свое подтверждение и в собственно лингвистических закономерностях (позиционные и комбинатор­ные изменения звуков, исторические чередования и т. д.). Описа­ние этих закономерностей является более экономным, если пред­ставлять фонему не отдельным символом, а перечислением ее значений по дифференциальным признакам.

В ряде работ, выполненных за последние годы, были получены данные в пользу того, что человек действительно запоминает фо­нему в виде набора значений по ряду признаков.

Для того чтобы понять экспериментальные подходы к этой проблеме, рассмотрим, к каким следствиям логически приводит переход от описания фонемы с помощью символа к описанию ее набором значений по признакам,

464

Примем для простоты, что признаки двоичны (это допущение делается Якобсоном и др.). Придав каждому признаку определен­ный порядковый номер, любой русский согласный звук можно тогда представить кодовой последовательностью из п двоичных чисел (нулей или единиц), где п — число признаков.

При этом появляется возможность сравнения разных согласных между собой и определения расстояния между ними. Это значит, что множество фонем можно рассматривать как пространство.

Расстояние между двумя согласными можно определить, на­пример, как число признаков, по которым эти согласные имеют разные значения.

Пользуясь описанием русских согласных в терминах дифферен­циальных признаков Якобсона и др. (см.: Halle, 1959), легко построить матрицу расстояний между всеми согласными.

Если теперь экспериментально определить у русских испытуе­мых матрицу субъективных расстояний между согласными, можно сравнить эти две матрицы. Если они окажутся близкими, это бу­дет свидетельствовать в пользу дифференциальных признаков, выбранных Халле.

Один из методов экспериментального определения матрицы расстояний состоит в том, что испытуемым предлагается прямо в баллах указать расстояние для каждой пары фонем (согласные и гласные рассматриваются отдельно).

Для перехода от полученной совокупности ответов к числен­ной оценке расстояния используются методы, разработанные тео­рией психологического шкалирования (Torgerson, 1958).

Интересный метод, предложенный Викельгреном (Wickelgren, 1965, 1966), базируется на предположении, что при случайных искажениях кодовой последовательности, возникающих, например, при ее хранении в памяти, она чаще всего будет переходить в те последовательности, которые к ней наиболее близки. Метод со­стоит в следующем: испытуемым предлагается прослушать серию из нескольких звукосочетаний и затем по памяти их воспроизвести или записать. В результате многократного повторения таких экспериментов строится матрица ошибок, отражающая вероят­ности замены каждой данной фонемы на все другие фонемы.

При дальнейшем анализе данных предполагается, что вероят­ность замены одной фонемы на другую является монотонной убы­вающей функцией от расстояния между фонемами.

Экспериментальные данные, полученные для ряда языков (Pe­ters, 1963; Wickelgren, 1965, 1966; Галунов, 1967; Hanson, 1967; Kasuyaet al., 1968), показали, что для каждой^ фонемы действи­тельно существует «окрестность» наиболее близких к ней фонем.

На основании полученной матрицы расстояний обычно стро­ится соответствующая ей геометрическая модель, которая трак­туется как модель субъективного пространства фонем.

3() Сенсорные системы

465

Модель субъективного пространства японских гласных (Ка- suya et al., 1968) приведена на рис. 184. Эта модель является трех­мерной, ее оси ах, «2, рассматриваются как субъективные па­

раметры гласных.

Необходимо обратить внимание на то, что непосредственным результатом эксперимента является матрица расстояний; модель,

построенная на осно- вании этой матрицы, является определен- ной и достаточно спе- цифической трактов- кой результатов экс- перимента. Специфич- ность этой трактовки состоит в том, что априорно, без каких- либо доказательств, принимаются два весьма существенных допущения: 1) каж-

Рис. 184. Модель субъ- ективного пространства японских гласных (Ка- suy а et al., 1968).

Четыре верхних графика

построены по данным от- дельных испытуемых, ниж- ний график построен по средним данным. аи а2, а3 оси субъективного про- странства. Точкой показано положение гласных [и], [о], [а], [е], [i] в субъективном пространстве; конец верти- кали, опущенной из точки, указывает ее проекцию на аГ, а2-п лоск ость.

дый из параметров (осей пространства) является непрерывным; 2) на пространстве действует евклидова метрика.

Первое из этих допущений находится в очевидном противоречии с экспериментально доказанным фактом, что множество фонем не только конечно, но и достаточно мало.

Поэтому научная ценность геометрических моделей простран­ства фонем пока что вызывает сомнения. Одной из наиболее суще­ственных теоретических задач в этой области является разработка моделей с дискретной метрикой.

Высота, громкость и длительность как субъективные при­знаки речевого стимула, Не может быть сомнений в том, что ре- 466

Iпение об ударении и интонаций основывается па результатах срав­нения двух или более гласных (слогов) по длительности, громкости и высоте. Это заставляет предполагать, что для каждого отдель­ного слога длительность, громкость и высота запоминаются в форме чисел или значений по некоторым непрерывным шкалам. Это со-

Рис. 185. Характеристики имитации высоты сигнала (по: Чистович и др., 1968).

а — зависимость между средним значением частоты основного тона звуков-реакций (по оси ординат) и частотой стимула (по оси абсцисс)', б — стандартное отклонение значений частоты основного тона звуков-реакций (по оси ординат) как функция от частоты имитируемого стимула; в — суммарная гистограмма значений частоты основного тона для всех звуков-реакций, полученных в эксперименте. По оси ординат — частота основ­ного тона, по оси абсцисс — число случаев.

ответствует представлениям классической психоакустики о суще­ствовании у человека непрерывных субъективных шкал для этих параметров.

Исследования характеристик имитации высоты, громкости и длительности подтвердили правильность этих представлений.

В опытах по имитации изучалась зависимость значения звука-реакции по определенному физическому параметру (ос­новная частота, уровень интенсивности, длительность) от зпаче- пия звука-стимула по тому же параметру.

На рис. 185 приведены характеристики имитации высоты, полученные в экспериментах Люблинской (Чистович и др., 1968). На графике а показана зависимость между частотой стимула и

467

30*

средней частотой реакций, вызванных этим стимулом. Можно ви­деть, что эта зависимость является монотонной. На графике б показано стандартное отклонение реакций как функция от ча­стоты стимула. Видно, что зависимость от частоты стимула выра­жена слабо. График в демонстрирует суммарную гистограмму всех полученных в эксперименте реакций. Можно видеть, что число пиков на гистограмме равно числу стимулов, значения пиков совпадают со средним значением реакции на соответствующие сти­мулы. Такая картина может наблюдаться в том случае, если мно­жество реакций является непрерывным или если число дискрет­ных реакций существенно больше числа стимулов и эти реакции образуют одномерный ряд. В обоих случаях зависимость реакции от стимула можно аппроксимировать с помощью монотонной не­прерывной функции.

При исследовании непрерывных преобразований прежде всего встает вопрос о том, имеется ли постоянная и однозначная связь между физическими свойствами сигнала и его описаниями в нерв­ной системе или же характер этой связи меняется в зависимости от задачи, которую решает человек, и от особенностей всего ан­самбля сигналов, с которым он имеет дело в каждом конкретном случае.

Эксперименты показали, что при требовании имитировать вы­соту звуков, частота которых лежит в пределах диапазона голоса, большинство испытуемых создает с относительно малыми случай­ными отклонениями звуки с той же основной частотой, что и частота предъявляемых стимулов (Люблинская, 1968). Поведение испытуемых не изменяется при изменении ансамбля сигналов, предъявляемых в опыте. Факт сохранения во всех случаях связи «один к одному» между частотами стимулов и реакций заставляет считать, что в описании стимула сохраняется информация об аб­солютном значении частоты.

Иная картина была обнаружена в опытах по имитации высоты «немузыкальными» испытуемыми (Люблинская, 1968) и в опытах по имитации громкости звука (Малинникова, 1968). Рис. 186 по­казывает результаты имитации громкости сигналов в условиях, когда весь диапазон интенсивностей сигналов составляет 40 и 8 дб. Можно видеть, что в случае узкого диапазона стимулов на­клон прямой, описывающей связь между стимулом и реакцией, существенно возрастает. То же явление наблюдалось и в опытах по имитации высоты «немузыкальными» испытуемыми.

Увеличение наклона прямой, возникающее при сужении диа­пазона предъявляемых стимулов, соответствует увеличению рас­стояния между изображениями сигналов и, следовательно, по­вышает их различимость. Зная величину наклона и дисперсию случайных отклонений, имеющих место при преобразовании; можно рассчитать ожидаемую различимость стимулов. Оказалось, что теоретически рассчитанная различимость хорошо совпадает

468

с различимостью, Экспериментально определенной в опытах по субъективному сравнению громкостей сигналов (Малинникова, 1968). В опытах по субъективному сравнению использовались те же два ансамбля сигналов (с диапазонами 40 и 8 дб), что и в опы­тах по имитации. Совпадение результатов этих двух опытов го­ворит о том, что изменение наклона осуществляется на этапе пре­образования стимула в его субъективный образ, а не на этапе пре­вращения образа в двигательную артикуляторную реакцию. При постоянстве ансамбля стимулов уменьшение наклона кривой наблюдалось для всех трех параметров (высота, громкость, дли­

тельность) в условиях, описы- ваемых как рассеивание внима- ния. Конкретно условия состо- яли в том, что испытуемому

Рис. 186. Характеристики имитации громкости щелевого согласного (Ма- линникова, 1968).

По оси абсцисс — интенсивность в дб от условного уровня имитируемого стимула; по оси ординат — среднее значение ин- тенсивности звуков-реакций. Точки — ре- зультаты имитации набора стимулов, рас- положенных в узком диапазоне уровней интенсивности; крестики — результаты имитации набора стимулов, расположен- ных в широком диапазоне уровней ин- тенсивности.

нужно было одновременно имитировать не один, а все три пара­метра стимула (Федорова, 1968).

Уменьшение наклона прямой, аппроксимирующей зависимость длительности гласного-реакции от гласного-стимула, наблюда­лось также на больных с диагнозом сенсорной афазии. Существенно, что больные с диагнозом моторной афазии обнаруживали характер­ную для здоровых людей зависимость (Авакян, 1968).

Факт изменения наклона означает, что между сигналом и его описанием в нервной системе по данному параметру нет однознач­ного соответствия. По значению описания нельзя восстановить абсолютных значений стимула. Однако порядок расположения стимулов по физической шкале несомненно сохраняется в описании, сохраняются и относительные величины разностей между стиму­лами в последовательности. Это следует из того, что для всех трех исследованных параметров оказалась возможной линейная аппроксимация: R—a-\-bs, где R — значение реакции по данному параметру, s — значение стимула. Для частоты и длительности используется линейный масштаб (герцы и секунды), для интен­сивности — логарифмический (децибелы).

Для распознавания просодических характеристик сообщения (т. е. ударений, интонации) несомненно существенны только от­

469

носительные различия частоты, длительности и интенсивности звуков в последовательности. Абсолютные значения флюктуируют чрезвычайно сильно и зависят от множества факторов, не имею­щих какого-либо отношения к содержанию сообщения (инди­видуальные особенности диктора, темп его речи, акустические условия помещения и т. д.).

Приведенные данные показывают, что для описания речевого сигнала по высоте, громкости и длительности используются прин­ципиально другие преобразования, чем для параллельного опи­сания этого сигнала в терминах фонем.

СЛУХОВОЕ ОПИСАНИЕ РЕЧЕВОГО СИГНАЛА

Исследование связи между акустическими призна­ками сигнала и фонемами. В разделе «Фонемный образ речевого сигнала» были приведены экспериментальные доказательства того, что фонемы действительно являются субъек­тивными образами речевых стимулов. Запомнив фонему, человек тем самым запоминает не данный конкретный звуковой сигнал, а категорию сигналов, к которой он принадлежит. Число таких возможных категорий — психологических фонем — весьма ог­раниченно и, вероятно, лишь немногим превышает число фонем, принимаемых лингвистами.

Как известно, важнейшей задачей психоакустики является установление зависимости (связи) между описанием сигнала с помощью физических (математических) методов и описанием сигнала человеческим мозгом (субъективное описание). В исследо­ванных психоакустикой случаях эту зависимость можно было считать непрерывной (частота — высота, уровень интенсивно­сти — громкость).

Совершенно иначе обстоит дело, когда требуется указать связь между физическим описанием речевого сигнала и фонемой. Из­менение сигнала не приводит к изменению его субъективной ин­терпретации до тех пор, пока сигнал не выйдет за пределы данной фонемной категории. Как только это произойдет, интерпретация изменится скачком.

Вопрос о том, каким образом можно указывать связь между описанием сигнала по ряду физических параметров и обозначе­ниями классов сигналов, рассматривается в теории распознавания образов (см. обзор: Загоруйко, 1966).

Обычно это делается с помощью задания линейных решающих функций вида

и = d1X1 ^2^2 + • • • + ^пхп +

где xv. . . . хп значения описания сигнала по п параметрам, d0, dv . . dn — постоянные коэффициенты.

470

При U > 0 сигнал считается принадлежащим к одному классу, при U <0 — к другому.

При U=0 нет оснований Предпочесть один или другой класс; множество сигналов, для которых £7—0, соответствует границе между двумя классами. Эта граница представляет собой гипер­плоскость в пространстве физических параметров сигналов, Естественно использовать такой же подход для описания связи между физическими параметрами стимулов и фонемами как субъ­ективными описаниями стимулов. Для этого необходимо экспе­риментально определить границы между всеми возможными фо­немными категориями и аппроксимировать их с помощью соот­ветствующих решающих функций.

В простейшем случае, когда различение двух фонем базируется на одном единственном физическом параметре сигнала (xj), решающее правило приобретает вид:

выбери фонему А, если x±<^d,

выбери фонему В, если x%>d, d представляет собой фонемную границу; в эксперименту по фонем­ной идентификации она определяется как такое значение стимула по параметру xv при котором фонемы А и В выбираются с равной вероятностью.

Быстрым методом определения положения фонемной границы является метод активного поиска (Chistovich, Fant, Serpa-Leitao, 1966; Чистович, 1968). Испытуемый сам управляет синтезатором речеподобных стимулов, изменяя значения сигнала по одному или нескольким связанным параметрам. Испытуемый ищет такое значение параметра, при котором происходит смена одной фонемы на другую. Для одного определения границы испытуемому тре­буется прослушать 30—50 стимулов, на что уходит 1—2 мин. Определения границы повторяются несколько раз. Результатом эксперимента являются среднее положение границы и стандарт­ное отклонение.

Проблема выбора адекватного описания речевого сигнала. Исследование связи между физическими признаками речевого сигнала и фонемами не представляло бы большого труда, если бы сами физические признаки были четко определены. Однако набор признаков, которые кажется возможным применить для описания речевого сигнала, чрезвычайно широк.

Вопрос о том, какие из признаков являются удачными, а какие нет, нельзя решить исходя из чисто теоретических соображений. История развития исследований по проблеме автоматического рас­познавания речи показала, что выбор системы признаков, т, е, фор­мы описания сигнала, является наиболее сложной и пока что нерешенной задачей.

В настоящее время большинство исследователей согласны с тем, что выбираемая система физических признаков должна

471

максимально приближаться к системе признаков, используемых слуховой системой для описания речевого сигнала.

Это практически означает, что основной задачей изучения вос­приятия речи становится выяснение способов слухового описания речевого стимула.

Казалось бы, на этот вопрос должна отвечать физиология слуха и психоакустика. Однако реально данные этих областей исследования позволяют пока только несколько ограничить

Рис. 187. Предполагаемая последовательность обработки инфор- мации при восприятии речевого сигнала.

I — этап преобразования звуковых сигналов в пространственно-времен­ной рисунок импульсации в слуховом нерве; II — этап выделения призна­ков речевого сигнала; III — этап измерения свойств выделенных призна­ков; IV — этап фонетической интерпретации признаков. 1 — механизмы внутреннего уха; 2 — механизмы выделения основных признаков речевого сигнала; 3 — механизмы членения непрерывного речевого сигнала; 4 — механизмы измерения свойств выделенных признаков; 5 — механизмы выбора фонем; 6 — звуковой речевой сигнал; 7 — импульсация в слуховом нерве, организованная по пространственно-временному принципу; 8 — выделенные признаки речевого сигнала; 9 — сигналы членения речевой потока, управляющие механизмами измерения свойств признаков; 10 — результаты измерения свойств признаков; 11 — выбираемые фонемы с приписанными им вероятностями.

область предварительных гипотез о возможных способах слухо­вого описания сигнала. Дополнительные ограничения наклады­ваются имеющимися сведениями об акустике речи и накоплен­ным опытом по автоматическому распознаванию.

Первая, насколько нам известно, попытка представителей этих различных областей исследования совместно сформулировать достаточно развернутую гипотезу о слуховой обработке речевых сигналов была предпринята группой советских специалистов (Бондарко и др., 1968).

Было сделано предположение, что слуховая система представ­ляет собой специализированное устройство для анализа сложных нестационарных сигналов типа речевых, использующее ряд па­раллельных нейронных обнаружителей признаков. Последова­тельность предполагаемых этапов анализа показаца на рис. 187,

472

На первом этапе анализа сигнал преобразуется в пространст­венно-временной рисунок импульсации в слуховом нерве. На вто­ром этапе анализа происходит выделение определенных признаков этого рисунка.

В случае периодического сигнала (гласные, звонкие соглас­ные) временной рисунок импульсации должен характеризоваться пиками плотности импульсации, следующими с частотой основ­ного тона. В случае шумового сигнала интервалы времени между соседними нервными импульсами должны случайно флюктуиро­вать. Постулируется наличие нейронных схем, избирательно реагирующих на периодическую и «случайную» импульсацию, а также схем, выходные сигналы которых отражают частоту (период) основного тона. Предполагается, что эти схемы мало­инерционны и их выходные сигналы отражают «мгновенные» (усредненные за достаточно короткие отрезки времени) значения речевого сигнала.

Пространственный рисунок плотности импульсации должен в случае речевых сигналов характеризоваться одним или несколь­кими максимумами. Предполагается существование нейронных схем (схемы латерального торможения), выходные сигналы ко­торых отражают положение этих максимумов по оси частот (проек­ции улитки). Эти схемы также не должны быть слишком инер­ционными.

Постулируется также текущее измерение суммарной (за ко­роткие интервалы времени) импульсации и наличие специальных схем, вырабатывающих «сигналы членения», отвечающих в мо­менты резкого изменения пространственного рисунка распреде­ления импульсации.

Сигналы, отражающие частоту основного тона, частотное положение максимумов, интенсивность звука закономерно изме­няются во времени. Предполагается, что на следующем. этапе слуховой обработки информации производится выделение локаль­ных признаков этих функций времени. Вероятно, что к таким признакам относятся направление изменения кривой (знак про­изводной), скорость изменения (величина производной), значе­ние функции в некоторых особых точках, в частности в точке перегиба (в момент изменения знака производной).

Высказано предположение, что измерители этих признаков работают по принципу пиковых приборов с управлением от сиг­налов членения. Сигналы членения обеспечивают считывание и сброс данных с измерителей и передачу данных в оперативную память. В. таком случае переход к дискретному по времени посег- ментному описанию речевого потока логически предшествует фо­нетической интерпретации. При фонетической интерпретации используется последовательность из нескольких соседних сег­ментов.

473

Легко заметить, что предложенная схема является чисто функ­циональной. Выделяемые в ней уровни обработки информации являются логическими, они могут быть весьма сложно связанными с анатомическими уровнями слуховой системы.

Вопрос о том, может ли данная схема различать речевые сиг­налы, пока остается открытым. Создание действующей электрон­ной или математической модели, соответствующей этой гипотезе,

Л2 ^.З^.З^Лч

00010000100001001000

Рис. 188. Иллюстрация трех методов описания речевого сиг­нала, применяемых при автоматическом распознавании.

а — метод полной спектральной огибающей. Описанием сигнала яв­ляется энергия в частотной полосе (J) как функция от средней частоты полосы (/). б — полосный метод. Описанием сигнала является набор разностей уровней энергии (обозначены как jDb 2, . . ., D3t 4 и показаны черными вертикальными линиями) в нескольких фиксированных ши­роких частотных полосах г. . ., В4). Ширина белого столбика соот­ветствует ширине полосы, высота — значению энергии сигнала в этой полосе, в — формантный метод. Описанием сигнала является указание положения по шкале частот (Г) максимумов (Ft, . . ., F.t) на спектраль­ной огибающей сигнала; в строке нулей и единиц условно обозначены результаты автоматического обнаружения частотных максимумов (указаны единицами). Остальные объяснения в тексте.

требует задания многочисленных параметров, определение ко­торых потребует большой экспериментальной работы.

Слуховое описание стационарного речевого сигнала со слож­ным спектром. В настоящее время существует три основных гипо­тезы о слуховом описании стационарных сигналов со сложным спектром. Они нашли отражение в соответствующих трех методах, применяемых при автоматическом распознавании речи: метод полной спектральной огибающей, полосный метод и формантный метод.

Схемы, приведенные на рис. 188, иллюстрируют различия между этими методами. Начальные преобразования сигнала во всех трех случаях аналогичны — сигнал поступает на гре­бенку фильтров, на выходе которых стоят квадратичные детекторы

474

и интеграторы (сглаживающие цепочки). Таким образом, описа­нием сигнала, получаемым в результате этой первичной обработки, является значение энергии в частотной полосе как функция от средней частоты полосы (номера фильтра). Если гребенка со­стоит из 50 фильтров, то любой стационарный сигнал представ­ляется 50-мерным вектором, т. е. набором из 50 чисел.

Метод полной спектральной огибающей принимает, что столь же подробно описываются и эталоны, например образы идеальных гласных, сохраняемые в памяти устройства. Если число фильтров равно 50, то каждый гласный-эталон также будет представлен 50-мерным вектором. Процедура распознавания со­стоит в том, что описание входного сигнала сравнивается с опи­санием эталонов; выбирается тот эталон, который окажется наи­более близким.

И полосный, и формантный методы предполагают дополни­тельную обработку результатов начального преобразования, по­зволяющую существенно упростить и сократить описание.

При полосном методе (Варшавский, 1964) сокращение опи­сания достигается за счет того, что предварительные фильтры объединяются в группы (полосы) — В В2, В3, В± на рис. 188; суммарная энергия на выходе одной такой полосы сравнивается с энергией на выходе другой полосы. Разность уровней энергии для нескольких из таких пар полос (ZJ-ц 2; Dr 3; D2 3; Z>2 4; D3 4 на рис. 188) является описанием входного сигнала.

Сокращение описания при формантном методе достигается за счет Того, что тем или иным способом определяются частотные положения максимумов на кривой, характеризующей отклик на сигнал гребенки предварительных фильтров. Один из простейших методов состоит в том, что энергия на выходе каждого из фильтров гребенки сравнивается с суммой энергий на выходе ближайших справа и слева фильтров. Если энергия среднего фильтра превы­шает половину суммарной энергии соседей, индицируется нали­чие максимума.

В результате такого преобразования сигнал может быть опи­сан в простом «пространственном» коде, соответствующем п-раз- рядному двоичному числу (п равно числу предварительных фильт­ров); 1 — обозначает наличие максимума, 0 — его отсутствие. Это показано внизу рис. 188. Другая возможность состоит в том, что максимумам приписываются их порядковые номера и для каждого из них указывается его положение по шкале частот (рис. 188, в). Такое описание может совпадать с широко распро­страненным описанием сигнала в терминах частот его формант.

Существенное преимущество двух последних методов по срав­нению с первым состоит не только в том, что описание является более экономным, но и что выделяемые признаки позволяют использовать весьма простые правила разделения гласных на

475

группы. На рис. 189 приведены средние спектры шести русских гласных (Варшавский и Чистович, 1959). Можно видеть, что с по­мощью как полосного, так и формантного метода их можно прежде всего разделить на две группы ([u], [oj, [а] и [i], [е], [ы]). Для разделения внутри этих групп можно воспользоваться осо­бенностями спектра в области до 1000 гц.

Рис. 189. Средние огибающие спектров шести русских гласных [и], [оJ, [а], [е], [ы], [i], произнесенных 40 дик­торами (20 мужчинами и 20 женщинами) в словах «тупо», «тока», «хата», «цеха», «тыкать» и «пики» (по: Варшавский, Чистович, 1959).

По оси абсцисс — частота в кгц; по оси ординат — нормированный уровень энергии в дб.

Преимуществом формантного метода перед двумя остальными является то, что он мало чувствителен к искажениям энергети­ческих отношений в спектре сигнала при условии, конечно, что эти искажения не настолько велики, чтобы какой-то из спектраль­ных максимумов вообще перестал обнаруживаться.

Результаты ряда экспериментальных работ по исследованию восприятия синтетических речевых стимулов позволяют думать, что из трех перечисленных методов наиболее вероятным является формантный (описание в терминах спектральных максимумов).

В работе Мушникова и Чистович (1971а) определялось, за­висит ли фонемная граница между [i] и [е] по частоте первой форманты от частоты и уровня интенсивности второй фор­манты. Зависимость могла отсутствовать, если для описания гласного применяется формантный или полосный метод; она обязательно должна была иметь место, если используется метод

476

полной спектральной огибающей (средние спектры [i] и [ej на рис. 189 отличаются друг от друга не только в низкочастотной, но и в высокочастотной области). Экспериментальные данные показали отсутствие зависимости. Граница между [i] и [е] в двухформантной плоскости оказалась представленной прямой, параллельной оси F2 (рис. 190). На рис. 191 приведены данные нескольких других работ, в которых были получены значения фонемной границы между [i] и [е]. В этих работах группе испы­туемых предъявлялся набор стимулов, соответствующий одной из траекторий в пространстве F2, определялась фонемная иден­тификация гласного (Janota, 1967; Fujisaki, Kawashima, 1968; Stevens et al., 1969; Голузина, 1969). Из рис. 191 следует, что зна­чение границы по Fj оказалось очень близким при самых раз­личных траекториях. Любопытно также, что языковая принад­лежность испытуемых как будто бы не имеет значения, т. е. гра­ница оказывается универсальной.

В работе Линдквиста и Паули (Lindqvist, Pauli, 1968) было показано, что отношения между амплитудой первой форманты, с одной стороны, и амплитудами второй и третьей формант — с другой, не имеют значения и для различения гласных [й], fy], [i].

Стимулы с постоянным значением Fr и переменным значением \JF2, F3 (F3jF2 = const) были сначала синтезированы с нормальными для речевого тракта амплитудными отношениями. Затем с помощью фильтров первая форманта была или подавлена, или усилена на 12.5 дб по сравнению с нормой. Функции идентификации, полученные в этих двух условиях, оказались совпадающими.

Приведенные данные показывают, что для различения двух гласных фонем используется не весь спектр сигнала, а только при­знаки определенных участков спектра. Для различения [i] и [е] используются признаки низкочастотной области спектра, для различения [й], [у], [i] — признаки спектра в области частот примерно 1600—3000 гц.

Данные о том, что признаком является спектральный максимум (его частотное положение), были получены в других работах.

Шуплякову (Шупляков, 1966, 1968) удалось доказать, что че­ловек измеряет значение частоты первого спектрального максимума в естественных и синтетических щелевых согласных [s] и [j*]. Этот максимум указан стрелкой на рис. 192, изображающем спек­тры естественных [s] и [J]; он соответствует второй форманте речевого тракта.

Оказалось, что частота максимума несет двоякую информацию: она определяет музыкальную высоту звука и позволяет различить твердые и мягкие согласные. Доказательством того, что в данном случае измеряется именно частота спектрального максимума, а не разность уровней энергии в паре соседних частотных полос, является следующее: изменение амплитуды максимума не имеет

477

Рис. 190. Положение гра- ницы между [i] и [е] в фор- мантной Fx-, /’2~плоскости (по: Мушников, Чистович, 1971а).

Точки — средние значения гра- ницы по данным трех русских испытуемых. Измерения произ- водились методом активного поиска. Установка частоты F2 осуществлялась эксперимента- тором; испытуемый управлял частотой Ft.

значения, пока он выше порога обнаружения; положение фонем- ной границы между твердыми и мягкими согласными по частоте максимума одинаково для [s] и [J] , форма спектра которых в остальном резко различна, причем не только вдали от максимума, но и в непосредственной близости от него.

В работе Мушникова и Чистович (Мушников и Чистович, 19716) исследовалось различение звуков типа [и], [о] и [i], [е]. На основании средних спектров, приведенных на рис. 189, можно

предложить два разных способа раз- личения этих фонем. Одно состоит в том, что [i], [е] выбираются тогда, когда у сигнала есть спектральный максимум в области 1200—2400 гц; для выбора [и], [о] необходимо отсутствие максимума в этой области. Другой спо- соб, предлагаемый полосным методом, основан на сравнении энергии в этой области спектра с энергией в нижней полосе частот.

В работе применялись двухформант- ные синтетические гласные с фикси- рованной по уровню и частоте пер- вой формантой. При разных значениях Fг определялась минимальная ампли- туда второй форманты, при которой гласный начинает звучать как [i] или [е]. Полученные результаты показали, что фонемная граница соответствует по- рогу обнаружения спектрального мак- симума.

Исходя из гипотезы спектраль- ных максимумов следует ожидать, что человек может обнаружить ис- ключение из спектра гласного толь-

ко тех гармоник, которые лежат вблизи формантных ча­стот. Именно эти гармоники определяют наличие макси­мума и его положение по частоте. Кроме того, если частотное

положение спектральных максимумов является полезным при­знаком для распознавания фонем, логично ожидать, что удов­летворительная фонемная разборчивость может быть достиг­нута при аппроксимации гласного комплексом, состоящим из очень малого числа гармоник, частоты которых соответствуют частотам формант.

Эти эффекты были экспериментально исследованы в работе Хирато и др. (Hirato et al., 1968).

В одной из серий экспериментов испытуемые сравнивали стандартный четырехформантный гласный звук [а], значе-

478

пия амплитуд 32 гармоник которого показаны точками, соеди- ненными жирной кривой на рис. 193, с переменным сигналом.

Переменный сигнал представлял со- бой тот же самый гласный с той разницей, что амплитуда одной из его гармоник была уменьшена. Определялось, на сколько децибел нужно уменьшить амплитуду гар- моники для того, чтобы испытуе- мый обнаружил различие в звуча- нии между стандартным и пере- менным сигналами. Такие измерения 2000- проводились почти для всех гар- моник гласного. Минимальное за- мечаемое уменьшение амплитуды

Рис. 191. Положение границы между [i] и [е] в Fr-, У2-плоскости у испытуемых с разной языковой принадлежностью.

I | I - ' -

300 ООО 500 гц

По оси абсцисс — частота первой форманты F,; по оси ординат — частота второй фор манты F2. Вертикальной прямой показаны данные рис. 190 (Мушииков, Чистович, 1971а), полученные методом активного поиска. Остальные данные получены методом фонемной идентификации. Точкой указано то значение Fn F2, при котором [i] и Le] идентифици­руются в равном числе случаев. 1 — испытуемые чехи (Janota, 1967), 2 — испытуемые японцы (Fujisaki, Kawasliima, 1968), две точки соответствуют двум сериям измерений, проведенным с разного типа синтезаторами; з — испытуемые шведы и испытуемые амери­канцы (Stevens et al., 1969); 4 — испытуемые русские (Голузина, 1971).

L-J I I I I I I I 1.1 1 1111 1 1 L—I 1 1 1 I L—1—1....L—1_ 1 L.J. l)

0.6 1 2 5 10 20кги,

Рис. 192. Спектры естественных изолированно произнесенных согласных [s] и [J]. (По: Шупляков, 1966).

По горизонтали — частота колебаний в кгц; по вертикали — относительная интенсив­ность. Точкой указан спектральный максимум, соответствующий второй форманте.

479

гармоййкй принималось за дифференциальный порог. Данные, полученные для двух испытуемых, приведены на рис. 193 (ниж­няя кривая). Крестиками показаны те гармоники, где дифферен­циального порога вообще не удалось определить, т. е. гармонику можно было полностью исключить, и испытуемый этого не об­наруживал. Можно видеть, что к этой категории относятся все

Рис. 193. Огибающая спектра стандартного гласного [а] (кривая а) и результаты измерения дифференциального порога по интенсивности (кривая б) для отдельных гармо- ник в этом спектре (по: Hirato et al., 1968).

По горизонтальной оси — частота в кгц; по вертикальной оси справа показан относительный уровень гармоник в спектре стандартного гласного [а], слева показано, на сколько дб должна быть умень­шена амплитуда гармоники для того, чтобы звук отличался по зву­чанию от стандарта. Кружки — среднее, по данным двух испытуе­мых, минимальное уменьшение уровня гармоники; треугольники — минимальное уменьшение уровня гармоники, обнаруживаемое одним из испытуемых, второй испытуемый вообще не обнаруживает факта исключения данной гармоники! из спектра* гласного; кре­стики — оба испытуемых не обнаруживают факта исключения данной гармоники из спектра гласного.

гармоники высокочастотной области спектра гласного, за исклю­чением гармоник на частотах формант. Низкий дифференциаль­ный порог наблюдается на гармониках, соответствующих час­тотам F2) F3i F±, а также второй гармонике гласного. В не­котором противоречии с формантной гипотезой находится то, что все гармоники в области ниже 500 гц являются обнаружи­ваемыми — дифференциальный порог на них возможно опреде­лить. Это будет обсуждаться дальше при рассмотрении вопроса о частотной избирательности системы, осуществляющей анализ гласного и выделение максимумов.

480

В другой серии опытов были синтезированы наборы упро­щенных гласных ([и], [о], [а], [е], [i]), содержащих различное число гармоник. Гармоники каждого гласного были упорядочены в ряд согласно убыванию их амплитуды. Увеличение числа гар­моник в упрощенном гласном осуществлялось путем добавления к уже использованным гармоникам следующей в ряду по ампли­туде. На рис. 194 показана зависимость разборчивости гласного от числа гармоник {верхняя часть рисунка) и приведены глас­ные с наименьшим числом гармоник, опознававшиеся с вероят-

Рис. 194. Разборчивость синтетического гласного ([a], [i], [и], [е]) в за­висимости от числа гармоник, присутствующих в его спектре {верхняя часть рисунка), и спектры гласных стимулов, содержащих наимень­шее число гармоник и распознававшихся с вероятностью, не меньшей 0.9 (нижняя часть) (по: Hirato et al., 1968).

На верхней части рисунка: по оси абсцисс — число гармоник в спектре гласного; по оси ординат — процент правильных опознаний. На нижней части рисунка кривыми показаны огибающие спектров стандартных гласных стимулов, содер­жащих все 32 гармоники: Гх, Г2, Fs, F, — частоты формант. Вертикальны ми столбиками показаны те гармоники, которые содержались в спектре максимально упрощенных стимулов.

ностью более 0.9. Можно видеть, что двух или трех гармоник оказывается уже достаточно.

Таким образом, в настоящее время уже можно принять без особого риска ошибиться, что слуховая обработка сигнала со сложным спектром включает какую-то процедуру, обеспе­чивающую выделение спектральных максимумов. Распространен­ное предположение состоит в том, что это достигается с помощью механизма латерального торможения.

Чрезвычайно существенной интегральной характеристикой системы, производящей выделение максимумов, является разре­шающая способность, т. е. минимальное расстояние по частоте между составляющими или пиками на спектре, при котором каждому из них соответствует свой максимум.

Прямые эксперименты для определения разрешающей спо­

31 Сенсорные системы 481

собности слуховой системы в указанном выше смысле слова были сделаны Пломпом (Plomp, 1964) и Пломпом и Мимценом (Plomp, Mimpen, 1968). Авторы пытались определить, какое расстояние между составляющими (равного уровня над порогом) в слож­ном звуке необходимо для их выделения при восприятии. С этой целью была применена методика опыта, схематически изобра­женная на рис. 195. Испытуемый, переключая ключ, мог пооче­редно слушать три сигнала. Один из них состоял из 12 гармоник (они представлены 12 вертикальными линиями среднего ряда), два других были чистыми тонами (они представлены вертикаль-

Рис. 195. Иллюстрация метода, использованного для определения различимости отдельных гармоник в сложном сигнале (по: Plomp, Mimpen, 1968).

Слева — условное изображение переключателя Источника звука. Остальные объяснения в тексте.

ными линиями, расположенными выше и ниже среднего ряда). Один чистый тон имел ту же частоту, что и одна из гармоник. Тон, показанный вверху на рис. 195, совпадает по частоте с чет­вертой гармоникой в сложном звуке. Второй чистый тон (внизу на рис. 195) находился по частоте на равном расстоянии между соседними гармониками (в данном случае между четвертой и пя­той гармониками). Испытуемому предлагалось выбрать то поло­жение ключа, при котором тон совпадает по частоте с гармони­кой. Если испытуемый справлялся с этой задачей, считалось, что он выделяет гармоники. Измерения проводились на 8 первых гармониках в диапазоне основных частот от 44 до 2000 гц. В ре­зультате была получена зависимость минимальной разности час­тот между составляющими, необходимой для их раздельного восприятия, от положения этих составляющих по оси частот. Она показана пунктирной кривой на рис. 196.

Полученная зависимость оказалась весьма близкой к из­вестной зависимости критической полосы от ее средней частоты (сплошная кривая на рис. 196). Из рис. 196 следует, что для вы­деления составляющих необходимо, чтобы разность их частот составляла примерно 20% от их средней частоты.

482

В применении к гласным это означает, что в области частот выше 1500 гц не только для мужских, но и для женских голосов гармоники уже не должны разделяться и спектральные макси­мумы должны определяться формантами. В области частот ниже 500 гц, напротив того, каждой гармонике и для женских и для мужских голосов может соответствовать самостоятельный

гц

Рис. 196. Минимальная разность частот между сосед- ними составляющими в сложном звуке (по оси ординат), необходимая для их выделения при восприятии, в зави- симости от их положения по шкале частот (по оси- абсцисс) (по: Plomp, Mimpen, 1968).

Кружки — экспериментальные данные; пунктирная кривая — аппроксимирующая зависимость; сплошная кривая — зависи- мость ширины критической полосы от центральной частоты, по данным Цвикера и др. (Zwicker et al., 1957).

спектральный максимум (если, конечно, амплитуда спектральной составляющей является достаточной).

На рис. 193 были приведены данные Хирато и др. (Hirato et al., 1968), позволяющие предполагать, что, действительно, испытуемые обнаруживали присутствие в спектре [а] всех пяти нижних гармоник, примерно одинаковых в данном случае по амплитуде.

31*

483

Если в области низких частот число спектральных мак­симумов, выделяемых слухом в гласном звуке, может оказаться больше числа формант, для высокочастотной части спектра можно ожидать обратной картины — представления двух близко распо­ложенных формант одним спектральным максимумом. Данные о критическом расстоянии между формантами были получены в работе Фуджимуры (Fujimura, 1967). Фуджимура исследовал

6

восприятие шведскими слуша- телями синтетических гласных с постоянной Fr = 270 гц и пе- ременными F2 и F3. F2 и F3 были связаны между собой таким образом, что отношение разности их частот к их сред- F3 — F2 нему геометрическому 77V777 принимало одно из четырех

Рис. 197. Зависимость опознавания синтетического гласноподобного сти- мула как шведского гласного [и] от частоты /^-стимула при разных расстояниях по частоте между F2 и F3. Графики построены по данным Фуджимуры (Fujimura, 1967) и Линд- квиста и Паули (Lindqvist, Pauli, 1968).

По оси абсцисс — частота F2 в гц; по оси ординат — относительное число случаев (в про­центах) опознания стимула как гласного [и]; расстояние между F2 и F3 выражено как

~~ х 100%. На а: данные Линдквиста и Паули (точки) для D = 9%; данные (F3F2) '2

Фуджимуры для JD=9% (крестики) и для П=14% (треугольники); на б; данные Линдквиста и Паули (точки) для D=9%; данные Фуджимуры для D=20% (треуголь­ники) и для 0=26% (кружки).

фиксированных значений: 9, 14, 20, 26°/0. Средняя геометри­ческая частота менялась в пределах от 1600 до 3000 гц.

Шведский язык представлял интерес потому, что в нем есть гласный [и], который отличается от соседних с ним гласных [и] и [i] не только абсолютными значениями F2 и F3, но и тем, что эти две форманты расположены очень близко друг к другу. Можно было ожидать, что отличительным признаком этого глас­ного является наличие именно одного, но не более чем одного, спектрального максимума в характерной частотной области. Если это так, восприятие [и] может служить хорошим индикатором того, объединяются ли обе форманты в один спектральный максимум, или нет.

На рис. 197 вверху приведены данные работы Фуджимуры и более поздней работы Линдквиста и Паули (Lindqvist, Pauli, 484

1968), полученные для стимулов с расстоянием между F2 и F%, заведомо меньшим критической полосы (9 и 14%). Можно видеть, что данные хорошо совпадают, идентификация [и] достигает 100%.

На рис. 197 внизу приведены те же данные Линдквиста и Па-

Рис. 198. Частота постоянного тона в короткой посылке, при­равниваемого по высоте к сиг­налу, частота которого меняется во времени от 1.0 кгц до 1.5 кгц. (левая часть рисунка) или от 1.5 кгц до 1 кгц (правая часть рисунка) (по: Heinz et al., 1967).

По оси абсцисс — длительность посылок (она одинакова для сигналов с по- стоянной и меняющейся частотой); по оси ординат — частота постоянного тона.

ули, а также данные Фуджи- муры для расстояний между F2 и F3, равных 20 и 26%.

Можно видеть, что для рассто­яния в 26% идентификация

резко снижена, хотя форма зависимости от частоты F2 остается прежней. Это говорит о том, что здесь вмешивается действие неко­

Рис. 199. Остаточная маскировка, вызванная постоянным тоном с частотой 1500 гц (кривая с чер­ными кружками) и сигналом, из^- меняющимся по частоте от 1000 гц до 1500 гц (кривая с белыми кружками) (по: Heinz et al., 1967).

По оси абсцисс — частота тестирующего тона, по оси ординат — разность уров­ней интенсивности между тестирую­щим тоном и маскером. Горизонталь- ной стрелкой показаны направление и диапазон изменений частоты меняю­щегося по частоте маскера. Верти­кальная линия, отмеченная стрелкой сверху, показывает медиану распреде­ления частот чистых тонов, прирав­ненных по высоте к меняющемуся маскеру.

торого дополнительного независимого признака, понижающего вероятность выбора [и]. Таким признаком в данном случае может быть только наличие двух максимумов. Данные для 20% рас­стояния между формантами указывают на то, что 20% находятся где-то около порога (кривая занимает промежуточное положение).

Это хорошо согласуется с приведенными выше данными Пломпа и Мимпена.

Итак, сейчас уже можно говорить о том, что слуховая система не только выделяет спектральные максимумы в речевом сиг­

485

нале, но и что она действует при этом как анализирующее уст­ройство с достаточно высокой разрешающей способностью.

Слуховое описание изменяющегося во времени сигнала. Харак­терной особенностью слога по сравнению с изолированным глас­ным является то, что значения частот формант, основного тона и интенсивности существенно изменяются во времени, причем эти изменения носят отнюдь не случайный, но вполне закономерный характер.

Вопрос о том, как при восприятии описывается сигнал, пара­метры которого изменяются во времени, отнюдь не является ре­шенным.

Одна из гипотез состоит в том, что временная картина опи­сывается и запоминается полностью: для каждого из параметров используются временные отсчеты, берущиеся, например, через каждые 5 мсек. Таким образом, изменение параметра на протя­жении слога представляется набором чисел, отражающих значе­ния параметра в последовательные моменты времени.

Другая гипотеза состоит в том, что кривые, отражающие изменения параметров во времени, описываются в восприятии набором признаков этих кривых. К таким признакам могут отно­ситься значения параметра в определенных особых точках, на­правление изменения параметра, скорость изменения.

Основные трудности, связанные с первой гипотезой, состоят не только в том, что для запоминания полного временного описания требуется большая оперативная память, но и в том, что необхо­димо допустить какие-то процедуры нормирования изображения во времени (типа сжатия или растяжения кривых) и привязки его к какому-то опорному сигналу.

Для доказательства второй гипотезы необходимо показать, что человек не только различает разные по временной картине сигналы, но что он использует при их классификации совершенно определенные признаки кривых изменения параметра во времени.

Выделение особых точек в изменяющемся сигнале. В двух работах исследовалось, чем при восприятии характеризуется сигнал с повышающейся и понижающейся во вре­мени частотой. В работе Брэди и др. (Brady et al., 1961) сигнал создавался путем возбуждения (с частотой 100 гц) перестраиваю­щегося во времени контура. Резонансная частота контура меня­лась с 1500 до 1000 гц или с 1000 до 1500 гц. Испытуемый подстра­ивал частоту второго контура (с постоянной на протяжении сиг­нала резонансной частотой) так, чтобы звуки были наиболее похо­жими. Оказалось, что испытуемый устанавливал частоту, близ­кую к конечному значению резонансной частоты переменного сигнала.

Близкий по характеру эксперимент был проделан Хейнцем и др. (Heinz et al., 1967). Стимулами служили короткие (20 и 50 мсек.) посылки тона, частота которого менялась за время по­

486

сылки от 1500 до 1000 гц или от 1000 до 1500 гц. Испытуемый подбирал частоту постоянного тона (той же длительности) так, чтобы сигналы совпали по высоте. Полученные данные (суммарные для трех испытуемых) приведены на рис. 198. Можно видеть, что частота постоянного тона устанавливается близкой к конечному значению частоты меняющегося сигнала. Соответствие является лучшим для посылок с длительностью 50 мсек. Данные говорят о том, что слуховое измерение частоты малоинерционно.

В работе Хейнца и др. было также произведено определение остаточной маскировки, вызванной изменяющимся тоном (1000— 1500 гц, длительность 50 мсек.). Тестирующий тональный им­пульс имел длительность 20 мсек, и следовал через 5 мсек, после маскера. Результаты приведены на рис. 199. Маски­ровка имеет максимум на частоте, близкой к конечной частоте маскера, что хорошо согласуется с данными первого эксперимента.

В работе Линдблума и Стаддерт-Кеннеди (Lindblom, Stud- dert-Kennedy, 1967) исследовалось восприятие стационарных син­тетических гласных и синтетических слогов типа согласный— гласный—согласный. Начальный и конечный согласный в слоге совпадали между собой и соответствовали или [w] (эта группа стимулов обозначалась как [w] T[w], где Г — исследуемый глас­ный), или [j] (эта группа стимулов обозначалась как [j] Г[]].

Примеры динамических спектрограмм [w] P[w] и [j] P[j] стимулов приведены на рис. 200. Стимулы синтезировались по следующей схеме. На начальном и конечном участке стимула, каждый из которых равнялся 20 мсек., значения F2, F3 были постоянными и составляли для [w] T[w]: /\=250, F800, F3=2200 гц, а для [j] Г [j] - /\=250, 7^2=2200, ^3=2900гц. Временной рисунок стимула был сделан таким, что вторая поло­вина стимула была зеркальным отражением первой. Кривая FT представляла выпуклую параболу со значением 7^=350 гц в точке максимума. Кривые F2 и F3 для [w] Г [w] соответствовали выпуклой параболе, для [j] Г[]] — вогнутой. Переменными па­раметрами стимулов были значения F F3 в точках максимума (|w] T[w]) или минимума ([j] F[j]). Всего использовалось 20 свя­занных значений F2 и F3, изображенных на рис. 201. Эти же зна­чения использовались при синтезе стационарных гласных.

От испытуемых (10 американцев) требовалось определить, на fi] или [и] больше похож гласный (в слоге или изолирован­ный). Целью эксперимента являлось сравнение положения фонем­ных границ между [и] и [i] для изолированных гласных и слогов.

Очевидно, что для совпадения границ необходимо выполнение двух условий: 1) в качестве слуховой характеристикиF 2 и F3 в сти­мулах типа [wj Tfw] и [j] F[j] используются их значения в точках максимума или минимума; 2) фонемный интерпретатор использует одни и те же решающие правила для изолированных гласных, слогов [w] T[w] и слогов [j] Г[j].

487

кгц

[w]r[w]

(ЖЛ

100 мсек.

Рис. 200. Динамические спектрограммы синтетиче­ских слогов ([w] Г [w ] и [j] Г [j]), применявшихся в исследовании Линдблума и Стаддерт-Кеннеди (Lindblom, Studdert-Kennedy, 1967).

По оси абсцисс — время, по оси ординат — частота. Дли- тельность гласного на верхних спектрограммах составляет 200 мсек., на нижних спектрограммах — 100 мсек, (отме- чено стрелками). Остальные объяснения в тексте.

Полученные результаты заставляют думать, что первое условие действительно выполняется, а второе — нет.

Оказалось, что среднее по всем испытуемым положение гра­ницы для изолированных гласных и слогов [jJ Г [j] практически

кги, 2.0

F2

1 1 I I

2.2 2.4 2.6 2.8 кгц

1.5-

1.5 2.0кгц

F2

Рис. 201. Связь между зна- чениями частот третьей (по оси абсцисс) и второй (по оси ординат) фор- манты в синтетических стимулах, применявшихся в работе Линдблума и Стад- дерт-Кеннеди (Lindblom, Studdert-Kennedy, 1967).

Маленькими точками показаны значения Г2, F* на гласном (им соответствуют стационар- ные значения в изолированных гласных, значения в точке максимума в слогах [w]r [w], значения в точке минимума в слогах [J] Г []]); большая точка внизу показывает значе- ния F2 и F3 на участке соглас- ного Ew] в слоге [w]r [w], большая точка вверху — зна- чения F2 и F3 на участке со- гласного [J] в слоге [] ]Г [J1.

Рис. 202. Положение границы между [i] и [u] по F2 в изолированных гласных (точки) и в слогах [w] Г [w] (крестики) у разных испытуемых (по: Lindblom, Studdert-Kennedy, 1967).

По оси абсцисс — положение границы для гласных длительностью 200 мсек.; по оси ординат — для глас- ных длительностью 100 мсек.

одинаково — 1644 гц в первом случае и 1634 гц — во втором (данные вычислены нами по таблицам, приведенным в статье). Интересно отметить, что это совпадает с положением границы по F 2 между твердыми и мягкими согласны- ми [s] и [J] (1642 и 1648 гц), по данным Шуплякова (Шупляков, 1968). Данные для [w] Tfw] оказались более сложными. На рис. 202 точками показаны значе-

ния границ у отдельных испытуемых для изолированных глас­ных, крестиками — для [w] T[w]. Из рис. 202 видно, что трое испытуемых, очевидно, пользуются для [w] T[w] той же грани­цей, что и для изолированных гласных, семь испытуемых исполь­зуют более низкую (по F2 и F3) границу. По объединенным данным для этих семи испытуемых она составляет в среднем 1376 гц по F2.

489

Авторы рассматривают весьма сложные гипотезы относительно механизма полученного сдвига границы. В свете данных Бондарко и др. (Бондарко и др., 1966), изложенных ранее, нам кажется возможным предположить, что в области между этими разными положениями границы находится дополнительная категория — психологическая фонема, которая в некоторых языках играет

Рис. 203. Характеристики стимулов, применявшихся в экспериментах Либермана и др. (по: Liberman et al., 1954).

А — варианты переходов второй форманты; Б — два варианта переходов первой форманты; В — варианты комбинаций формант и соответствующие им гласные. На А: по оси ординат указана частота в гц. Цифры около кривых указывают значения переходов в условных единицах. Знаком (—) обозначены отрицательные переходы, знаком (+) — положительные; на Б: по оси абсцисс — время в сек., по оси ординат — частота в гц; на В — варианты комбинаций значений частот Г, и F2 на стационарном участке стимула и фонетические обозначения соответствующих им гласных [I], [е],[е], [а], [о], [о], [и]. Внизу в скобках приведено английское слово с указанным гласным. По оси ординат — частота в гц. Цифры над горизонтальными черточками — точное значение частоты формант (нижняя черточка — первой форманты, верхняя — второй).

самостоятельную роль. По данным Фанта (Fant, 1959), ею может быть шведское их (|н]). В условиях форсированного выбора она может интерпретироваться как та или другая из ближайших к ней разрешенных фонем ([i] или [и]) в зависимости от контекста и существующих у испытуемого представлений о сходстве между психологическими фонемами.

Данные приведенных трех работ позволяют достаточно опре­деленно утверждать, что человек выделяет особые точки в кривой изменения частоты форманты во времени. Что является особыми точками в естественной речи и как формально описать правилу их выделения, пока сказать еще нельзя.

490

[i] [e] И W M M [u] [i] [e] И И [о] [о] [a]

Рис. 204. Результаты идентификации стимулов, показанных на рис. 203.

а — стимулы, с выраженным переходом б — стимулы с маловыраженным перехо­дом F,. Левые половины рисунков соответствуют случаю, когда испытуемым было разре­шено пользоваться в ответах согласными [Ь], [d], [g], правые половины рисунков — соглас­ными [р], [t], [к]. Каждый столбец (три расположенных друг под другом прямоугольника) соответствует определенному гласному, фонетическое обозначение которого приведено под столбцом. Внутри каждого прямоугольника показана зависимость между значением перехода второй форманты (цифры по вертикали в центре рисунка) и числом идентифика­ций стимула (цифры по горизонтали) с тем согласным, который указан слева или справа у соответствующей строки. Так, рельеф в верхнем левом прямоугольнике (строка [Ь ] столбец [i] на а) показывает, что при значении перехода, равном — 4,испытуемые опознают согласный как [Ь] во всех 66 случаях; при повышении значения перехода второй форманты количество опознаний [Ъ] уменьшается.

Определение направления сдвига спек­трального максимума. Достаточно надежные дан­ные о том, что направление смещения по частоте спектрального максимума играет роль самостоятельного полезного признака, были получены в ряде работ.

В работе Либермана и др. (Liberman et al., 1954) исследова­лось значение характера перехода второй форманты для разли­чения места образования смычного согласного.

На рис. 203 приведены характеристики применявшихся стиму­лов. Рис. 203, В показывает значения Fx л F2 на стационарном участке звука, рис. 203, А — варианты переходов. Если началь­ная частота F 2 ниже значения F2 на стационарном участке, пере­ход обозначался как отрицательный, если выше — как положи­тельный. Рис. 203, Б показывает два варианта переходов Fx. При возрастании Fr во времени (слева) стимулы были более близкими к слогам с начальным звонким согласным.

От испытуемых требовалось идентифицировать стимул со сло­гом, начинающимся с [b], [dj, [g] (одна серия опытов) или с [р ], [t], [к] (вторая серия опытов).

Полученные результаты приведены на рис. 204. Из него следует, что вне зависимости от абсолютного значения F2 (характера глас­ного) при возрастании F2 (отрицательный переход) стимулы опре­деляются как слоги с [р ] или [Ь ]; при понижении F2 испытуемые воспринимают [t], [d] или [k], [g]. Дальнейшие эксперименты (Harris et al., 1958; Hoffman, 1958) показали, что для различения [t], [d] и [k], [g] используется еще характер перехода F3.

Необходимо отметить, что сотрудники Хаскинских лаборато­рий (Нью-Йорк) попытались объяснить полученные ими данные (рис. 204) с помощью чрезвычайно сложной гипотезы «локуса» (Delattre et al., 1955). Хотя эта гипотеза обычно рассматривается как относящаяся к восприятию, она имеет достаточно отчетливый смысл лишь в плане выбора параметров переходов формант при синтезе согласных.

Делатр, Либерман и Купер (Delattre et al., 1955) предложили следующую схему синтеза, поясняемую рис. 205. На основании согласной фонемы выбирается одно из трех возможных начальных значений второй форманты (F2). Это значение и названо авторами «локусом». Обозначим его Fr На основании гласного выбирается значение F2 на стационарном участке (F8). Если закономерность изменения F2 во времени задана и задано также полное время перехода (Г), то величины Fl и Fs однозначно определяют как направление, так и скорость перехода. Однако эксперименты показали, что необходимо еще задать и реальную длительность перехода (компонент * сигнала,' соответствующий переходному участку F^ должен быть выраженным лишь на отрезке времени D, меньшем Г). Кроме того, оказалось, что само значение следует

492

выбирать йё только на оснований согласного, но и с уйетом глас­ного (Delattre et al., 1955; Liberman et al., 1967).

Никаких данных в пользу того, что при распознавании соглас­ных в нервной системе человека производится «вычисление» местоположения Fv получено не было. Более того, легко заметить,

Рис. 205. Схема синтеза переходов второй фор­манты, использующая пред­ставление о «локусах».

По оси абсцисс — время (О, по оси ординат — частота;

F^, Fi2, — три возможных значения «локуса» второй фор­манты. Характер синтезируе­мого согласного определяет выбор одного из указанных трех значений «локуса»; FSi, FSi, FS3~ значения Fz на стационарном участке стимула, выбор одного из них определяется характе­ром синтезируемого гласного; Т — полное время перехода; D — реальная длительность перехода, т. е. время от начала акустического сигнала до начала стационарного участка гласного. Остальные объяснения в тексте.

Рис. 206. Положение границы между [р] и [t] в пространстве двух пара­метров стимула: частоты спектраль­ного максимума гласного (по оси абсцисс) и средней частоты полосо­вого шума (по оси ординат) (по: Ко­жевников и др., 1971).

Данные двух испытуемых (крестики и кружки).

что для вычисления значения Fn принятого при синтезе, слушатель должен располагать априорной ин- формацией о значении Т, выбран- ном экспериментатором. Так как он заведомо не имеет этой информа- ции, гипотеза о восприятии локуса неизбежно должна быть отвергнута.

Если обратиться непосредственно к исходным эксперименталь­ным данным Либермана и др. (Liberman et al., 1954), то можно заметить очень простую закономерность. Она состоит в том, что сигналы, характеризующиеся подъемом F2 во времени, определя­ются как слоги, начинающиеся с губного согласного ([р], [Ь ]). При понижении же F2 выбирается язычный согласный ([t], [d ]) или [k], [g]. Это наводит на мысль, что слуховая система опре­деляет направление изменения частотного положения спектраль­

493

ного максимума и что именно этот признак используется для Клас­сификации гласных на губные и язычные.

Очевидно, что если человек способен различать направление изменения спектрального максимума, он должен это делать не­зависимо от того, с помощью периодического или шумового возбу­ждения образован этот максимум. Результаты экспериментов Купера и др. (Cooper et al., 1952) по восприятию последователь­ностей, состоящих из короткой посылки узкополосного шума и стационарного гласного, позволяли предположить, что в этом случае человек действительно пользуется не столько абсолютным значением частоты шума, сколько направлением изменения ча­стотного положения максимума в момент перехода от шума к глас­ному. Если средняя частота шума была близка к F2 гласного, последовательность воспринималась как слог [р ]Г при^ш<^2 и как [к ]Г или [t ]Г при F^^F^.

Эти эксперименты были повторены в несколько модифицирован­ном виде Кожевниковым и др. (Кожевников и др., 1971). Гласно­подобный сегмент состоял из 3—6 гармоник, одна из которых пре­вышала остальные не менее чем на 20 дб. Частота этой гармоники принималась за частоту спектрального максимума гласного. По­сылка полосового шума, непосредственно предшествующая глас­ному, устанавливалась по длительности и уровню интенсивности такой, чтобы максимально уменьшить сходство стимула со слогом, начинающимся с [к]. Задача испытуемого состояла в том, чтобы, управляя средней частотой полосового шума, найти границу между [р ] и [tl.

Полученные данные приведены на рис. 206. Можно видеть, что положение границы достаточно хорошо совпадает с частотой спектрального максимума гласного. Это подтверждает предполо­жение, что полезным признаком является направление изменения частоты: повышение частоты дает [р ], понижение — [t].

Нужно отметить, что, по данным Стивенса (Stevens, 1967), на­правление смещения во времени положения максимума концентра­ции энергии является наиболее надежным признаком для разде­ления естественных [Ь ], [ш] от [d ], [п] по спектральной кар­тине. Для объективного выделения [g ] необходимо использовать дополнительный признак — малую, в начальный момент времени, ширину выделенной спектральной области с максимумом, совпа­дающим с частотой спектрального максимума гласного.

Данные О’Коннора и др. (O’Connor et al., 1957) и данные Лискера (Lisker, 1957) говорят о том, что направление изменения F2 и F3 является полезным признаком и для различения [j ], [г], [1], [w]. Однако в данном случае абсолютные значения фор­мант на стационарном участке этих согласных также, очевидно, играют существенную роль.

Определение величины перепада интен­сивности. Первые указания на то, что величина изменения

494

интенсивности при переходе от согласного к гласному играет роль полезного признака, были получены Хейнцем и Стивенсом (Heinz, Stevens, 1961) в опытах по синтезу слогов с щелевым со­гласным. Было обнаружено, что при одном и том же спектре шума согласный воспринимается как [s ], если перепад интенсивности составляет 5 дб, и как [s] или [о], если перепад интенсивности составляет 25 дб.

Данные Кузьмина и Лисенко (1971а) показывают, что этот признак не только без сомнения выделяется слухом, но и играет существенную роль в различении согласных. Авторы применяли

в качестве стимулов синтетические гласные, амплитуда которых уве-

Рис. 207. Зависимость иден- тификации последователь- ности из двух примыкаю- щих сегментов синтетиче- ского гласного [а] от ве- личины разности уровней интенсивности между вто- рым и первым сегментами стимула (по оси абсцисс) (по: Кузьмин и Лисенко, 1971а).

Уровень интенсивности второго сегмента постоянен и составляет или 61 дб над средним порогом слышимости (сплошные кривые) или 53 дб над порогом (пунктирные кривые). По оси ординат — процент опознания стимула как гласного [а] (кривые, около которых стоит символ [а]), как слога, начинающегося согласным [1] (кривые, отмеченные симво­лом [1]), и как слога, начинающегося согласным [т] или [п] (кривые, отмеченные симво­лом [т, и]).

личивалась ступенькой через заданный интервал времени от начала стимула. Оказалось, что если величина ступеньки пре­вышает 3—6 дб, стимулы воспринимаются как слоги СГ; характер согласного зависит от величины ступеньки. Данные, полученные для синтетического гласного [а ], приведены на рис. 207. Контроль­ные эксперименты показали, что эффект не зависит от абсолютного уровня сигнала и сохраняется при изменении качества (спектра) гласного.

Определение скачка основного тона. В экспериментах (Чистович, 1968а-—в) было обнаружено, что изменение частоты основного тона на переходе от согласного к гласному в синтетическом слоге используется для различения [Ь ] и [ш]. В опытах применялся метод активного поиска границы между [Ь] и [ш]. Основная частота на одном из сегментов стимула устанавливалась экспериментатором, испытуемый устанавливал значение FQ на втором сегменте, соответствующее границе между [bj и [т].

495

Полученные результаты приведены на рис. 208. Можно видеть, что граница соответствует в среднем повышению основной частоты на 10% при переходе от сегмента согласного к сегменту гласного.

Весь комплекс приведенных выше данных позволяет сделать вывод, что из двух гипотез о слуховом описании изменяющегося во времени сигнала более вероятной является вторая. Иначе говоря, приходится думать, что слуховая система текущим обра­зом выделяет и измеряет определенные признаки, характеризую-

Рис. 208. Положение границы между [Ь] и [т] в пространстве двух параметров стимула: ча­стоты основного тона (Fo) на сегменте собственно согласного (по оси абсцисс) и частоты основного тона на сегменте гласного (по оси ординат) (по: Чистович, 1968а).

щие изменения сигнала во времени. Значения сигнала по этим признакам на какое-то время запоминаются и используются для принятия фонемных решений.

При таком способе описания удается избежать тех трудностей, которые неизбежно возникли бы, если бы временная картина описывалась полностью (временными отсчетами). Снимается во­прос о необходимости временной нормализации, требования к точ­ности членения потока на сегменты становятся значительно менее жесткими.

Принципиальным преимуществом такого способа описания является также то, что оно допускает возможность параллельного и независимого распознавания гласного и согласного. Например,

496

значения частот формант в точке максимума или минимума используются для распознавания гласного. Значения направле­ния изменения частот формант, определенные примерно в то же самое время, используются для распознавания согласного.

Если бы временная картина описывалась полностью, едини­цами распознавания должны были быть по меньшей мере слоги. Вместе с тем ряд данных (Чистович и др., 1965) говорит о том, что человек распознает именно фонемы, используя для этого инфор­мацию, распределенную на протяжении примерно слогового от­резка.

ПРОЦЕДУРА РАСПОЗНАВАНИЯ ФОНЕМ.

ОБУЧЕНИЕ. ЛОКАЛИЗАЦИЯ

Переход от слухового описания речевого сигнала к фонеме. В настоящее время еще не существует модели, описывающей процедуру распознавания фонем. Имеющиеся экспериментальные данные содержат довольно мало сведений о том, как конкретно организована эта процедура, они скорее указывают, каким требованиям она должна удовлетворять.

Одно из важнейших требований состоит в том, что процедура должна обеспечивать сбор информации, содержащейся в слуховых признаках различной природы и распределенной по времени на участке сигнала, равном по длительности примерно одному слогу.

Другое важное требование состоит в том, что отсутствие рас­познавания элемента не должно приводить к его пропуску — в запомненной последовательности фонем должно быть указано, что на таком-то ее месте был нераспознанный (частично распознан­ный) элемент.

Наконец, еще одним существенным требованием является спо­собность к адаптации, подстройке к частному ансамблю сигналов, представляющему определенного диктора.

В настоящем разделе будут сначала приведены данные, свиде­тельствующие о том, что эти требования действительно выполня­ются при восприятии, затем будут рассмотрены некоторые гипо­тезы о процедуре распознавания фонем.

Данные о том, что при восприятии происходит накопление ин­формации о согласном, находящемся на разных участках слога, были получены во многих работах с синтезированными сигналами и с выделенными отрезками естественной речи (Дукельский, 1962; Люблинская, 1966; Malecot, 1956; Nakata, 1959; Heinz, Stevens, 1961; Ohman, 1962, и др.). Показано, что информация о согласном, находящемся в интервокальном положении, содержится в пере­ходном участке от гласного к согласному, на участке собственно согласного, на переходе от согласного к гласному. Эта информация заключена в признаках стационарного участка собственно соглас­

32 Сенсорные системы

497

ного (спектр, длительность, периодический или шумовой харак­тер) и в динамических признаках (направление сдвига спектраль­ного максимума, перепад интенсивности, изменение основной ча­стоты переходного участка). Исключение или искажение каждого из признаков приводит к понижению разборчивости и появлению систематических ошибок.

Рассмотрим более подробно, как распределяется во времени информация о согласном в изолированном слоге СГ (согласный- гласный). В качестве точки отсчета примем момент размыкания смычки (щели) при артикуляции данного согласного. Сегмент звукового сигнала, предшествующий этому моменту времени, бу­дем называть сегментом собственно согласного, последующий сегмент назовем переходным сегментом. С точки зрения относи­тельной роли этих двух сегментов все согласные можно разделить на несколько групп.

В глухих смычных согласных ([р], [t], [к]) сегмент соб­ственно согласного вообще отсутствует, так как звуковой сигнал появляется только в момент размыкания смычки.

В звонких смычных согласных ([b], [d], [g ]) сегмент соб­ственно согласного сам по себе почти не несет информации. Предъ­явленный изолированно, он не вызывает у человека ассоциаций с каким-либо согласным звуком, воспринимаясь как неопределен­ное гудение. Последовательность, образованная из такого сег­мента и участка стационарного гласного, восприниматеся как слог, начинающийся со звонкого согласного, характер этого звон­кого согласного определяется динамическими признаками после­довательности (перепад интенсивности, основной частоты).

Сегмент собственно согласного, выделенный из слогов с со­гласными ([m], [n], [1]), уже несет сведения для выбора фонемы, однако их далеко недостаточно для безошибочного распознава­ния: [ш] и [п] еще не различаются, [1] принимается за гласный [и]. Наконец, в случае фрикативных согласных [s], [j], [z], [g] сегмент собственно согласного несет почти всю необходимую инфор­мацию для выбора фонемы.

Исходя из приведенных данных, естественно ожидать, что за­держка фонемного решения (если ее считать от момента размыка­ния смычки в согласном-стимуле) должна быть разной для разных групп согласных. Были проведены эксперименты (Чистович и др., 1965), в которых диктор с соответствующими датчиками для регистрации артикуляторных параметров читал таблицы слогов СГ, четверо испытуемых, находящихся рядом с диктором, но не видящих его, записывали согласный карандашом на металли­ческих пластинах. Контакт карандаша с пластиной замыкал элек­трическую цепь и приводил к появлению сигнала, который за­писывался на ленте чернилопишущего осциллографа парал­лельно с артикуляторными сигналами от диктора. Измерялись интервалы времени между размыканием смычки (щели) соглас-

498

кого у диктора и началом записи буквы испытуемым. Таблица состояла из слогов, начинающихся с согласных [t], [t'], [d], [d'], [И, [Г], [n], [n'], [z], [z'], [s], [s'] 2 и кончающихся глас- ными [u], [о], [а]. На каждый согласный было получено по 240 ответов (записей согласного русской буквой). Зависимость средней величины задержки записи буквы от качества согласного приведена на рис. 209. Можно видеть, что задержка максимальна для [t], [t'] и минимальна для [s], [s'], [z], [z' ]. Так как задержка для [s], [s'], [z], [z']

меньше времени простой психи- ческой реакции на звуковой сигнал, можно утверждать, что фонемное решение об этих со- гласных в ряде случаев при- нимается испытуемым до того, как он услышит переход от согласного к гласному, т. е. на основании сегмента собст- венно согласного. Для осталь-

Рис. 209. Зависимость среднего значения задержки буквенной записи соглас- ного от качества согласного (по: Чисто- вич и др., 1965).

По оси ординат — значение задержки интервала времени между моментом размыкания смычки (щели) согласного у диктора и началом записи буквы испытуемым. Под осью абсцисс столбиками выписаны согласные, объединившиеся в группы при вычислении сред­него значения задержки; косые штрихи обозначают мягкость согласного.

ных согласных решение принимается только после восприятия переходного сегмента. Задержка его тем меньше, чем больше ин­формации содержалось в сегменте собственно согласного.

Полученные данные совместимы с предположением, что чело­век работает как фонемное распознающее устройство, выдающее результат в тот момент времени, когда накопленная информация о фонеме достигнет определенного достаточно высокого значения. Однако недостатком таких схем является то, что они могут про­пускать отдельные фонемы (если информации о них недостаточно) и искажать тем самым порядковый номер фонемы в последователь­ности. Ниже будут приведены данные, свидетельствующие о том, что человек как распознающая система этим дефектом не обладает.

В экспериментах Клаас (Чистович и др., 1965) исследовался характер ошибок, совершаемых при распознавании фраз, под­вергнутых сильным искажениям. Только 30% из переданных фраз были распознаны правильно.

2 Штрих над символом обозначает мягкость соответствующего звука.

32* 499

Анализ ошибочно принятых фраз показал, что они в большин­стве случаев совпадали с переданными по числу слогов и положе­нию ударений, хотя значительно отличались по звуковому со­ставу. Например, наблюдались замены «зеленый крокодил» на «на-

Рис. 210. Осциллограмма сочетания [ара] при быстром повто- рении (по: Чистович и др., 1965). _

Три нижние кривые соответствуют артикуляторным параметрам диктора, верхние — испытуемого: гг — губная смычка, регистрируемая при помощи контактного датчика, к 1 — касание языком точки датчика «искусственное нёбо», расположенной у переднего края (признак, характеризующий арти­куляцию переднеязычных согласных); вн — ток воздуха из носовых отвер­стий, регистрируемый при помощи рупорного датчика; лар — огибающая сигнала ларингофонного тракта; микр — огибающая сигнала микрофон­ного тракта; вертикальными линиями отмечены начало и конец губной смычки диктора; штрих над первым [а] в сочетании [ара! указывает на то, что ударение сделано на первом гласном.

верно приходил», «больной выздоровел» на «багром вытянули», «мировой рекорд» на «недовольный кот».

Воспроизведение числа слогов говорит о том, что слушатели каким-то образом следили за чередованием гласных и согласных в воспринимаемой последовательности.

500

Прямая демонстрация способности человека следить за сме­ной гласных и согласных была получена в экспериментах по теку­щей имитации звукосочетаний (Чистович и др., 1962). Диктор с соответствующими датчиками для регистрации артикуляторных параметров читал перед микрофоном таблицу звукосочетаний. Находящийся в другой комнате испытуемый — также с датчи­ками — слышал звукосочетания через телефон и текущим обра­зом (т. е. с минимальной задержкой, на которую он способен, их имитировал). Артикуляторные сигналы как от диктора, так и от испытуемого параллельно записывались на ленте чернилопи­шущего осциллографа. Пример записи сочетания [ара] при­веден на рис. 210. Можно видеть, что имитация согласного начи­нается значительно раньше, чем окончится согласный диктора, т. е. заведомо до того, как вся информация о согласном будет по­лучена. Задержка начала согласного испытуемого от начала согласного диктора оказалась очень малой (120—140 мсек.) и не зависящей от качества согласного. Такого поведения можно было бы ожидать от схемы автоматического распознавания фонем с низким порогом срабатывания. Однако при низком пороге сраба­тывания неизбежно большое число ошибок.

Действительно, оказалось, что при текущей имитации испы­туемые совершают большое число ошибок, часто ведут себя так, как если бы они произносили два согласных одновременно (одно­временно образуют губную и язычную смычки). Очень интересным фактом является то, что ошибки исправляются на протяжении имитации согласного — начав с неправильных движений, испы­туемый затем заменяет их на нужные, так что артикуляторное состояние, достигаемое к концу согласного, уже достаточно хо­рошо соответствует согласному, произносимому диктором.

Таким образом, человек ведет себя так, как если бы в нем были совмещены минимум два фонемных распознающих устройства: одно с низким порогом срабатывания, гарантирующее отсутствие пропуска фонем, и другое с высоким порогом, обеспечивающее накопление информации во времени и достаточную надежность распознавания.

Способность подстройки к «диктору» была показана в трех работах (Ladefoged, Broadbent, 1957; Ladefoged, 1962; Fujisaki, Kawashima, 1967). В первых двух работах исследовалось вос­приятие тестирующих слов типа [beet, bit, bet, bat], которые были синтезированы в контексте различных вариантов «клю­чевой» фразы. Варианты «ключевой» фразы были получены (син­тезированы) на основании копирования одной естественной фразы с повышением или понижением ее формантных частот. Этим мо­делировалось изменение размеров речевого тракта, т. е. разные варианты соответствовали разным дикторам, отличающимся друг от друга размерами речевого тракта. В каждый из вариантов ключевой фразы были включены поочередно все тестирующие

501

эффект видно,

слова. Результаты показали, что восприятие слова закономерно изменяется в зависимости от характеристик «ключевой» фразы. В работе Фужизаки и Кавашимы (Fujisaki, Kawashima, 1967) исследовалась идентификация наборов изолированных синтети- ческих гласных, соответствующих двум траекториям в формант- ной F /^-плоскости. Определялась зависимость положения фо- немной границы в Fv /^-плоскости от таких параметров гласных, как основная частота и частоты верхних формант. Было обнару- жено, что фонемная граница сдвигается вверх при повышении основной частоты голоса и частот верхних формант. Последний

более четко выражен в случае шепотных гласных. Оче- что эффект, полученный в работах Лейдфогеда и Брод- бента, тоже можно трактовать как сдвиг фонемной границы.

9 9 Легко заметить, что говоря \ / 0 слуховом описании речевого

в Рис- Схема, позволяющая «физио-

I 2 логически>> представить сходство между / / * сигналом и фонемой.

i К А, 2 ““ коэффициенты связи нейронов ряда х2

с нейроном А. Кв и Kg 2 ~ коэффициенты X? связи нейронов рядов Хх и X, с нейроном В.

6 Остальные объяснения в тексте.

о

4

сигнала, мы употребляем термины, имеющие достаточно очевид­ный физический смысл: частотное положение спектрального макси­мума, знак его изменения во времени и т.д. В настоящем разделе мы вынуждены были употреблять такие понятия, как информация или сведения о фонеме, не определяя, какой конкретный смысл вкладывается в них в данном случае. Интуитивно понятно, что сведения о фонеме могут содержаться в разных слуховых при­знаках сигнала и что они могут накапливаться во времени. Однако понятно также, что реальная физическая (физиологическая) си­стема имеет дело только с сигналами, именно их она может сум­мировать, вычитать и т. д.

Для того чтобы описать связь между значениями сигнала по слуховым признакам в последовательных отрезках времени и фо­немами, кажется необходимым допустить существование некоторых промежуточных переменных (сигналов), отражающих величину «сходства» с фонемой.

На рис. 211 приведена элементарная схема, позволяющая на­глядно представить, что можно было бы понимать под «сходством». Эта схема является очень частной, однако уже на ее примере можно показать, какие вопросы возникают при допущении существова­ния «сходства».

502

На рис. 211 вдоль осей Хх и Х2 расположены ряды нейронов (обозначены кружками), представляющие проекции параметров Хх и Х2 в слуховой системе. Например, таким параметром может быть частота одной из формант. А и В являются нейронами, представляющими две разные, соседние по параметрам Х± и Х2 фонемы. Каждый из нейронов-фонем связан со множеством нейро­нов в обоих рядах, причем так, что коэффициенты связи нейрона В возрастают слева направо, а коэффициенты связи нейрона А убывают.

Если принять, что при действии речевого сигнала может воз­будиться только один из нейронов в каждом ряду и величина его возбуждения равна 1, величина возбуждения на входе нейрона- фонемы будет представлена суммой значений коэффициентов связи, которые имеют возбудившиеся нейроны. Эта величина и может быть названа потенциальным сходством звука с фонемой по параметрам Х1? Х2. Потенциальное сходство по одному пара­метру будет представлено просто коэффициентом связи.

Можно ввести еще понятие реального сходства, понимая под ним разность между величиной возбуждения на входе нейрона- фонемы и значением его порога, который может изменяться в зависимости от каких-то дополнительных условий.

Экспериментальные данные о том, что для указания связи между акустическим параметром сигнала и фонемой нужно ввести функцию сходства и недостаточно только привести значение фо­немной границы, были получены при исследовании времени реак­ции фонемного выбора. В экспериментах применялись синтети­ческие гласные или согласные, значения стимулов менялись по полезным акустическим параметрам (Studdert-Kennedy et al., 1963). Было показано, что время двигательной реакции, связан­ной с выбором фонемы, закономерно возрастает вблизи фонем­ной границы.

Хотя эти данные и представляются субъективно понятными («чем больше звук похож на определенную фонему, тем быстрее можно принять решение»), но разработанной модели, связываю­щей время реакции с величиной сходства, пока что нет. В работе Алекина и др. (1962) было выдвинуто предположение, что в мо­мент начала стимула образуется некоторый специальный сигнал — «сигнал членения», который используется для управления поро­гами нейронов-фонем.

Выбор фонемы происходит в тот момент времени, когда воз­буждение на входе одной из фонем окажется равным порогу. Эта схема, позволяющая объяснить увеличение времени реакции вблизи фонемных границ, привлекательна тем, что она обеспе­чивает автоматический выбор из множества фонем той, на которую сигнал больше всего «похож». Сравнения друг с другом значений «сходства» сигнала с разными фонемами при этом не требуется. Обратимся снова к схеме рис. 211. Легко заметить, что эта схема

503

не предполагает жесткой фонемной границы по каждому из пара­метров сигнала. Фонемная граница определяется здесь как такое значение сигнала по данному параметру, при котором для обеих соседних фонем величина реального сходства будет одинаковой. Так как реальное сходство зависит от порога возбудимости нейро­на-фонемы и от значений сигнала по другим параметрам, поло­жение фонемной границы должно изменяться.

Указания на то, что положение фонемной границы может зависеть от ансамбля сигналов, предъявляемых в эксперименте, содержатся в данных, полученных несколькими авторами (Fry et al., 1962; Lindner, 1966; Hiki et al., 1968). Эти авторы наблю­дали явление контраста, заключающееся в том, что стимул, нахо­дящийся вблизи средней фонемной границы между А и В, воспри­нимается как А, если он следует за В, и как В, если он следует за Л.

Прямое экспериментальное доказательство зависимости поло­жения фонемной границы от предъявляемого ансамбля сигналов было получено Кузьминым и Лисенко (Кузьмин, Лисенко, 19716). В одном из вариантов опытов были использованы синтетические гласные, применявшиеся ранее в экспериментах по имитации (Chistovich,Fant, Serpa-Leitao, Tjernlund, 1966; рис. 180) и в экс­периментах по шкалированию субъективных расстояний (Голу­зина, 1971; рис. 181). За исходный набор было принято 8 стиму­лов, их номера и значения приведены в табл. 12.

Таблица 12

Значения формант синтетических гласных в гц

№ стимула

1

2

3

4

5

6

7

8

л ....

270

320

375

430

480

540

605

670

f2 ....

2500

2450

2420

2350

2250

2140

1950

1750

Из стимулов табл. 12 было составлено две тестовые таблицы. Первая из них представляла случайную последовательность шести первых гласных, вторая— случайную последовательность шести последних гласных. Стимулы, обозначаемые номерами 3, 4, 5, 6, входили в обе таблицы. Каждый гласный повторялся в таблице 20 раз. Таблицы предъявлялись двум группам слуша­телей. Испытуемый должен был реагировать поворотом ключа в одну сторону при [i], в другую — при [е]. На рис. 212, «при­ведены полученные функции идентификации, а на рис. 212, б — зависимости среднего времени реакции от значения стимула.

504

Можно видеть, что сдвиг вверх по шкале диапазона при­меняемых стимулов приводит к тому, что фонемная граница также смещается вверх.

В работе Харрис и др. (Harris et al., 1958) исследовалась зависимость распознавания места образования согласных от двух акустических признаков: перехода второй и перехода третьей форманты. Авторы пришли к выводу, что эффект перехода третьей форманты может быть проще всего описан как сдвиг фонемной границы по параметру перехода второй форманты. На рис. 213

приведены значения границы [b], [d] по переходу F2 в за- висимости от значения стимула по переходу F3.

В работе Чистович (1968) была сделана попытка исследо- вать, как объединяется инфор- мация о двух параметрах, по- лезных для различения [Ь] и [т]. Одним из параметров был относительный уровень состав-

Рис. 212. Влияние диапазона значе- ний предъявляемых гласных-стиму- лов на функцию идентификации и функцию времени реакции.

а — функция идентификации для [е] при разных диапазонах стимулов (сплошная и пунктирная кривые — две разные группы испытуемых); б — зависимость времени реак­ции от частоты Ft гласного-стимула при разных диапазонах стимулов. По оси абсцисс графиков а и б показана частота первой форманты гласного в гц; по оси ординат на а — процент ответов Ее 1, на б — отношение (в %) среднего времени реакции на данный стимул к среднему времени реакций по всему набору стимулов.

ляющей с частотой 1000 гц в спектре сигнала на сегменте собственно согласного. Другим — была величина изменения Fo при переходе от сегмента согласного к сегменту гласного.

В первой группе экспериментов применялся метод активного поиска границы между [Ь] и [т]. Опыт ставился таким образом, что экспериментатор управлял одним из параметров сигнала, испытуемый искал границу по другому параметру. Полученные данные приведены на рис. 214. Можно видеть, что все простран­ство сигналов оказалось разделенным на четыре области: левая верхняя из них (IV) соответствует [Ь ], нижняя правая (II) — [ш]. Две остальные области (I и III) соответствуют неопределен­ным сигналам, которые испытуемый в зависимости от своей уста­новки мог воспринимать или как [Ь ], или как [т]. Так, сигналы из верхней правой области воспринимались испытуемым как [т ], когда он искал границу по спектральному признаку, и они же

505

воспринимались как [b], когда он искал границу по признаку Fq. Такие четыре области никак не могли бы возникнуть, если бы распознающая система обладала постоянными характеристиками. Вместе с тем такой эффект мог бы быть получен при направленном (зависящем от задачи) управлении порогами нейронов в схеме рис. 211.

Вторая серия экспериментов была направлена на определение относительной значимости обоих параметров. Испытуемым предъ-

Рис. 213. Характеристики сти­мулов, применявшихся Харрис и др. (Harris et al., 1958) при иссле­довании роли переходов второй и третьей форманты в распознава­нии места образования согласных (а), и граница между [Ь] и [d] в пространстве параметров пере­ходов первой и второй форман­ты (б).

На а: слева — схематическое изображение одного трехформантного (Г)5 Г2, Г3) стимула (по оси абсцисс — время, по оси ординат — частота в гц, цифры указывают выбран­ные значения переходов), справа — характеристики набора исследованных переходов F2 и F3, цифры указывают значения переходов. На б: по оси абсцисс — значение перехода Г3; по оси ординат — значение перехода F2,

являлись 12 сигналов, показанных точками на рис. 214. Испы­туемые должны были определить в баллах субъективное расстоя­ние между услышанным звуком и фонемой (в одних случаях [Ь ], в других — [ш]). Если бы веса обоих параметров были оди­наковыми, сигналы из областей I и III должны были бы оцени­ваться как субъективно равно удаленные от [Ь ] и [ш]. В слу­чае большего веса спектрального параметра звуки из области I должны быть более близки к [т ], чем к [Ь ], а звуки из области III должны быть более близки к [Ь], чем к [т]. При большем отно­сительном весе параметра основной частоты должна наблюдаться обратная картина.

506

Полученные данные приведены на рис. 215. Можно видеть, что у одного испытуемого веса обоих параметров примерно оди- наковы — звукам из областей I и III соответствуют близкие

оценки, сигналы определяются как почти равно удаленные от [Ь] и [т]. У двух других испытуемых спектральный параметр имеет значительно больший вес, чем параметр основной частоты.

гц Пока трудно пред-

50г f видеть, какое разнооб-

45 - разие моделей будет

Рис. 214. Положение границ между [Ь] и [т], определенных методом активного поиска, в пространстве двух параметров (по: Чистович, 19686).

По оси абсцисс — уровень интенсивности состав- ляющей 1000 гц в спектре сегмента согласного (14); по оси ординат — величина прироста час- тоты основного тона сигнала на переходе от сег- мента согласного к сегменту гласного (ДГ0). Сплошной кривой с крестиками показана граница между [Ь] и [щ], определенная в опыте, когда испытуемы^: управлял величиной J4, пунктир- ной кривой с кружками — когда он управлял величиной ДГ0- Точками с цифрами показаны значения 12 стимулов, использованных в экспери- менте по шкалированию (см. рис. 215). I—IV — условные обозначения областей между фонемными границами. Остальные объяснения в тексте.

Рис. 215. Субъективные расстояния в баллах между стимулами, показанными на рис. 213, а, и фонемами

[Ь] и [ш].

По оси абсцисс: Db — расстоя- ние стимула от [Ь], по оси ординат: Dm — расстояние сти- мула от [ш]. Разными знач- ками указаны величины, полу- ченные для четырех групп сти- мулов (области I—IV на рис. 214). Разные кривые полу- чены от разных испытуемых.

предложено для описания процесса распознавания фонем. Однако маловероятно, что в этих моделях удастся обойтись без таких характеристик, как функция сходства с фонемой по каждому из параметров, относительные веса параметров, порог (чувстви­тельность) нейрона-фонемы. Кажется очень заманчивым предпо­ложить, что различные контекстуальные влияния в восприятии речи осуществляются с помощью управления порогами нейронов- фонем и что относительные веса параметров различны в разных языках и устанавливаются в процессе обучения. Эти предположения вполне доступны экспериментальной проверке,

507

которая, можно надеяться, и будет предпринята в ближайшем будущем.

Развитие восприятия речи в раннем детском возрасте. В лите­ратуре высказывались две различные гипотезы относительно механизма образования фонем в процессе обучения речи (Liber­man, 1957). Одна из них обозначается как гипотеза приобретен­ного сходства, другая — как гипотеза приобретенных различий.

Согласно первой из них, ребенок сначала отличает друг от друга значительно большее множество речевых сигналов, чем это необходимо для фонемной классификации. Далее на этом множестве образуются области, связанные с различными арти­куляторными реакциями. Обозначения этих областей представ­ляют собой фонемы. Они начинают дальше использоваться в каче­стве сокращенного описания стимула при запоминании звуко­вой последовательности (слово, фраза).

Согласно второй гипотезе, ребенок сначала различает меньшее множество речевых сигналов, чем необходимо для фонемной классификации. Так как при этом ему не удается правильно реа­гировать на предъявляемые сигналы (речевые сообщения взрослых), стимулируется создание новых схем обработки информации (новых признаков). Сохраняются и совершенствуются те схемы, которые обеспечивают правильное реагирование.

Первая гипотеза допускает возможность самообучения у ребенка в процессе подражания звукам, произносимым взрослыми. Сигналом ошибки в этом случае может быть расхождение между слуховым изображением звука, созданного взрослым, и звука, воспроизведенного в ответ на него самим ребенком. Роль взрос­лого на этом этапе процесса обучения может сводиться к тому, что он является источником речевых сигналов.

Вторая гипотеза предполагает, что взрослый выступает в роли активного учителя, не только создающего речевые сигналы, но и сообщающего ребенку информацию о том, правильно ли он реагировал на эти сигналы.

Одна из существенных теоретических трудностей исследова­ния становления речи у ребенка заключается в необходимости разграничения явлений, связанных действительно с обучением, от явлений, связанных с созреванием нервной системы.

В монографии Леннеберга (Lenneberg, 1967) приводится ряд интересных данных относительно развития речеобразования, заставляющих признать, что на первом году жизни речеобразо- вание является в значительной мере автономным (мало зависит от восприятия) и отражает процессы созревания нервной системы.

Основная особенность развития речеобразования состоит в том, что в возрасте около 6 месяцев ребенок переходит от одного типа координации речевых движений к другому. Начиная с трех месяцев и до шести месяцев ребенок производит достаточно дли­тельные гласноподобные звуки. Координация движений, необхо­

508

димая для создания таких звуков, не должна, очевидно, существенно отличаться от таковой при крике. Разница с криком может быть преимущественно количественной и касаться в основном работы гортани и дыхательной системы.

В возрасте около шести месяцев ребенок начинает осуществлять слогоподобные артикуляторные комплексы, характеризующиеся тем, что язык, губы, нёбная занавеска совершают цикл движений типа смыкание — размыкание. Для производства таких движений требуется уже определенная схема временной организации ком­плекса и установление реципрокных отношений между мышцами антагонистами. Как говорилось выше, слог является основным элементом речи взрослого человека.

Существенно, что возраст, в котором ребенок переходит от гласноподобных к слогоподобным звукам, не зависит от того, является ли ребенок нормально слышащим или глухим (Lenneberg, 1967). Исключение возможности создать звуковой сигнал (дети с трахеотомией) также, по мнению Леннеберга, не влияет на смену гласноподобных артикуляций на слогоподобные.

Спонтанные слогоподобные комплексы создаются ребенком на протяжении всего периода его развития, предшествующего появлению слов, имеющих отчетливо коммуникативный характер (возраст 1.5—2.0 года).

Отмечаемая Леннебергом разница между глухим и нормально слышащим ребенком состоит в том, что последний создает большее разнообразие сигналов, он как бы играет со звуками.

Около 10 месяцев наблюдаются активные попытки имитации сигналов, произносимых взрослыми, но, как пишет Леннеберг, эти попытки обычно не являются полностью успешными.

Первое, насколько нам известно, надежное статистическое исследование характеристик слогов, спонтанно создаваемых маленькими детьми, было выполнено Престоном и др. (Preston et al., 1967; Preston, Yeni-Komshian, 1967). Авторы исследовали слоги типа смычный согласный—гласный, записанные при спон­танном произнесении их детьми арабами и детьми американцами в возрасте около одного года. Американцы и арабы были выбраны для сравнения по той причине, что в английском языке исполь­зуется противопоставление глухого неаспирированного со­гласного глухому аспирированному, тогда как у арабов глухой неаспирированный согласный противопоставляется звонкому со­гласному. Таким образом, один тип согласного имеется в обоих языках, два других типа имеются каждый только в одном языке.

Авторов интересовало, проявляются ли эти языковые разли­чия в лепете годовалых детей. Результат оказался отрицательным. И дети арабы, и дети американцы создавали в основном согласные того типа, который присутствует в обоих языках. Таким обра­зом, можно было сделать вывод, что слогоподобные комплексы, спонтанно создаваемые ребенком в возрасте около года, еще

509

не зависят от языка, на котором говорят в семье ребенка. Кроме того, вместо двух типов согласных, используемых взрослыми, ребенок производит только один, очевидно наиболее простой тип согласного. Это очень важный вывод, так как он означает, что в процессе обучения языку происходит выработка новых двигательных координаций и «словарь» артикуляторных комплек­сов расширяется.

Исследование американских детей в возрасте около двух лет показало, что у них уже наблюдаются характерные для англий­ского языка различия между аспирированными и неаспириро- ванными согласными. Существенно, что этих различий не было обнаружено у слабо слышащих американских детей такого же или более старшего возраста; различия появились после того, как дети стали пользоваться слуховыми протезами.

Таким образом, кажется очевидным, что обусловленные язы­ком различия в артикуляции слоговых комплексов вырабаты­ваются ребенком благодаря слуховому контролю. Естественнее всего предположить, что ребенок пытается подражать произно­шению взрослых и что сигналом, используемым при отработке собственного артикуляторного комплекса, является расхожде­ние между слуховым описанием слога взрослого и слога самого ребенка. Это означает, что ребенок должен быть способен улавли­вать на слух разницу между слогами, т. е. его восприятие или не должно быть категориальным, или число различаемых категорий должно быть больше числа фонемных категорий у взрослого.

Экспериментальная проверка способности ребенка разли­чать разные типы согласных может быть осуществлена методом исследования имитации. К сожалению, такие опыты были про­ведены только на более старших детях — в возрасте около трех лет (Winterkorn et al., 1967). Опыты проводились на детях аме­риканцах; стимулами служили синтетические слоги. Оказалось, что дети классифицируют стимулы так же, как взрослые амери­канцы, положение границы между категориями стимулов совпало с положением фонемной границы у взрослых.

Доказательство того, что дети различают и могут имитировать большее число категорий звуков, чем это требуется, исходя из числа лингвистических фонем, было получено Алякринским (Алякринский, 1963). В работе, проведенной на русских детях 4—7 лет, исследовалась имитация естественных русских и англий­ских гласных. Ни один из детей не обучался английскому языку. Исходный набор включал 6 русских и 6 английских гласных. На основе этих гласных была образована тестовая последователь­ность из 36 гласных, которые были наговорены преподавателем фонетики английского языка и записаны на пленку. Гласные, созданные детьми при имитации этих стимулов, были прослушаны группой опытных фонетиков. Они при записи обозначали русские гласные русскими буквами, а английские гласные — фонетиче­

510

скими знаками. Полученные данные приведены на рис. 216. Можно видеть, что дети оказались способными сразу же, без тренировки воспроизвести ряд английских гласных.

Приведенные выше данные лучше согласуются с гипотезой приобретенного сходства, чем с гипотезой приобретенных разли­чий, Приходится думать, что в процессе обучения речи происхо­дит увеличение набора артикуляторных комплексов и сокращение множества звуковых сигналов — объединение их в более круп­ные категории.

Рис. 216. Результаты оценки фонетистами гласных звуков, созданных детьми при имитации английских гласных (верхний ряд на графике) и русских гласных (нижний ряд) (по: Алякринский, 1963).

Символ около каждого круга обозначает оценку фонетистами исходного имитируемого гласного; символы в секторах круга обозначают оценки, данные фонетистами тем гласным, которые произнесли дети. Размеры секторов указывают, какой процент из гласных, произнесенных детьми, получил данную оценку.

Для выяснения того, как согласованы эти два процесса и ка­ково их взаимодействие, важно знать, существуют ли какие-то врожденные связи (отношения) между речевыми сигналами и арти­куляторными реакциями. Иначе говоря, встает вопрос о том, располагает ли ребенок какой-то врожденной информацией с са­мого начала обучения, или обучение начинается с полного незна­ния. С этой точки зрения очень интересны результаты, полученные в работе Лях (Лях, 1968). Изучалось подражание совсем малень­ких детей (2—8 месяцев) экспериментатору, произносившему гласные [и] и [а] в трех вариантах опыта: беззвучное произне­сение, нормальное произнесение вслух, произнесение с закры­тым от ребенка лицом.

Оказалось, что ребенок подражает мимике экспериментатора — открывает рот в ответ на [а] и вытягивает губы в ответ на [и]. Эта мимическая реакция в ряде случаев сопровождается фона­цией, создаваемые ребенком звуки напоминают [а] и [и]. Коли­чество подражательных реакций, вероятность появления фонации и соответствие реакций стимулам увеличиваются, если гласные произносятся вслух, т. е. ребенок может не только видеть мимику,

511