Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

просодической информации — не могут быть отнесены к просоди­ ческим признакам речи, так как после обработки в слуховой си­ стеме из них может быть извлечена не только просодическая ин­ формация.

Таким образом, из акустического речевого сигнала человек способен, по всей вероятности, извлекать не только необходимую ему для понимания смысла речевого сообщения информацию, но и признаки, характеризующие диктора и его состояние. Работы по автоматическому распознаванию речи не только доказывают

возможность

автоматического

выделения ударных слогов [141,

341], границ

между словами

и синтаксическими группами [340,

629], но показывают также, что одновременное использование про­ содической и фонемной информации (фонемных вариантов) дает возможность существенно повысить качество грамматического анализа речевого сообщения [зв2 499].

Однако попытки исследовать просодические признаки с исполь­ зованием естественного речевого материала приводят подчас к обескураживающим результатам: восприятие того или иного признака оказывается подверженным влиянию лексического со­ става экспериментального материала, контекста и даже степени лингвистической подготовки слушателя. Оказалось, например, что при изучении восприятия слушателями изменений темпа по­ следние обнаруживали изменения при их полном физическом от­ сутствии и могли не заметить изменений темпа на 100—120% [148]. Аналогичные явления наблюдались и при исследовании вос­ приятия паузы в речевом сигнале. В пределах одного высказы­ вания пауза длительностью 200 мс могла не восприниматься со­ всем или восприниматься в 100% случаев. Случалось также, что в одном высказывании слушатели не воспринимают паузу в 100 мс и прекрасно воспринимают паузу длительностью 40 мс [61]. При экспериментальном увеличении длительности паузы на стыке слов в естественном сигнале до 500 мс она воспринималась слуша­ телями всего в 50% случаев [19в].

В опытах Либермана [336] была следана попытка выяснить, каким физическим признакам в речевом сигнале и в какой мере соответствует широко применяемая в английском языке система транскрипции интонации Трэгера и Смита [607]. Испытуемым (опытным лингвистам) предлагалось транскрибировать по этой системе естественный речевой материал, а затем синтетические «фразы», состоявшие из протяжного гласного [а], но сохраняв­ шие ритмико-мелодическую структуру исходных естественных фраз. Выяснилось, что при исключении лексической информации даже опытные лингвисты в состоянии обнаружить только две степени ударения вместо четырех в естественном сигнале. Ис­ ключение лексической информации приводило также к более точ­ ному восприятию мелодических изменений, из чего автор делает вывод, что при транскрибировании естественной речи лингвисты ориентируются не столько на конкретные физические признаки,

93

сколько на свои знания того, какими транскрипционными симво­ лами должна быть описана данная комбинация слов.

Из сказанного можно сделать вывод, что переходя от просоди­ ческих признаков к их лингвистической интерпретации в про­ цессе восприятия естественного речевого сигнала, слушатели теряют способность давать осознанную оценку этих признаков как таковых. По-видимому, исследование просодических при­ знаков целесообразно проводить либо психоакустическими мето­ дами с применением сигналов, лишенных лексического содержа­ ния, либо с применением таких естественных сигналов, в которых изменение одного признака меняет смысл всего высказывания.

Как уже говорилось в главе 2, система лингвистического ана­ лиза имеет дело с описанием речевого потока в виде последова­ тельности дискретных элементов (фонемных вариантов), внесен­ ных в ячейки оперативной памяти. Естественно предположить, что просодическая информация заносится в те же ячейки оператив­ ной памяти и, следовательно, тоже должна быть представлена последовательностью дискретных величин. Хотя о структуре опера­ тивной памяти в настоящее время еще ничего не известно, есть основания считать, что ячейка памяти соответствует слогу в рече­ вом потоке. Сам же слог при восприятии речи человеком может члениться на «гласный» и «негласный» элементы (см. главу 3), что делает вполне вероятным допущение об аналогичном раз­ биении ячейки оперативной памяти, отведенной слогу (подробнее об этом см. в главе 6).

Из сказанного следует, что при записи просодической инфор­ мации в оперативную память некоторые дискретные величины могли бы быть «приписаны» всему слогу или «гласному» и «неглас­ ному» его элементам. Возможно также, что часть информации «приписывается» слогу, а часть — его составляющим. Отсюда — дополнительный вопрос, на который должна дать ответ теория восприятия речи: в какой форме и вместе с какими элементами речевого потока производится запись просодической информации в оперативную память?

В этой

главе

мы рассмотрим вначале, что известно

о

при­

знаках

речевого

сигнала, несущих просодическую информацию,

а затем

— некоторые вопросы записи этих признаков в

память.

 

 

5.1. ИНТЕНСИВНОСТЬ И ДЛИТЕЛЬНОСТЬ

 

 

 

 

КАК

САМОСТОЯТЕЛЬНЫЕ ИСТОЧНИКИ

 

 

 

 

ПРОСОДИЧЕСКОЙ ИНФОРМАЦИИ.

 

 

 

 

ДАННЫЕ ИССЛЕДОВАНИЙ

 

 

 

 

ВОСПРИЯТИЯ СЛОВЕСНОГО УДАРЕНИЯ

 

 

 

 

Сегодня ни у кого из исследователей речи не вызывает

сомнения,

что

интенсивность и длителость элементов

рече­

вого потока могут нести просодическую информацию и, в част­ ности, сведения о месте словесного ударения. Не существует.

94

однако, единого мнения в вопросе о том, являются ли эти при­ знаки самостоятельными или при восприятии речи они образуют некоторый сложный, но один признак. Так, предпринимались попытки объединить их в параметр типа «текущей энергии», чтобы избежать измерения двух самостоятельных параметров. Как было установлено при анализе акустического речевого сигнала, акусти­ ческая энергия гласного достаточно хорошо коррелирует со сте­

пенью его ударенности в английском [364] и

украинском [2>] язы­

ках. Использование

энергии

гласного для

принятия решения

о месте словесного

ударения

предполагает

наличие устройства,

интегрирующего интенсивность речевого сигнала за время, соот­ ветствующее длительности гласного, и сбрасывающего до нуля вычисленное значение энергии после снятия отсчета, чтобы сделать возможным вычисление энергии следующего гласного.

В главе 3 было показано, что при восприятии речи слуховая си­ стема человека должна осуществлять сегментацию непрерывного речевого сигнала на последовательность отрезков «гласных» и «негласных». Этим создается возможность интегрирования интен­ сивности сигнала на участке гласного. Однако данных о существо­ вании в слуховой системе измерителя энергии со сбросом пока нет и, кроме того, психоакустические исследования показывают, что при восприятии словесного ударения человек не пользуется полной энергией гласного I136].

Некий эквивалент «текущей энергии» могла бы дать обычная схема выделения общей энергетической огибающей речевого сигнала при соответствующем подборе параметров ее элементов: детектора и фильтра нижних частот. Выходной сигнал такого устройства имел бы множество максимумов, соответствующих слоговым ядрам (гласным), и задача поиска места словесного уда­ рения решалась бы путем выделения и сравнения этих максимумов без сегментации речевого потока. Очевидно, с точки зрения авто­ матического распознавания такой подход весьма привлекателен, но с точки зрения психоакустики он кажется весьма неправдо­ подобным.

Из психоакустических измерений следует, что аналогом «те­ кущей энергии» в слухе может быть громкость звука. Поскольку все модели слухового измерителя громкости имеют интегрирую­ щее звено (как правило, в виде фильтра нижних частот), при определенном соотношении постоянной времени такого фильтра и длительности звука громкость последнего может быть не только функцией интенсивности, но и длительности. Не исключено по­ этому, что при восприятии словесного ударения различия в дли­ тельности звуков речи при равной их интенсивности могли бы восприниматься не сами по себе, а через различия в громкости этих звуков.

Экспериментально показано, что при средних уровнях интен­ сивности фильтр нижних частот модели слухового измерителя громкости должен иметь постоянную времени в 30—50 мс [442].

95

Если минимальную длительность гласного в речи принять равной 50 мс, то при такой постоянной времени увеличение длительности гласного до 100 мс при неизменной интенсивности даст наиболь­ шее приращение его громкости, эквивалентное увеличению ин­ тенсивности на 2—3 дБ. А изменение длительности гласного, ска­ жем, от 100 до 200 мс уже не даст практически никакого увеличе­ ния его громкости.

Исследования, посвященные восприятию словесного ударения

вдвусложных словах, показывают, что при равной длительности гласных увеличение интенсивности одного из них на 3—5 дБ еще не приводит к восприятию его как ударного I307' 314, 398]. Из этого можно сделать вывод, что изменение длительности звуков речи вряд ли может восприниматься через изменение их громкости.

Сдругой стороны, известна способность человека оценивать звуки по длительности, причем субъективная длительность звука

вшироком диапазоне изменения интенсивности не зависит от по­ следней [541]. Кроме того, относительный дифференциальный по­ рог по длительности, полученный в опытах, где оценивалась именно длительность стимула, в интересующем нас диапазоне

длительностей (50 мс и более) не превышает 10—15% [173 223, 267] и достаточно хорошо совпадает с величинами, полученными в экс­ периментах, где критерием служила степень ударенности (см. раздел 5.2). Еще одним аргументом в пользу возможности не­ зависимого измерения слухом интенсивности и длительности элементов речевого потока может быть тот факт, что в ряде языков длительность является единственным фонематическим признаком некоторых гласных (см. главу 3).

Таким образом, есть все основания предположить, что в про­ цессе восприятия речи интенсивность и длительность являются самостоятельно измеряемыми параметрами, но при принятии решения о том или ином просодическом признаке они используются одновременно, причем вполне возможно, что влияние («вес») каждого из них не одинаково.

| Экспериментально-фонетические исследования признаков сло­ весного ударения привели к выводу, что в русском языке интен­ сивность менее существенна, чем длительность [в0, 74’ 125], что «относительная интенсивность гласного зависит не столько от его ударности-неударности, сколько от его места в слове» [15].

Попытки выяснить роль интенсивности и длительности в вос­ приятии словесного ударения приводят подчас к противоречивым результатам; это либо является следствием использования разных методических подходов, либо отражает различие между языками. Так, в голландском языке ни увеличение интенсивности, ни увели­ чение длительности гласного в синтетическом сигнале не вызывает эффекта восприятия его ударным [314].х В английском языке по

1 Необходимо отметить, что в голландском языке длительность гласного является фонематическим признаком. В связи с этим вопрос о возможности использования этого признака для передачи просодической информации

96

данным одних авторов интенсивность не играет роли в создании ударения [38в], другие полагают, что и длительность, и интенсив­ ность создают эффект выделенное™, но только «вес» каждого из этих признаков неодинаков [2вз]. К аналогичным выводам приходят

и другие исследователи, изучавшие

роль этих параметров в вос­

приятии словесного

ударения в

русском [7*’

136], польском [307[

и английском [зе8] языках.

 

 

На рис. 5.1. и 5.2

представлены частоты

восприятия ударе­

ния на первом слоге синтетической двусложной последователь­ ности носителями разных языков (английского, польского, рус­ ского) в функции разности длительностей и интенсивностей первого и второго гласных. Эти результаты получены в экспери­ ментах, где англичанам и полякам предъявляли синтетические слова [sasa], [soso] и [sisi], а испытуемым-русским — последова­ тельность гласных, разделенных короткой паузой (такой сигнал воспринимается как слово [ага]). Носителям английского и поль­ ского языков разрешались три вида ответов на каждый стимул: «первый ударный», «второй ударный» и «не знаю, не уверен, ударные оба». Носителям русского языка неопределенные ответы были запрещены.

Приведенные на рис. 5.1 данные о восприятии словесного уда­ рения англичанами и поляками получены в экспериментах [307, 308j, где носителям разных языков предъявлялись практически одинаковые синтетические сигналы. Если бы признаком словес­ ного ударения была громкость, следовало бы ожидать одинаковых результатов для носителей разных языков, так как в этом случае восприятие ударения определялось бы свойствами измерителя громкости в слуховой системе человека. Совершенно очевидно, однако, что распределения на рис. 5.1, А и 5.1, Б существенно различаются. Такой результат возможен при условии, что дли­ тельность и интенсивность измеряются как независимые признаки и по-разному используются носителями разных языков.

По виду приведенных на рис. 5.1 и 5.2 распределений можно сделать заключение, что в исследованных языках (английском, польском и русском) и интенсивность, и длительность являются признаками словесного ударения. Ясно также, что влияние каждого из этих признаков на восприятие словесного ударения (его «вес») неодинаково в разных языках.

Семейство гистограмм, приведенных, например, на рис. 5.2, можно описать одним выражением, учитывающим зависимость вероятности ответа «первый слог ударный» сразу от двух параметров сигнала: разности интенсивностей и длительностей гласных, — применив следующую процедуру.

требует специального изучения. Видимо, говорить о «весе» конкретного признака при передаче просодической информации имеет смысл лишь при­ менительно к тем языкам, в которых данный признак не является фонема­ тическим.

7 Физиология речи

97

Рис. 5.2. Зависимость частоты ответов «первый слог ударный» от соотношения интенсивностей и длитель­ ностей гласных при восприятии испытуемыми-русскими ударения в синтетической двусложной последователь­ ности (данные [136]).

Обозначения те же, что на рис. 5.1.

Рис. 5.1. Зависимость восприятия испытуемыми-англи­ чанами (Л) и испытуемыми-поляками (Б) ударения на первом слоге синтетической двусложной последователь­ ности от соотношения интенсивностей и длительностей входящих в нее гласных.

По оси абсцисс — разность интенсивностей первого и второго гласных; по оси ординат — разность длительностей этих же гласных; по вертикали — частота ответов «первый слог ударный».

Неопределенные ответы исключены из общего числа.

Допустим, что при заданной разности интенсивностей гласных зависимость вероятности ответа «первый слог ударный» от раз­ ности длительностей может быть аппроксимирована интегральной кривой нормального распределения с параметрами Л7' и а. Вычислив значения этих параметров для каждой из приведенных на рис. 5.2

Рис. 5.3. Параметры интегральных кривых нормального распределения, аппроксимирующих гистограммы ответов «первый слог ударный» (рис. 5.2), при разном соотношении интенсивностей гласных в двусложном синтети­ ческом стимуле.

По оси абсцисс — разность интенсивностей первого и второго гласных; по оси ординат — разность длительностей этих гласных, при которой оба слога воспринимаются ударными

с равной вероятностью, и величина среднеквадратического отклонения. Престики — среднеквадратическое отклонение, точки — пограничная величина разности длитель­ ностей.

гистограмм, получим зависимости АТ и а от разности интенсив­ ностей А/ (рис. 5.3). На этом рисунке отчетливо выделяются две области: область сравнительно постоянных а и область, в ко­ торой а увеличивается с увеличением разности интенсивностей. Последнее, вероятнее всего, является следствием неестествен­ ности части использованных в эксперименте сигналов с точки зрения носителя русского языка: в естественной речи первый глас­

99

ный в двусложном слове не может быть существенно меньше второго по интенсивности. Судя по данным рис. 5.3, этот эффект начинает сказываться при А/ = — 4 дБ.

Рассмотрим далее только ту область, в которой а постоянна. Здесь усредненное среднеквадратическое отклонение (а) равно 37.2 мс, а зависимость АГ от разности интенсивностей (в дБ) может быть представлена выражением ДР = а + Ъ • \1, где а = —20мси5 = —1.95 мс/дБ. Вероятность восприятия ударения на первом слоге при заданных разностях интенсивностей и дли­ тельностей гласных теперь может быть получена из таблиц ин­ тегральных вероятностей по известной величине нормированного

отклонения:

z

= (А71

— ДГ)/о = (А21

а — ЬМ)/а = (А.Т —

— а)/а — Ь-М/а,

или

z = (AT — я)/о

— АТУац, где

= а/Ь.

Это выражение дало бы возможность оценить «вес»

каждого из

параметров, если бы удалось найти способ сравнивать

столь раз­

ные параметры, как длительность (в мс) и интенсивность (в дБ). Одна из возможностей заключается в установлении того коли­ чества дифференциальных порогов, на которое надо изменить каждый из рассматриваемых признаков, чтобы получить одно и то же приращение нормированного отклонения. В результате аппро­ ксимации экспериментальных данных имеем а = 37.2 мс и = 19.1 дБ. Исходная длительность гласного в этих экспери­ ментах [13в] составляла 100 мс, что при относительном дифферен­ циальном пороге 10% дает величину абсолютного дифференциаль­ ного порога 10 мс. При а = 37.2 мс изменение z на единицу будет достигнуто при изменении длительности гласного на 3.72 вели­

чины дифференциального порога.

Для интенсивности абсолютный дифференциальный порог ра­ вен 0.3—0.7 дБ [1&3], и, следовательно, изменение z на единицу достигается при изменении интенсивности гласного на 27—64 ве­ личин дифференциального порога.

При этих условиях следует признать, что длительность глас­ ного имеет больший «вес» при определении места словесного ударения.

5.2. ДЛИТЕЛЬНОСТИ РАЗНЫХ СЕГМЕНТОВ СЛОГА - РАЗНЫЕ ПРОСОДИЧЕСКИЕ ПРИЗНАКИ

Итак, необходимо принять, что и длительность, и интенсивность гласного являются измеряемыми слухом пара­ метрами речевого сигнала и могут использоваться в разных языках в качестве просодических признаков, в частности, для принятия решения о месте словесного ударения. Но поскольку во всех опи­ санных выше экспериментах изменялась и контролировалась только длительность гласного (изменение его длительности, естест­ венно, приводило и к изменению длительности всего слога), по их результатам еще нельзя сказать с уверенностью, важна ли

100

для восприятия ударения длительность только гласного или всего слога. Возможна и более общая постановка вопроса: для передачи какой просодической информации используются длительность слога и длительности его составляющих («гласного» и «негласного»).

Что касается интенсивности, то без большой ошибки можно считать интенсивность слога равной интенсивности входящего в него гласного, так как она, как правило, существенно больше интенсивности согласного (согласных).

5.2.1. ВЛИЯНИЕ ДЛИТЕЛЬНОСТИ ГЛАСНОГО И СОГЛАСНОГО В СЛОГЕ НА ВОСПРИЯТИЕ СЛОВЕСНОГО УДАРЕНИЯ

Исследованиями процесса речеобразования установ­ лено, что в русской речи словесное ударение характеризуется большей длительностью и гласного, и согласного выделенного слога [в0 74, 125]. В английском языке различий по длительности между согласными в ударных и безударных слогах не обнару­ жено [2вз]. При изучении субъективной оценки испытуемыми длительности слогов в естественной русской речи оказалось, что субъективная длительность слога наилучшим образом корре­ лирует с длительностью гласного в этом слоге [433].

Детальное исследование влияния длительности согласного и гласного на восприятие ударения было проведено с использо­ ванием синтетического звукосочетания [sasasa], в котором одно­ временно изменялись длительности и гласного, и согласного во втором слоге при постоянных частоте основного тона и интенсив­ ностях согласных и гласных [31]. Были выбраны следующие дли­

тельности

(в миллисекундах) гласных

и согласных в слогах этой

последовательности.

 

 

III слог

 

 

I слог

II слог

 

 

Согласный..................

200

80—360

100

 

 

Гласный ......................

160

90—380

90

Если предположить, что на восприятие ударения одинаково

влияет

и

длительность гласного,

и

длительность согласного

в слоге,

т. е., другими словами, восприятие ударения определяется

суммарной длительностью всего слога, то вероятность получить ответ «второй слог ударный» должна оставаться постоянной при постоянной суммарной длительности слога независимо от харак­ тера ее распределения между составляющими слог гласным и согласным. На рис. 5.4, А приведено гипотетическое распределе­ ние ответов «второй слог ударный» (прямая аб описывает закон изменения длительностей гласного и согласного в слоге при постоянной длительности самого слога). На рис. 5.4, Б приве­ дены экспериментально полученные частоты ответов «второй слог ударный». Видно, что экспериментальные зависимости имеют мало общего с гипотетическими: при увеличении длительности глас­

101

ного и неизменной суммарной длительности слога (этот случай описывается прямой аб в плоскости 1\.—Тг на рис. 5.4, Б) частота ответов «второй слог ударный» возрастает от нуля до единицы.

Как следует из рис. 5.4, Б, при увеличении свыше 200 мс длитель­ ность согласного начинает оказывать влияние на частоту ответов

Рис. 5.4. Распределение гипотетических вероятностей (Я) и полученных экспериментально частот (В) ответов «второй слог ударный» при восприятии ударения в синтетической последовательности [sasasa].

По оси, абсцисс — длительность второго согласного; по оси ординат — длительность вто­ рого гласного; по вертикали — гипотетическая вероятность (А) и экспериментальная ча­ стота (Б) ответов «второй слог ударный». Остальные обозначения см. в тексте.

«второй слог ударный». Причины этого явления будут частично рассмотрены в разделе 5.2.3. Здесь важно отметить, что увели­ чение длительности согласного понижает частоту ответов «второй слог ударный», хотя при этом возрастает длительность слога и следовало бы ожидать увеличения вероятности восприятия его ударным, если бы восприятие словесного ударения определялось длительностью всего слога.

102

Соседние файлы в папке Нормальная физиология