Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

мой в ячейку информацией являются характеристики данного фонетического элемента. Некоторые из этих характеристик можно представить как числа, указывающие значения данного элемента по определенным признакам; другие характеристики соответствуют названиям классов, к которым принадлежит данный элемент.

Отрезок фонетической последовательности, содержащийся в на­ стоящий момент времени в оперативной памяти, можно в таком случае рассматривать как функцию, описывающую связь между содержанием ячейки и ее поряд­ ковым номером. Подчеркнем, что в отличие от осциллограммы, ди­ намической спектрограммы и ряда других изображений речевого сиг­ нала как физического процесса независимой переменной (аргу­ ментом) для фонетической после-

Рис. 3.1. Представление связи поряд­ кового номера звука речи в слове ма­ шина с его фонемной характеристикой

(Л)и характеристикой по длитель­

ности (Б).

По оси абсцисс — порядковый номер звука

вслове; по оси ординат — фонемные символы

(Л)и длительность звука (Б).

довательности является не время, а порядковый номер элемента. Соответственно значения аргумента в данном случае принципи­ ально дискретны. Значения функции — характеристики элемента по признакам — могут, по крайней мере в некоторых случаях, трактоваться как непрерывные.

Легко заметить, что преобразование речевого сигнала в фоне­ тическую последовательность требует решения двух задач. Одна из них состоит в обнаружении моментов смены элементов и пере­ ходе к следующей по порядку ячейке памяти. Вторая задача за­ ключается в установлении значений характеристик, которые должны быть приписаны элементу — записаны в ячейку.

При описании фонетической последовательности используются понятия «фонемный состав» и «ритмико-мелодический рисунок». Естественно считать, что эти понятия относятся к одному и тому же явлению, т. е. что в обоих случаях подразумеваются те же самые фонетические элементы с теми же самыми порядковыми номерами; речь идет о разных характеристиках (группах характеристик) этих фонетических элементов.

Например, если мы условно примем, что фонетический элемент соответствует звуку речи, то фонемный состав фонетической по-

следовательности, соответствующей слову машина, можно пред­ ставить в виде графика А на рис. 3.1. Ритмический рисунок этой же

последовательности (если мы

примем для простоты,

что

он определяется абсолютными

значениями длительностей

эле­

ментов) можно представить графиком Б на рис. 3.1.

Ось ординат на рис. 3.1, Л соответствует порядковому номеру фонемы в списке фонем. Подчеркнем, что этот номер условен, — он зависит от того, по какому принципу составлен алфавит — упорядоченный в ряд список фонем. Значения по оси ординат, которые может принимать элемент, в данном случае принципи­ ально дискретны. Символ фонемы — условное название класса, к которому относится звук речи.

Ось ординат на рис. 3.1, Б соответствует длительности. Значе­ ния по этому признаку можно считать непрерывными. (Переход к дискретному описанию — классификация звуков на ударные и неударные — требует дополнительной обработки последователь­ ности).

Легко заметить, что для превращения фонетической последо­ вательности в слово, описанное в терминах его лексических и грам­ матических характеристик, необходимы и график А, и график Б. Имея в своем распоряжении только график А, мы не сможем вы­ брать между словами машина и Машина (принадлежащая Маше).

Для совместного использования разных характеристик при определении слова необходимо в данном случае, чтобы эти харак­ теристики были как-то «привязаны» друг к другу. Предположение о том, что они записаны в одной и той же ячейке памяти, явля­ ется просто’наглядным способом представления идеи о связанности данных.

Под фонетическим элементом понимается, с одной стороны, некоторая единица организации (связанности) данных, получае­ мых в результате фонетической интерпретации. С другой стороны, под фонетическим элементом понимается отрезок речевого сиг­ нала, обработка которого обеспечивает получение этой единицы.

Рассмотрим, какие преобразования предполагаются необхо­ димыми для получения ритмического рисунка и фонемного состава фонетической последовательности и какие фонетические элементы при этом подразумеваются.

3.2. РИТМИЧЕСКИЙ РИСУНОК ФОНЕТИЧЕСКОЙ ПОСЛЕДОВАТЕЛЬНОСТИ

Ритмический рисунок фонетической последователь­ ности чрезвычайно интересен тем, что в качестве основной харак­ теристики элемента выступает длительность. Длительность явля­ ется признаком отрезка физического процесса; измерять длитель­ ность можно лишь после того, как речевой сигнал сегментирован, определены моменты начала и конца отрезка.

Фонетическим элементом, принимаемым при описании ритми­ ческого рисунка, обычно служит слог. Это основывается на том, что фонетические последовательности, соответствующие двум разным словам или двум разным строкам стиха, воспринимаются как ритмически совпадающие, если число слогов в этих последо­ вательностях одинаково и порядковые номера ударенных слогов совпадают L144!- Число звуков речи (фонем) может при этом быть различным, однако это касается только согласных, так как обще­ принято, что каждый слог обязательно включает гласный, при­ чем только один гласный (случаи, когда роль гласного выполняет слогообразующий сонант, в русском языке сравнительно редки, и мы пока их рассматривать не будем).

Если элементом является слог, то самое простое предположе­ ние состоит в том, что длительность, присваиваемая элементу, — это длительность слогового отрезка в речевом сигнале.

Один из способов экспериментальной проверки этого предпо­ ложения заключается в том, чтобы получить субъективные оценки длительностей слогов во фразе и выяснить, коррелируют ли они с длительностями слоговых отрезков. Результаты экспери­ мента [433J показали, что субъективная длительность слога кор­ релирует с длительностью не слогового отрезка, но отрезка глас­ ного.

Другой возможный способ проверки состоит в таком изменении длительностей гласного и согласного в слоге, чтобы суммарная длительность слога сохранялась постоянной. Если сделанное предположение верно, то ритмический рисунок не должен при этом меняться и должен наблюдаться эффект «компенсации» дли­ тельностей гласного и согласного. Эксперименты показали, что эффекта «компенсации» нет )303] и что ударенность слога опре­ деляется длительностью отрезка гласного [31J.

Эти данные не опровергают предположения, что именно слог является фонетическим элементом. Однако они говорят о том, что обработка речевого сигнала должна обеспечивать выделение от­ резков гласных.

Обратим внимание на два существенных обстоятельства. Во-первых, ритмический рисунок фонетической последователь­ ности в первом приближении не зависит от фонемного состава этой последовательности и, соответственно, от конкретных спек­ тральных характеристик речевого сигнала на отрезках гласных и согласных. Во-вторых, ритмический рисунок может быть пере­ дан с помощью сигнала, состоящего из тональных посылок (см. главу 2), или сигнала, образуемого при «произнесении» фразы

с

закрытым ртом [1б9]. В обоих этих случаях вместо согласных

в

сигнале имеется пауза.

Приходится считать, что отрезки, на которые сегментируется речевой сигнал, должны соответствовать не согласным и гласным, но гласным и негласным, где негласный может быть как согласным

(сочетанием согласных), так и паузой. Формально это то же самое, что обнаружение (выделение) гласных в речевом потоке.

Понятно, что выделение отрезков гласных в речевом потоке автоматически обеспечивает возможность выделения слоговых от­ резков. Слог определяется как интервал между началами сосед­ них гласных в речевом потоке {закрытый слог) или как интервал между концами соседних гласных (открытый слог).

3.3. ФОНЕМНЫЙ СОСТАВ ФОНЕТИЧЕСКОЙ ПОСЛЕДОВАТЕЛЬНОСТИ

Распространенная точка зрения, на которой осно­ вывается большинство работ по автоматическому распознаванию речи, заключается в том, что элементами речевого сигнала явля­ ются звуки речи и что фонемы распознаются последовательно одна за другой. Исследователи восприятия речи за последнее время все больше склоняются к тому, что фонемы могут распозна­ ваться параллельно и что в качестве фонетического элемента выступает слог [1919б> 22°]. Далее мы начнем с изложения этой наиболее привычной точки зрения и попытаемся пояснить раз­ ницу между последовательным и параллельным распознаванием фонем.

3.3.1. ФОНЕМНАЯ КЛАССИФИКАЦИЯ ТЕКУЩИХ ЗНАЧЕНИЙ РЕЧЕВОГО СИГНАЛА

Существо традиционных представлений относительно связи между речевым сигналом и фонемой, используемых в теориях восприятия речи и автоматическом распознавании, сводится к следующим основным допущениям: 1) фонема является харак­ теристикой звука речи — указанием класса, которому этот звук принадлежит; 2) каждому звуку речи соответствует определенное состояние речевого аппарата и соответственно определенная форма спектра звука (и тип источника возбуждения); 3) звуки речи произносятся последовательно один за другим.

На первом этапе развития работ по автоматическому распо­ знаванию речи было сделано дополнительное допущение, что дли­ тельность квазистационарных участков, в течение которых сохра­ няется спектр, типичный для данного звука речи, существенно больше длительности участков, соответствующих переходам от од­ ного звука речи к другому.

Если все эти допущения верны, то для фонемного распознава­ ния речи нужно только научиться классифицировать спектры, т. е. найти оптимальные решающие правила, обеспечивающие переход от значения спектра к фонеме — названию класса спек­ тров. Реализовав эти правила в соответствующем классификаторе и подавая на его вход отклик на речевой сигнал спектрального

анализатора (гребенки фильтров), мы автоматически получим и фонемное распознавание, и сегментацию речевого потока.

Классификатор будет сохранять на выходе один и тот же фо­ немный символ, пока спектр сигнала будет находиться внутри обозначаемого этим символом класса. Как только значения сигнала выйдут за пределы данного класса, символ нужно записать в ячейку памяти и перейти к следующей по порядку ячейке.

Быстро выяснилось, что системы, построенные по этому прин­ ципу, не являются работоспособными. Основная причина неудачи, по распространенному мнению, кроется в том, что относительная длительность переходных участков реально оказалась не меньше, а больше длительности стационарных участков.

Если длительность переходных участков велика, то число «фонем», выработанных классификатором при предъявлении слова,

будет неизбежно больше

числа фонем, которые

обнаруживает

в этом слове человек. Так

как такой эффект будет

наблюдаться

в случае любой системы, работающей по принципу фонемной клас­ сификации текущих значений сигнала, приходится сделать вывод, что фонемная классификация, осуществляемая человеком, осно­ вана на других принципах.

3.3.2. ПОСЛЕДОВАТЕЛЬНОЕ ИЛИ ПАРАЛЛЕЛЬНОЕ РАСПОЗНАВАНИЕ ФОНЕМ

В литературе неоднократно указывалось на то, что фонемы «переслаиваются», что один и тот же участок сигнала содержит информацию более чем об одной фонеме и найти такую точку в сигнале, которая соответствовала бы концу одной и на­ чалу другой фонемы, в принципе невозможно.

Основанием для этой точки зрения послужили в основном результаты экспериментов по фонемной идентификации синте­ тических слогов f350 зб1] и выделенных отрезков естественного речевого сигнала [58]. Весьма показателен в этом смысле пример с так называемыми переходами второй форманты (см. главы 4 и 12). Контур частоты второй форманты на отрезке, соответствующем артикуляции гласного, закономерно зависит от фонемного ка­ чества как этого гласного, так и соседних согласных. Участки, на которых частота F2 изменяется (они находятся вблизи начала и конца отрезка гласного), названы участками переходов F2. На основании характера переходов (направления изменения частоты F2) человек различает согласные фонемы, и по этому признаку переход должен быть отнесен к участку согласного. Однако исключение этих участков приводит к ухудшению раз­ борчивости гласного. Если гласный короткий, то при исключении из него переходов от гласного может вообще ничего не остаться.

Такого рода факты привели к довольно распространенному сейчас представлению, что согласные и гласные фонемы «распо­ знаются не последовательно, но параллельно. Вопрос о том, что

фонемным описанием, свободно пользуется понятиями отрезка гласного и слога.

Использование этих понятий (гласного и слога) в модели фо­ нетической интерпретации означает необходимость включения дополнительного блока обработки информации, заключенного между первичным спектральным анализатором и фонемным клас­ сификатором.

Для того чтобы пойти на такое усложнение модели, нужно быть уверенным в том, что понятия отрезка гласного и слога не изобретены учеными для удобства описания наблюдаемых ими явлений, но реально используются человеком в процессе фонети­ ческой интерпретации. Экспериментальные данные, приводимые в следующих разделах главы, как кажется, не оставляют в этом сомнений.

ЗЛ. ЭКСПЕРИМЕНТАЛЬНЫЕ ДОКАЗАТЕЛЬСТВА

ВЫДЕЛЕНИЯ

ОТРЕЗКОВ ГЛАСНЫХ ЗВУКОВ

В РЕЧЕВОМ

СИГНАЛЕ

 

ЗЛ.1. ВЫДЕЛЕНИЕ НАЧАЛА И КОНЦА

ГЛАСНОГО

В РЕЧЕВОМ

СИГНАЛЕ

 

(ОПЫТЫ ПО

СИНХРОНИЗАЦИИ)

 

Данные о том, что человек не только выделяет мо­

менты начала и конца гласного в воспринимаемом

стимуле, но

и может использовать соответствующие этим моментам сигналы при управлении речеобразованием, были получены в опытах по синхронизации [93' ieiJ.

Экспериментальный прием состоял в том, что испытуемым предъявлялось периодически повторяющееся (приблизительно 1 раз в секунду) звукосочетание, записанное на кольцо из маг­ нитной ленты.

Испытуемый должен был произносить то же или другое звуко­ сочетание «синхронно» с внешним стимулом. Звукосочетания, использованные в качестве стимулов, и соответствующие им ре­ акции приведены ниже.

 

fata]

[ala]

[ata]

 

[ada]

[ada]

[ada]

 

[asa]

[asa]

[asa]

Стимул

[atma]

[aba]

[amsa]

 

[amtaj

[adma]

[asma]

 

 

[amda]

[atsa]

 

 

[azda]

[afa]

Реакция (

[ataj

[ada]

[asa]

57

Ответы испытуемого (приблизительно 50 в каждом отдельном опыте) регистрировались на экране двухлучевого осциллоскопа в виде линейчатого растра (рис. 3.3), где по горизонтальной оси — время относительно начала стимула (или относительно предшест­ вующего ему синхронизирующего импульса, запускающего луч осциллоскопа), по вертикальной оси сверху вниз — порядковый номер ответа (/), а интенсивность засветки характеризует оги­ бающую реакции. В верхней части кадра регистрировалась

Рис. 3.3. Фотография изображения, полученного на электронном осцилло­ скопе в одном из опытов по синхронизации произнесения звукосочетания [ada] (ответы испытуемого) с речевым стимулом [amda]. По [®3].

(с помощью второго луча) осциллограмма предъявляемого сти­ мула.

На рис. 3.4 приведены результаты измерений временнбй картины стимулов (значения t2, t3, г4) и реакций-ответов испытуе­ мых (средние по 5 испытуемым значения t*, t*2, t*, t*}. Как видно из рисунка, временная картина произносимого звукосочетания приближенно воспроизводит временную картину стимула. По­ лученные результаты показывают, что в среднем момент окончания первого гласного в реакции (t*,) достаточно хорошо соответствует моменту окончания первого гласного в стимуле (t2); это же можно сказать и о моменте начала второго гласного стимула и реакции (t3 и t*3). Такое соответствие достигалось испытуемыми за счет управления длительностью согласного при речеобразовании: в тех случаях, когда в стимуле было сочетание из двух согласных, интервал согласного в реакции растягивался (см. на рис. 3.4

58

стимулы [atma], [adma], [asma] и т. д.; точечной кривой обозна­ чена граница между согласными в стимуле).

Интересная особенность наблюдалась в тех случаях, когда вторым согласным в стимуле был сонант (стимулы [adma], [atma], [asma]). Было обнаружено, что длительность согласного в реак-

1’iic. 3.4. Временные отношения между стимулами и реакциями. По Is3].

По оси абсцисс — стимулы; по оси ординат — время (за нуль принято начало стимула). Сплошными линиями обозначены временные положения границ между гласными и соглас­ ными в стимулах; прерывистыми — в реакциях. Точечной кривой обозначено положение границы между двумя согласными в соответствующих стимулах. Разные реакции обозна­ чены разными значками: [asa] — треугольниками, [ada] — крестиками, [ata] — круж-

ками.

циях, создаваемых в ответ на эти стимулы, оказывается в среднем уменьшенной по сравнению с длительностью согласных в стимуле. Как выяснилось, это было связано с тем, что в половине случаев испытуемые принимали начало сонанта за начало второго глас­ ного.

В экспериментах по синхронизации был обнаружен еще один чрезвычайно интересный эффект, заключающийся в том, что флюк­ туации во времени более поздних явлений (границ сегментов) в реакции были меньше, чем флюктуации более ранних явлений (рис. 3,5),

Гис. 3.5. Фотографии опытов но синхронизации пропзнесенпя зву­ косочетания [ada] со стимулом [aba] (7) н со стимулом [amda] (2).

По [16Ч.

Рис. 3.6. Результаты

классификации опытов по признаку зависимости между величиной флюк­ туаций сегментной гра­ ницы и порядковым но­ мером границы внутри звукосочетания. По [1в*].

Обозначения см. в тексте.

Соседние файлы в папке Нормальная физиология