2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_
.pdfмой в ячейку информацией являются характеристики данного фонетического элемента. Некоторые из этих характеристик можно представить как числа, указывающие значения данного элемента по определенным признакам; другие характеристики соответствуют названиям классов, к которым принадлежит данный элемент.
Отрезок фонетической последовательности, содержащийся в на стоящий момент времени в оперативной памяти, можно в таком случае рассматривать как функцию, описывающую связь между содержанием ячейки и ее поряд ковым номером. Подчеркнем, что в отличие от осциллограммы, ди намической спектрограммы и ряда других изображений речевого сиг нала как физического процесса независимой переменной (аргу ментом) для фонетической после-
Рис. 3.1. Представление связи поряд кового номера звука речи в слове ма шина с его фонемной характеристикой
(Л)и характеристикой по длитель
ности (Б).
По оси абсцисс — порядковый номер звука
вслове; по оси ординат — фонемные символы
(Л)и длительность звука (Б).
довательности является не время, а порядковый номер элемента. Соответственно значения аргумента в данном случае принципи ально дискретны. Значения функции — характеристики элемента по признакам — могут, по крайней мере в некоторых случаях, трактоваться как непрерывные.
Легко заметить, что преобразование речевого сигнала в фоне тическую последовательность требует решения двух задач. Одна из них состоит в обнаружении моментов смены элементов и пере ходе к следующей по порядку ячейке памяти. Вторая задача за ключается в установлении значений характеристик, которые должны быть приписаны элементу — записаны в ячейку.
При описании фонетической последовательности используются понятия «фонемный состав» и «ритмико-мелодический рисунок». Естественно считать, что эти понятия относятся к одному и тому же явлению, т. е. что в обоих случаях подразумеваются те же самые фонетические элементы с теми же самыми порядковыми номерами; речь идет о разных характеристиках (группах характеристик) этих фонетических элементов.
Например, если мы условно примем, что фонетический элемент соответствует звуку речи, то фонемный состав фонетической по-
следовательности, соответствующей слову машина, можно пред ставить в виде графика А на рис. 3.1. Ритмический рисунок этой же
последовательности (если мы |
примем для простоты, |
что |
он определяется абсолютными |
значениями длительностей |
эле |
ментов) можно представить графиком Б на рис. 3.1.
Ось ординат на рис. 3.1, Л соответствует порядковому номеру фонемы в списке фонем. Подчеркнем, что этот номер условен, — он зависит от того, по какому принципу составлен алфавит — упорядоченный в ряд список фонем. Значения по оси ординат, которые может принимать элемент, в данном случае принципи ально дискретны. Символ фонемы — условное название класса, к которому относится звук речи.
Ось ординат на рис. 3.1, Б соответствует длительности. Значе ния по этому признаку можно считать непрерывными. (Переход к дискретному описанию — классификация звуков на ударные и неударные — требует дополнительной обработки последователь ности).
Легко заметить, что для превращения фонетической последо вательности в слово, описанное в терминах его лексических и грам матических характеристик, необходимы и график А, и график Б. Имея в своем распоряжении только график А, мы не сможем вы брать между словами машина и Машина (принадлежащая Маше).
Для совместного использования разных характеристик при определении слова необходимо в данном случае, чтобы эти харак теристики были как-то «привязаны» друг к другу. Предположение о том, что они записаны в одной и той же ячейке памяти, явля ется просто’наглядным способом представления идеи о связанности данных.
Под фонетическим элементом понимается, с одной стороны, некоторая единица организации (связанности) данных, получае мых в результате фонетической интерпретации. С другой стороны, под фонетическим элементом понимается отрезок речевого сиг нала, обработка которого обеспечивает получение этой единицы.
Рассмотрим, какие преобразования предполагаются необхо димыми для получения ритмического рисунка и фонемного состава фонетической последовательности и какие фонетические элементы при этом подразумеваются.
3.2. РИТМИЧЕСКИЙ РИСУНОК ФОНЕТИЧЕСКОЙ ПОСЛЕДОВАТЕЛЬНОСТИ
Ритмический рисунок фонетической последователь ности чрезвычайно интересен тем, что в качестве основной харак теристики элемента выступает длительность. Длительность явля ется признаком отрезка физического процесса; измерять длитель ность можно лишь после того, как речевой сигнал сегментирован, определены моменты начала и конца отрезка.
Фонетическим элементом, принимаемым при описании ритми ческого рисунка, обычно служит слог. Это основывается на том, что фонетические последовательности, соответствующие двум разным словам или двум разным строкам стиха, воспринимаются как ритмически совпадающие, если число слогов в этих последо вательностях одинаково и порядковые номера ударенных слогов совпадают L144!- Число звуков речи (фонем) может при этом быть различным, однако это касается только согласных, так как обще принято, что каждый слог обязательно включает гласный, при чем только один гласный (случаи, когда роль гласного выполняет слогообразующий сонант, в русском языке сравнительно редки, и мы пока их рассматривать не будем).
Если элементом является слог, то самое простое предположе ние состоит в том, что длительность, присваиваемая элементу, — это длительность слогового отрезка в речевом сигнале.
Один из способов экспериментальной проверки этого предпо ложения заключается в том, чтобы получить субъективные оценки длительностей слогов во фразе и выяснить, коррелируют ли они с длительностями слоговых отрезков. Результаты экспери мента [433J показали, что субъективная длительность слога кор релирует с длительностью не слогового отрезка, но отрезка глас ного.
Другой возможный способ проверки состоит в таком изменении длительностей гласного и согласного в слоге, чтобы суммарная длительность слога сохранялась постоянной. Если сделанное предположение верно, то ритмический рисунок не должен при этом меняться и должен наблюдаться эффект «компенсации» дли тельностей гласного и согласного. Эксперименты показали, что эффекта «компенсации» нет )303] и что ударенность слога опре деляется длительностью отрезка гласного [31J.
Эти данные не опровергают предположения, что именно слог является фонетическим элементом. Однако они говорят о том, что обработка речевого сигнала должна обеспечивать выделение от резков гласных.
Обратим внимание на два существенных обстоятельства. Во-первых, ритмический рисунок фонетической последователь ности в первом приближении не зависит от фонемного состава этой последовательности и, соответственно, от конкретных спек тральных характеристик речевого сигнала на отрезках гласных и согласных. Во-вторых, ритмический рисунок может быть пере дан с помощью сигнала, состоящего из тональных посылок (см. главу 2), или сигнала, образуемого при «произнесении» фразы
с |
закрытым ртом [1б9]. В обоих этих случаях вместо согласных |
в |
сигнале имеется пауза. |
Приходится считать, что отрезки, на которые сегментируется речевой сигнал, должны соответствовать не согласным и гласным, но гласным и негласным, где негласный может быть как согласным
(сочетанием согласных), так и паузой. Формально это то же самое, что обнаружение (выделение) гласных в речевом потоке.
Понятно, что выделение отрезков гласных в речевом потоке автоматически обеспечивает возможность выделения слоговых от резков. Слог определяется как интервал между началами сосед них гласных в речевом потоке {закрытый слог) или как интервал между концами соседних гласных (открытый слог).
3.3. ФОНЕМНЫЙ СОСТАВ ФОНЕТИЧЕСКОЙ ПОСЛЕДОВАТЕЛЬНОСТИ
Распространенная точка зрения, на которой осно вывается большинство работ по автоматическому распознаванию речи, заключается в том, что элементами речевого сигнала явля ются звуки речи и что фонемы распознаются последовательно одна за другой. Исследователи восприятия речи за последнее время все больше склоняются к тому, что фонемы могут распозна ваться параллельно и что в качестве фонетического элемента выступает слог [1919б> 22°]. Далее мы начнем с изложения этой наиболее привычной точки зрения и попытаемся пояснить раз ницу между последовательным и параллельным распознаванием фонем.
3.3.1. ФОНЕМНАЯ КЛАССИФИКАЦИЯ ТЕКУЩИХ ЗНАЧЕНИЙ РЕЧЕВОГО СИГНАЛА
Существо традиционных представлений относительно связи между речевым сигналом и фонемой, используемых в теориях восприятия речи и автоматическом распознавании, сводится к следующим основным допущениям: 1) фонема является харак теристикой звука речи — указанием класса, которому этот звук принадлежит; 2) каждому звуку речи соответствует определенное состояние речевого аппарата и соответственно определенная форма спектра звука (и тип источника возбуждения); 3) звуки речи произносятся последовательно один за другим.
На первом этапе развития работ по автоматическому распо знаванию речи было сделано дополнительное допущение, что дли тельность квазистационарных участков, в течение которых сохра няется спектр, типичный для данного звука речи, существенно больше длительности участков, соответствующих переходам от од ного звука речи к другому.
Если все эти допущения верны, то для фонемного распознава ния речи нужно только научиться классифицировать спектры, т. е. найти оптимальные решающие правила, обеспечивающие переход от значения спектра к фонеме — названию класса спек тров. Реализовав эти правила в соответствующем классификаторе и подавая на его вход отклик на речевой сигнал спектрального
анализатора (гребенки фильтров), мы автоматически получим и фонемное распознавание, и сегментацию речевого потока.
Классификатор будет сохранять на выходе один и тот же фо немный символ, пока спектр сигнала будет находиться внутри обозначаемого этим символом класса. Как только значения сигнала выйдут за пределы данного класса, символ нужно записать в ячейку памяти и перейти к следующей по порядку ячейке.
Быстро выяснилось, что системы, построенные по этому прин ципу, не являются работоспособными. Основная причина неудачи, по распространенному мнению, кроется в том, что относительная длительность переходных участков реально оказалась не меньше, а больше длительности стационарных участков.
Если длительность переходных участков велика, то число «фонем», выработанных классификатором при предъявлении слова,
будет неизбежно больше |
числа фонем, которые |
обнаруживает |
в этом слове человек. Так |
как такой эффект будет |
наблюдаться |
в случае любой системы, работающей по принципу фонемной клас сификации текущих значений сигнала, приходится сделать вывод, что фонемная классификация, осуществляемая человеком, осно вана на других принципах.
3.3.2. ПОСЛЕДОВАТЕЛЬНОЕ ИЛИ ПАРАЛЛЕЛЬНОЕ РАСПОЗНАВАНИЕ ФОНЕМ
В литературе неоднократно указывалось на то, что фонемы «переслаиваются», что один и тот же участок сигнала содержит информацию более чем об одной фонеме и найти такую точку в сигнале, которая соответствовала бы концу одной и на чалу другой фонемы, в принципе невозможно.
Основанием для этой точки зрения послужили в основном результаты экспериментов по фонемной идентификации синте тических слогов f350 зб1] и выделенных отрезков естественного речевого сигнала [58]. Весьма показателен в этом смысле пример с так называемыми переходами второй форманты (см. главы 4 и 12). Контур частоты второй форманты на отрезке, соответствующем артикуляции гласного, закономерно зависит от фонемного ка чества как этого гласного, так и соседних согласных. Участки, на которых частота F2 изменяется (они находятся вблизи начала и конца отрезка гласного), названы участками переходов F2. На основании характера переходов (направления изменения частоты F2) человек различает согласные фонемы, и по этому признаку переход должен быть отнесен к участку согласного. Однако исключение этих участков приводит к ухудшению раз борчивости гласного. Если гласный короткий, то при исключении из него переходов от гласного может вообще ничего не остаться.
Такого рода факты привели к довольно распространенному сейчас представлению, что согласные и гласные фонемы «распо знаются не последовательно, но параллельно. Вопрос о том, что
фонемным описанием, свободно пользуется понятиями отрезка гласного и слога.
Использование этих понятий (гласного и слога) в модели фо нетической интерпретации означает необходимость включения дополнительного блока обработки информации, заключенного между первичным спектральным анализатором и фонемным клас сификатором.
Для того чтобы пойти на такое усложнение модели, нужно быть уверенным в том, что понятия отрезка гласного и слога не изобретены учеными для удобства описания наблюдаемых ими явлений, но реально используются человеком в процессе фонети ческой интерпретации. Экспериментальные данные, приводимые в следующих разделах главы, как кажется, не оставляют в этом сомнений.
ЗЛ. ЭКСПЕРИМЕНТАЛЬНЫЕ ДОКАЗАТЕЛЬСТВА
ВЫДЕЛЕНИЯ |
ОТРЕЗКОВ ГЛАСНЫХ ЗВУКОВ |
|
В РЕЧЕВОМ |
СИГНАЛЕ |
|
ЗЛ.1. ВЫДЕЛЕНИЕ НАЧАЛА И КОНЦА |
ГЛАСНОГО |
|
В РЕЧЕВОМ |
СИГНАЛЕ |
|
(ОПЫТЫ ПО |
СИНХРОНИЗАЦИИ) |
|
Данные о том, что человек не только выделяет мо |
||
менты начала и конца гласного в воспринимаемом |
стимуле, но |
и может использовать соответствующие этим моментам сигналы при управлении речеобразованием, были получены в опытах по синхронизации [93' ieiJ.
Экспериментальный прием состоял в том, что испытуемым предъявлялось периодически повторяющееся (приблизительно 1 раз в секунду) звукосочетание, записанное на кольцо из маг нитной ленты.
Испытуемый должен был произносить то же или другое звуко сочетание «синхронно» с внешним стимулом. Звукосочетания, использованные в качестве стимулов, и соответствующие им ре акции приведены ниже.
|
fata] |
[ala] |
[ata] |
|
[ada] |
[ada] |
[ada] |
|
[asa] |
[asa] |
[asa] |
Стимул |
[atma] |
[aba] |
[amsa] |
|
[amtaj |
[adma] |
[asma] |
|
|
[amda] |
[atsa] |
|
|
[azda] |
[afa] |
Реакция ( |
[ataj |
[ada] |
[asa] |
57
Ответы испытуемого (приблизительно 50 в каждом отдельном опыте) регистрировались на экране двухлучевого осциллоскопа в виде линейчатого растра (рис. 3.3), где по горизонтальной оси — время относительно начала стимула (или относительно предшест вующего ему синхронизирующего импульса, запускающего луч осциллоскопа), по вертикальной оси сверху вниз — порядковый номер ответа (/), а интенсивность засветки характеризует оги бающую реакции. В верхней части кадра регистрировалась
Рис. 3.3. Фотография изображения, полученного на электронном осцилло скопе в одном из опытов по синхронизации произнесения звукосочетания [ada] (ответы испытуемого) с речевым стимулом [amda]. По [®3].
(с помощью второго луча) осциллограмма предъявляемого сти мула.
На рис. 3.4 приведены результаты измерений временнбй картины стимулов (значения t2, t3, г4) и реакций-ответов испытуе мых (средние по 5 испытуемым значения t*, t*2, t*, t*}. Как видно из рисунка, временная картина произносимого звукосочетания приближенно воспроизводит временную картину стимула. По лученные результаты показывают, что в среднем момент окончания первого гласного в реакции (t*,) достаточно хорошо соответствует моменту окончания первого гласного в стимуле (t2); это же можно сказать и о моменте начала второго гласного стимула и реакции (t3 и t*3). Такое соответствие достигалось испытуемыми за счет управления длительностью согласного при речеобразовании: в тех случаях, когда в стимуле было сочетание из двух согласных, интервал согласного в реакции растягивался (см. на рис. 3.4
58
стимулы [atma], [adma], [asma] и т. д.; точечной кривой обозна чена граница между согласными в стимуле).
Интересная особенность наблюдалась в тех случаях, когда вторым согласным в стимуле был сонант (стимулы [adma], [atma], [asma]). Было обнаружено, что длительность согласного в реак-
1’iic. 3.4. Временные отношения между стимулами и реакциями. По Is3].
По оси абсцисс — стимулы; по оси ординат — время (за нуль принято начало стимула). Сплошными линиями обозначены временные положения границ между гласными и соглас ными в стимулах; прерывистыми — в реакциях. Точечной кривой обозначено положение границы между двумя согласными в соответствующих стимулах. Разные реакции обозна чены разными значками: [asa] — треугольниками, [ada] — крестиками, [ata] — круж-
ками.
циях, создаваемых в ответ на эти стимулы, оказывается в среднем уменьшенной по сравнению с длительностью согласных в стимуле. Как выяснилось, это было связано с тем, что в половине случаев испытуемые принимали начало сонанта за начало второго глас ного.
В экспериментах по синхронизации был обнаружен еще один чрезвычайно интересный эффект, заключающийся в том, что флюк туации во времени более поздних явлений (границ сегментов) в реакции были меньше, чем флюктуации более ранних явлений (рис. 3,5),
Гис. 3.5. Фотографии опытов но синхронизации пропзнесенпя зву косочетания [ada] со стимулом [aba] (7) н со стимулом [amda] (2).
По [16Ч.
Рис. 3.6. Результаты
классификации опытов по признаку зависимости между величиной флюк туаций сегментной гра ницы и порядковым но мером границы внутри звукосочетания. По [1в*].
Обозначения см. в тексте.