Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

имеет сглаживающее звено (фильтр низких частот). Так как интенсивность гласных и согласных в речевом потоке различна, то в зависимости от величины постоянной времени такого фильтра громкость звуков может оказаться разной при использовании разных измерительных процедур: в одном случае на фильтр будет

подаваться непрерывный сигнал, в

другом — он будет работать

в переходном режиме.

сигнала, определяющие ме­

Изменения высоты речевого

лодический компонент интонации, создаются изменением частоты основного тона, управление которым в процессе речеобразования осуществляется непрерывно [3- 29]. Результирующий контур ча­ стоты, как правило, представляет собой достаточно сложную кри­ вую, для описания которой применяют ответ сложного апериоди­ ческого фильтра на ступенчатое возмущение [268, 414]. Если бы при восприятии просодической информации человек пользовался процедурой «анализа через синтез», а любые мелодические изме­ нения можно было описать реакцией одного и того же фильтра, то достаточно было бы указать, на каком элементе в речевом потоке произошло ступенчатое изменение управляющего сигнала

икакова была величина этого изменения. Однако анализ экспе­ риментально полученных контуров частоты основного тона пока­ зывает, что параметры фильтров должны зависеть от темна речи

имогут изменяться от произнесения к произнесению, а точность аппроксимации, используемая в качестве критерия правильности теоретических построений, практически не зависит от формы аппроксимирующей функции и может быть достаточно высокой даже при использовании линейно изменяющихся функций [30]. Оказалось также, что при задании на контуре частоты основного тона ряда «особых» точек восприятие мелодии слушателем почти не зависит от вида траектории изменений частоты между этими точками [291]. Меловероятно в этих условиях, чтобы человек пользовался методом «анализ через синтез» при восприятии мело­ дических изменений в речи. Скорее он пользуется результатом измерения некоторых параметров в контуре изменяющейся ча­ стоты основного тона. Что это за параметры и как они могут изме­ ряться в речевом сигнале, будет показано в главе 12. Здесь мы попытаемся рассмотреть только вопрос о том, на каких отрезках

вречевом потоке производится их измерение.

Впредыдущих разделах главы говорилось о том, что суще­ ственные с точки зрения восприятия просодической информации изменения частоты основного тона происходят в основном на гласных (как правило, ударных). Возможен вывод, что соответ­ ствующие высотные изменения оцениваются слуховой системой человека именно на отрезках гласных. Так как слуховая система выделяет марки начал и концов гласных (см. главу 3), такой результат, казалось бы, проще всего получить при условии, что сегментация предшествует измерению. Изменения же частоты основного тона на отрезке (в данном случае на гласном) могут

описываться в слуховой системе двумя отсчетами: в начале и конце отрезка (см. главу 12). Совершенно очевидно, что такое описание обеспечивает независимость восприятия данного кон­ тура от траектории изменения частоты между двумя точками отсчета.

Однако надо иметь в виду* что способность описывать измене­ ния частоты начальным и конечным ее значениями на отрезке была показана с использованием сигналов, в которых начало и конец изменения совпадали с началом и концом самого сигнала. С другой стороны, если сегментация мелодического контура пред­ шествует измерениям частоты основного тона, а описание контура производится в терминах начальных и конечных значений частоты на отрезках, то может быть затруднено или просто окажется не­ возможным доказанное экспериментально использование разности частот на стыке согласного и гласного для различения [Ь] и [ш] [1511, а изменений на начальном участке гласного для различения [р] и [Ь] [2S2J. В первом случае препятствием может стать неточность сегментации, во втором — отсутствие членения гласного на более мелкие элементы. Таким образом, описание контура частоты основ­ ного тона только начальным и конечным отсчетом частоты на отрезке гласного может оказаться достаточным для восприятия интонации и совершенно недостаточным с точки зрения получе­ ния дополнительных признаков для фонемной идентификации.

Поэтому надо предположить либо существование двух незави­ симых систем измерения частоты основного тона (одной для вы­ деления просодических параметров, другой — фонематических), либо совершенно иную структуру измерителя, в которой выделе­ ние и измерение признаков мелодического контура производится непрерывно и независимо от сегментации потока, а считывание и запись в оперативную память результатов измерения — в мо­ менты появления сигналов сегментации. В пользу такой струк­ туры измерителя говорит способность слуховой системы выделять в контуре изменения частоты основного тона некоторые особые точки: начало изменения частоты, знак (направление) изменения, экстремумы (изменение направления) и т. д. [2911. В результате контур оказывается как бы расчлененным особыми точками на последовательность отрезков и может быть описан набором ’при­ знаков, каждый из которых характеризует один из отрезков. При появлении марок сегментации речевого потока каждому элементу, выделяемому ими, приписывается тот набор параметров мелодического контура (в порядке их появления), который был выделен измерителем за время между появлением марки начала и конца данного элемента речевого потока.

Обратимся теперь к вопросу о том, в каком виде могла бы быть записана в оперативную память просодическая информация: в виде ли окончательных решений или в виде набора просодиче­ ских признаков, обеспечивающих принятие того или иного реше­ ния. В главе 2 речь шла о том, что для успешного лингвистиче­

ского анализа высказывания необходимо использовать просоди­ ческую информацию уже при синтаксическом и морфологическом анализе. На практике это означает, что она должна быть запи­ сана в оперативную память одновременно с последовательностью фонемных вариантов и, по возможности, в виде окончательных решений, т. е. в виде указаний места словесного и логического ударений, границ слов и синтагм и т. п. Однако после перехода от признаков к решениям система последующего анализа теряет возможность в дальнейшем обращаться к признакам и начинает работать только с решениями. При ошибке в системе измерения или недостаточно четко выраженных признаках возникает опас­ ность принятия ошибочного решения, а снова обратиться к призна­ кам для его коррекции уже невозможно. Поэтому желательно в процессе анализа как можно дольше работать с признаками и не переходить к решениям. Это чревато увеличением числа анализи­ руемых вариантов, перебором большого количества гипотез. Необ­ ходимо поэтому стремиться к некоторой «золотой середине».

Очень может быть, что тот или иной ответ на вопрос о способе

и форме записи просодической информации в оперативную память

внемалой степени зависит от характера процедур принятия ре­ шений и от структуры оперативной памяти.

Относительно структуры оперативной памяти можно предпо­ ложить два варианта ее построения: пассивный, при котором опе­ ративная память является только хранилищем информации, и ак­ тивный, допускающий некоторые логические операции с записан­ ной информацией и перезапись результатов. При первом варианте мы вынуждены заносить в память готовые решения, при втором — записывать признаки, а решения принимать уже на основе запи­ санных в память признаков. Ясно, что активная структура опе­ ративной памяти наилучшим образом отвечала бы требованию сохранять как можно дольше в процессе восприятия речи при­ знаки и не переходить к решениям.

В первом приближении правила принятия решений можно отнести к двум уровням: уровню выделения просодических призна­ ков из параметров речевого сигнала, измеренных слухом, и уровню лингвистической интерпретации этих признаков.

Правила первого уровня должны, по-видимому, работать с па­ раметрами речевого сигнала на отрезке, не превышающем дли­ тельности двух—трех слогов, и обеспечивать не только выделение признака из сложного параметра, но и объединение данных о не­ скольких параметрах. Можно предположить, что характер ре­ шающих правил будет изменяться в зависимости от величины конкретного параметра. Так, из данных анализа длительностей ударных и безударных гласных в русском языке [171 следует, что независимо от темпа речи существуют ненерекрывающиеся диапа­ зоны длительностей, характерные только для ударных или только для безударных гласных. Это означает, что при величинах пара­ метров, больших или меньших некоторых критических значений,

возможны правила, работающие с абсолютными значениями пара­ метров. Но как только значение параметров попадает в область, где возможны взаимоисключающие решения, необходимо исполь­ зовать правила принятия решений, в которых учитывались бы конкретные условия произнесения. Здесь надо иметь в виду две возможности: сравнение с эталонами, т. е. с некоторыми усред­ ненными параметрами сигнала, и сравнение с ближайшими сосе­ дями в речевом потоке. Сравнение с эталонами требует предвари­ тельного нормирования измеренных для данного отрезка пара­ метров по средним величинам громкости, высоты и темпа, и в этом недостаток этой процедуры. Сравнение с ближайшими соседями нормирования не требует (в пределах семи слогов, записываемых в оперативную память, среднюю громкость, высоту и средний темп можно считать постоянными) и сравнительно просто реали­ зуется при активной структуре оперативной памяти.

В обоих случаях имеет место сравнение двух величин и реше­ ние представляет собой ответ на вопрос, равны ли сравнительные величины, а если нет, то какая из них больше (меньше). Система сравнения не может работать без некоторой зоны нечувствитель­ ности, в пределах которой сигналы принимаются равными. В об­ щем случае зона нечувствительности должна быть принята несим­ метричной, т. е. ее ширина не одинакова по обе стороны от точки равенства. Показано, что, используя предположение о существо­ вании зоны нечувствительности и о нормальном законе распре­ деления ошибок, удается удовлетворительно интерпретировать результаты психоакустических экспериментов [474].

В обычном психоакустическом эксперименте, когда от испы­ туемого требуется оценивать сигналы по принципу «короче—длин­ нее», «тише—громче», «ниже—выше» (если речь идет о восприятии частоты основного тона), на окончательный результат могут влиять зашумленность исходного акустического сигнала, «шумы» в изме­ рителе, флюктуации величины зоны нечувствительности, эффект забывания параметров первого по порядку сигнала и т. д. В ре­ зультате физически равные сигналы не всегда оказываются субъ­ ективно одинаковыми.

Ранее было показано, что в естественной речи просодическая информация передается одновременно несколькими параметрами. Следовательно, решающие правила должны «уметь» объединять эти параметры, учитывая при этом степень важности каждого из них, его «вес». Известно, что человек способен оценивать не только сам факт различия двух сигналов по данному признаку, но и степень своей уверенности в этом [241, 622]. Эта оценка могла бы быть использована в качестве меры «веса» данного признака. В главе 4 уже говорилось, что такая система дополнительных оценок должна существовать в устройствах фонемной идентифи­ кации.

Правила второго уровня базируются на правилах и статистике языка, носителем которого является слушатель, понимании им

конкретной ситуации общения и используют в качестве входных сигналов признаки, полученные на первом уровне. В этой связи становится понятной отмеченная в начале главы неспособность испытуемых оценивать просодические признаки как таковые при восприятии осмысленного речевого сообщения: при переходе к ре­ шениям лингвистического и коммуникативного уровня происхо­ дит «забывание» исходных просодических признаков.

На этом этапе существенное влияние может оказывать отступ­ ление от естественности, привычности набора признаков, извле­ ченных из речевого сигнала. Задание части признаков в стимуле вне их естественного диапазона может привести к иному восприя­ тию остальных. Так, при исключении свойственных интонации завершенности изменений интенсивности в конце фразы один и тот же контур частоты основного тона опознается как завершаю­ щий значительно хуже (на 20 и более процентов). [1221

Следовательно, использование при исследовании процесса вос­ приятия просодической информации ответов испытуемых, осно­ ванных на применении решающих правил высокого уровня, чревато опасностью получить ошибочное представление о структуре про­ содических признаков, записываемых в оперативную память одновременно с фонемной информацией.

периментах I185] была засвидетельствована адаптация к отдель­ ной частоте форманты, однако этих данных недостаточно для вы­ бора между указанными возможностями.

В приведенном кратком обзоре мы не останавливались на боль­ шом числе фактов, касающихся того, какие вообще особенности речевого сигнала могут быть существенными для фонемной клас­ сификации. Соответствующие более подробные данные можно найти, например, у Стивенса и Хауза [485].

Опыт работы по синтезу по правилам [218] говорит о том, что при восприятии речи используется очень большое число призна­ ков сигнала и что труднее найти такие изменения в сигнале, кото­ рые прошли бы незамеченными, чем наоборот. Это, очевидно, означает, что чисто эмпирическая работа по поиску признаков малоперспективна. Необходимо иметь хотя бы предварительные гипотезы о том, какого типа обработку речевого сигнала осу­ ществляет слуховая система и какие признаки сигнала имеет смысл выбирать в качестве условных при исследовании фонемных гра­ ниц. Такую информацию можно в какой-то мере извлечь из дан­ ных физиологии слуха и психоакустики.

Глава 5

ВОСПРИЯТИЕ ПРОСОДИЧЕСКОЙ

ИНФОРМАЦИИ

По определению Трубецкого [132], «звуковые при­ знаки, образующие в разных языках смыслоразличительные оппозиции, можно подразделить на три класса: вокалические, консонантные и просодические» (стр. 102).

Отсюда вытекает, что для понимания смысла речевого сообще­ ния необходима фонемная и просодическая информация и что в последнюю входит все воспринимаемое в речевом сигнале, по­ мимо последовательности фонем. Совершенно очевидно, что при таком определении просодической информации ее конкрет­ ное содержание в значительной степени зависит от содержания фонемной информации. Так, если фонемная информация соот­ ветствует последовательности фонемных вариантов (см. главу 4), то сведения о словесной границе, извлекаемые из факта появле­ ния пограничных аллофонов [218 270 312, 343], следует отнести к фонемной, а не к просодической информации. Напротив, если фонемная информация представлена фонемами московской фоно­ логической школы, то сведения о словесных границах придется отнести в разряд просодической информации.

Приступая к исследованию восприятия просодической ин­ формации, целесообразно разделить эту сложную проблему на несколько менее крупных, связанных с решением следующих вопросов.

1. Какие (какого типа) сведения, необходимые для понима­ ния смысла устного сообщения, извлекаются из акустического сигнала при восприятии речи?

2.В каких параметрах сигнала эти сведения содержатся'1 При этом надо иметь в виду, что параметры — это результат об­ работки акустического речевого сигнала слухом, т. е. специфи­ ческим измерительным прибором.

3.Что представляют собой процедуры перехода от парамет­ ров к промежуточным смыслоразличительным решениям (про­ содическим признакам)?

Г лава 6

ВРЕМЕННАЯ ОРГАНИЗАЦИЯ ПРОЦЕССА

ФОНЕТИЧЕСКОЙ ИНТЕРПРЕТАЦИИ

Данные, приведенные в предыдущих^главах, позво­ ляют в первом приближении определить, какое описание речевого сигнала должно содержаться в оперативной памяти после того, как фонетическая интерпретация окончена, а морфологический анализ еще не произведен. Это описание можно представить таб­ лицей (6.1). Вертикальная организация таблицы обеспечивает возможность записи как фонемной, так и просодической информа­ ции и отражает привязку фонемной информации к двум классам отрезков сигнала: гласным (Г) и негласным (Г). Дополнительное разделение столбца Г дает возможность сохранить информацию о последовательности согласных (С) в сочетаниях согласных — «кластерах» — в условиях, когда отдельные согласные распоз­ наны только частично — установлены их значения лишь по неко­ торым из психологических (дифференциальных) признаков. Под­ черкнем, что признаки гласных и согласных в таблице — это признаки «на выходе» фонемного классификатора, а не свойства

акустического сигнала, используемые для

классификации

(см. главу 4). Сведения, записанные в табл. 6.1,

мы будем обозна­

чать как фонетическое описание сигнала.

 

Процесс, обеспечивающий преобразование слухового изобра­ жения воспринимаемого речевого сигнала в фонетическое описа­ ние элементов, обозначается как фонетическая интерпретация или фонетический анализ. Модель, реализующая этот процесс, назы­ вается «фонетическим интерпретатором», «фонетическим процес­ сором», «фонетическим анализатором».

Алгоритм работы фонетического интерпретатора пока остается неизвестным, о чем, в частности, свидетельствует отсутствие серьезных успехов в автоматическом распознавании речи. Вместе с тем некоторые представления о возможных принципах его дей­ ствия сформировались за последние 2—3 года благодаря довольно интенсивным психологическим исследованиям.

Таблица 6.1

Описание речевого сигнала на «входе» блока морфологического анализа

 

 

г

г

 

 

г

г

с

с

с

с

с

с

с

с

Признаки согласных

 

 

 

 

 

 

 

Признаки гласных

 

 

 

 

 

 

 

Просодические признаки

 

 

 

 

 

 

 

Приводимое ниже изложение существа этих представлений основывается преимущественно на статьях Массаро [376] и Уор­ рена [621]. Мы вынуждены, однако, признаться, что, так как эти авторы используют каждый свою собственную и довольно неопре­ деленную терминологию, возможно, мы упустили некоторые нюансы и наше изложение грешит известным упрощением.

Принимается, что модель работает в реальном времени со сравнительно небольшой задержкой интерпретации относительно сигнала. Модель обладает «сенсорной» памятью, т. е. использует в качестве входного сигнала изображение некоторого отрезка ре­ чевого стимула. Это изображение можно представить себе, напри­ мер, как картинку, соответствующую или отрезку динамической спектрограммы, или отрезку записи параметров сигнала (частоты формант, основная^частота и т. д.) при их параллельной регистра­ ции. Модель одновременно «видит» всю картину в целом и пре­ образует ее в набор фонетических сведений, записываемых в опре­ деленную группу соседних столбцов табл. 6.1_. Такая группа может, например, состоять из столбцов ГГ или ГГ. Преобразова­ ние осуществляется или путем идентификации картинок или путем их анализа. В случае идентификации предполагается, что имеется набор типовых картинок. Каждому номеру в этом наборе

сопоставлены, с одной стороны, правила распознавания кар­ тинки, отнесения ее к этому номеру, а с другой стороны — группа фонетических сведений, играющих роль развернутого названия картинки. В случае анализа предполагается набор правил, связывающих определенные свойства картинки с определенными фонетическими сведениями. При этом оказывается возможным частичное распознавание картинок — часть сведений получена, а часть осталась неизвестной.

Наиболее существенное допущение, используемое при обоих указанных вариантах (идентификация и анализ), состоит в том. что модель работает последовательными циклами. Закончив обра­ ботку одной картинки и записав ее название, программа возвра­ щается в начальное состояние и начинает обрабатывать следую­ щую картинку. Таким образом, после каждого цикла произво­ дится заполнение нескольких (а не одного!) столбцов табл. 6.1. новый цикл соответствует переходу к новой группе столбцов.

Легко заметить, что обработка, организованная таким образом, должна использовать два ряда правил. Кроме правил, описываю­ щих связь между признаками картинки и ее названием (фонети­ ческими сведениями), алгоритм должен еще включать правила, обеспечивающие окончание цикла и переход к следующему циклу. Информация, используемая этими правилами, также должна из­ влекаться из речевого сигнала. Иначе говоря, отрезок речевого потока, соответствующий одному циклу работы модели, должен обладать некоторыми формальными свойствами, т. е. быть в ка­ ком-то смысле элементом потока.

Имея в виду описанный принцип обработки, сведения, запи­ санные в табл. 6.1, можно рассматривать как последовательность названий картинок, где каждое название в свою очередь может включать последовательность фонем. Число названий, записан­ ных в таблице, равно числу полных циклов работы модели и числу элементов в обработанном сигнале. Внутри одного названия связь между числом фонем, входящих в название, и числом мел­ ких кусочков, на которые можно было бы разделить одну кар­ тинку, может быть сложной. Признаки одного кусочка картинки могут содержать информацию относительно нескольких фонем.

Признаком одной фонемы могут быть определенные отношения между соседними кусочками картинки. Другими словами, по­ пытки механически разложить элемент потока на такую последо­ вательность более мелких составных частей, чтобы число этих частей равнялось числу фонем, входящих в название элемента, могут быть в принципе безнадежными.

Приведенные выше модельные представления дают возмож­ ность сгруппировать имеющиеся экспериментальные данные во­ круг двух основных вопросов: 1) элемент потока и возможные методы его выделения при восприятии и 2) описание отрезка рече­ вого сигнала на входе фонетического интерпретатора — картинка или последовательность акустических событий.

Соседние файлы в папке Нормальная физиология