Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

За время этого интервала испытуемый должен был воспроизвести ритмический рисунок последовательности как [tatata. . в удоб­ ном для него темпе. Разные таблицы (100 последовательностей) отличались друг от друга значениями Т.

На рис. 6.9 кривой 1 показан процент правильно воспроизве­ денных последовательностей как функция от длительности интер­ вала, занятого короткой посылкой плюс паузой (2Т). Кривой 2 показана накопленная гистограмма значений границы между [г] и последовательностью слогов, определенных в работе [вз]. При по­ строении этой гистограммы использовались данные, приведенные на рис. 6.4, частота амплитудной модуляции пересчитывалась в период модуляции (1//м). Можно видеть, что обе кривые прак­ тически совпадают.

Анализ искажений ритмического рисунка при его воспроиз­ ведении (он был сделан для тех таблиц стимулов, где количество ошибочных воспроизведений превышало 30%) показал, что слу­ чаи, когда ответная последовательность содержит больше элемен­ тов, чем переданная, очень редки. Они составляют всего 7% от всех ошибок. В 76% случаев ответная последовательность содер­ жит меньше элементов, чем переданная. Примерно 45% всех ошибочных ответных последовательностей соответствует таким последовательностям, которые были бы получены из переданных, если бы в переданной последовательности была пропущена одна короткая посылка.

Таким образом, можно утверждать, что основной причиной искажения ритмического рисунка является пропуск одного или нескольких элементов.

Дополнительные эксперименты показали, что определяющим фактором является длительность «слога», т. е. интервала, состоя­ щего из посылки и паузы. Перераспределение времени между посылкой и паузой внутри этого интервала мало влияет на резуль­ таты эксперимента.

Совпадение результатов, полученных в трех описанных выше работах, позволяет думать, что правила обнаружения элемента в последовательности не являются специфическими для речи, т. е. скорее заложены генетически, чем приобретены в процессе обучения.

Доводом в пользу этого предположения являются результаты, полученные Гольдбурт [49]. Автор предъявляла испытуемым две следующие друг за другом одинаковые по частоте тональные по­ сылки и меняла как длительность посылки (^ на рис. 6.10), так и величину паузы между ними. Испытуемые должны были сооб­ щать, слышат ли они два сигнала или один сложный звук.

Полученные результаты приведены на рис. 6.10 (график по­ строен нами по данным [49], с. 154; вычислены средние значения порога по всем испытуемым). Из рис. 6.10 следует, что порог восприятия двух сигналов определяется интервалом t2, равным сумме длительности посылки и паузы. Как распределен этот

интервал между посылкой и паузой, безразлично. Значение t2 на­ ходится в районе 60—70 мс, т. е. практически совпадает с приве­ денными выше оценками минимальной длительности слога, необ­ ходимой для его обнаружения.

Приведенные в настоящем разделе данные показывают, что выделение элемента основывается на временных правилах такого типа, что два «одинаковых» события (начала двух соседних посы­ лок или концы двух соседних посылок) должны появляться не раньше, чем через определенный интервал времени. Для реализа­ ции таких правил необходимо располагать специальными сигна­ лами, обозначающими начало и конец посылки — марками начала и конца.

Если марка начала первого отрезка предшествует марке начала второго отрезка меньше, чем на примерно 65 мс, то первый отре­ зок не принимается за гласный звук. Таким образом, решение о гласном должно быть задержано не менее чем на 65 мс от на­ чала отрезка. Естественно предположить, что определение того, к какой именно гласной фонеме относится отрезок, должно на­ чаться уже после того, как выяснено, что отрезок действительно является гласным звуком. С этой точки зрения кажется довольно логичным, что обнаружение гласных (слогов) осуществляется при более высокой частоте следования слогов, чем это допустимо для фонемного распознавания гласных (рис. 6.11).

6.1.3. ПРОБЛЕМА КОНЦА ГЛАСНОГО

Система, производящая сегментацию речевого потока на отрезки гласных и негласных и пользующаяся понятием допу­ стимых интервалов между началами и концами гласных, должна, естественно, пользоваться каким-то формальным определением гласного звука. Логично предположить, что гласный звук опре­ деляется как отрезок сигнала между маркой начала и маркой конца. При этом определении мы сталкиваемся с той трудностью, что гласный звук может быть длинным.

Очевидно, что если сенсорная память ограничена — модель «видит» только небольшой участок прошлых значений сигнала — фонемная интерпретация длинного отрезка должна осуществляться до того, как этот отрезок закончится. В противном случае может оказаться так, что к моменту начала интерпретации акустическая информация о начале отрезка будет потеряна. Тот факт, что чело­ век может осуществлять фонемное распознавание гласного звука, не дожидаясь конца этого звука, доказывается экспериментами по быстрой имитации гласных. Средние значения скрытых перио­ дов имитации обычно не превышают 200 мс [156 213]. Характер зависимости между формантными характеристиками гласных-сти­ мулов и гласных-реакций [2131 говорит о том, что классификация (на «психологические» фонемы) действительно имеет место. Надеж­ ность классификации достаточно велика — разборчивость (про-

Рис. 6.11. Временные ограниче­ ния восприятия сигнала как по­ следовательности элементов (1 и 2) и фонемного распознавания последовательности (3 и 4).

3 и 4 — зависимости правильного рас­ познавания последовательности глас­

ных в «бесконечном» стимуле от пери­ ода следования гласных по [503] и [5и41 соответственно. Остальные обозна­ чения те же, что на рис. 6.9.

Рис. 6.12. Критический интервал от начала звука по данным [24°]

и [«*].

Обозначения см. в тексте.

Рис. 6.13. Зависимость стандарт­

ного отклонения^- (о) длительно­ стей гласного-реакции, создавае­ мого при текущей имитации, от длительности (Т) гласного-сти­ мула. По [1М].

Точки а кружки — разные гласные.

цент правильного узнавания) гласных-стимулов, определенная при прослушивании вызванных этими стимулами гласных-реак­ ций, составляет 91—98% [15в]. Спектр гласного-реакции, созда­ ваемого при быстрой имитации, как правило, не меняется на протяжении звука [213]. Это говорит о том, что к моменту начала фонации, т. е. примерно через 200 мс от начала стимула (длитель­ ность стимула составляла 300 мс), речевой тракт имитирующего испытуемого уже принял соответствующую данной фонеме кон­ фигурацию.

Распознавание стимула, основанное на наблюдении отрезка стимула, но не трубующее информации об окончании стимула, могло бы обеспечиваться «опросом», задержанным относительно марки начала на фиксированный интервал времени.

Данные о существовании некоторого критического интервала от начала стимула были получены Эфроном [24°]. Эксперимент состоял в том, что на одно ухо испытуемого подавалась посылка белого шума с разными значениями длительности, на второе ухо — тон 2 кГц, длительностью 500 мс, запаздывающий по времени относительно шума. Время запаздывания начала тона изменялось, испытуемый должен был давать один из двух ответов: «стимулы переслаиваются», «между стимулами имеется пауза». Пороговым считалось то значение запаздывания начала тона относительно начала шума, которое соответствовало смене этих ответов.

Полученные значения порогового запаздывания как функция длительности шумовой посылки приведены на рис. 6.12, кривая 1 (график построен по данным Эфрона [24°], приведенным в таблич­ ной форме; точки и треугольники — данные разных испытуемых).

Можно видеть, что, пока длительность шума не достигнет 120— 130 мс, значение запаздывания не меняется, т. е. не зависит от длительности шума. При больших длительностях шума величина запаздывания равна длительности шума плюс примерно 50 мс, т. е. начало тона привязано к концу шума.

Принципиально аналогичные результаты были получены раньше [1641 при исследовании вопроса о том, с каким отрезком стимула работает человек, преобразуя сигнал в последователь­ ность артикуляторных движений при быстрой имитации. Испытуе­ мые должны были как можно быстрее повторять синтетические стационарные гласные, длительности которых варьировали от стимула к стимулу в пределах от 50 до 400 мс.

Ясно, что стимулы, кончающиеся позже того как испытуемый уже начал их воспроизводить, должны трактоваться как последо­ вательность событий «начало звука» и «конец звука», а их воспро­ изведение — как последовательность реакции «начало фонации» и «конец фонации».

Была сделана попытка найти, какой длительностью должен обладать стимул, чтобы трактоваться как последовательность из двух событий. На рис. 6.12 (кривая 2) приведена средняя длитель­ ность гласного-реакции (по оси ординат) как функция длитель­

ности гласного-стимула. Можно видеть, что пока длительность стимула не превышает 100—125 мс, испытуемые создают реакции практически одинаковой длительности.

При больших длительностях стимула длительность реакции резко возрастает и начинает зависеть от длительности стимула. Свидетельством скачкообразного перехода от одного способа реа­ гирования к другому является зависимость стандартного откло­ нения длительности реакции от длительности стимула (рис. 6.13).

Обе кривые на рис. 6.12 свидетельствуют о существовании некоторой критической длительности звука, причем значения ее оказываются одинаковыми в обеих работах.

Подчеркнем, что на основании этих работ можно говорить лишь о существовании такого феномена, как критическая дли­ тельность. Эксперименты слишком сложны, чтобы можно было понять, что скрывается за этой критической длительностью и имеет ли она какое-либо значение при восприятии речи. Тем не менее любопытно проверить, не были ли обнаружены при иссле­ довании восприятия речи временные константы, равные критиче­ ской длительности. Оказывается, что примерно такое значение имеет граница по длительности между долгими и краткими глас­ ными фонемами (см. главу 3). Кроме того, пороговая длительность слога, необходимая для его обнаружения (см. раздел 6.1.2), равна половине критической длительности. Хотя очень вероятно, что это является случайным совпадением, заманчиво предполо­ жить, что марка начала посылки вызывает генерацию импульсов опроса, следующих с фиксированной низкой частотой.

Вернемся теперь к проблеме конца гласного в речевом потоке и возможным экспериментальным методам ее исследования.

Попытки разработать технические схемы для сегментации речевого потока на гласные и негласные наталкиваются на то, что по своим физическим характеристикам гласные звуки довольно близки к сонантам. Следовательно, существует опасность, что явление, принятое за марку начала гласного, в действительности окажется началом сонанта. Выяснить, была ли допущена ошибка, можно, дождавшись следующей[по времени марки. В случае глас­ ного она должна оказаться маркой конца, в случае сонанта — маркой начала (начало следующего за сонантом гласного). Однако, если сенсорная память’ограничена, ждать слишком долго нельзя, т. е. после некоторой^задержки решение должно быть принято, даже если вторая^марка не поступила.

Попытка выяснить, как будет вести себя человек в ситуации, когда неизвестно, с чего (гласного или сонанта) начинается стимул, была предпринята в работе [8Б] и в экспериментах Жукова.

На рис. 6.14 приведены два типа огибающих синтетического гласного’[а], применявшиеся в’экспериментах Жукова. Конечный сегмент стимула в обоих типах стимулов (Л и Б) был одинаковым, его длительность (£3) составляла 200 мс. Как стимул А, так и сти­ мул начинался с сегмента, уровень интенсивности которого

155

был на 12 дБ ниже уровня интенсивности конечного сегмента. Разница между стимулами заключалась в том, что стимул А со­ стоял из трех сегментов (уровень интенсивности среднего сегмента был на 6 дБ ниже начального уровня), а стимул Б — из двух сег­ ментов.

По предположению, стимулу А должна соответствовать после­ довательность марок границ, характерная для сочетания ГСГ — за первой маркой начала следует марка конца. Стимулу Б должна соответствовать последовательность марок, характерная для

Рис. 6.14. Схематическое изображение трехсегментного (Л),и двухсегмент­ ного (Б) стимулов.

Обозначения см. в тексте.

Рис. 6.15. Обнаружение первого гласного в трехсегментных двухсегмент­ ных стимулах.

По оси абсцисс — длительность интервала от начала стимула до момента возрастания его интенсивности; по оси ординат — относительное количество случаев, когда стимул вос­

принимался как последовательность ГСГ. 1

трехсегментный стимул (Л на рис. 6.14);

2 и 3 — двухсегментный стимул (Б на рис.

6.14). Остальные обозначения см. в тексте.

слога СГ — за первой маркой начала следует еще одна марка начала.

Длительность среднего сегмента в стимуле A (t2) (и соответ­ ствующей части первого сегмента в стимуле Б) равнялась 75 мс. Переменным параметром была длительность Ц (рис. 6.14).

В таблице, записанной на пленку, стимулы обоих типов следо­ вали в случайном порядке. Испытуемые должны были определять, является ли стимул одним гласным, слогом СГ или сочетанием ГСГ.

Полученные данные (% ответов ГСГ) приведены на рис. 6.15 (сплошные кривые). Штриховой кривой приведены данные ра­ боты [8Б], где применялись только стимулы типа Б.

Данные для трехсегментного стимула А практически совпали с данными, полученными ранее (см. раздел 6.1.2) для последова­ тельностей посылок гласного, разделенных паузами. 50% ответов ГСГ соответствует длительности первого сегмента (Ц), равной

35 мс (^+^=110 мс). Таким образом, если у отрезка гласного выделяется конец, обнаружение гласного может осуществляться достаточно быстро.

Для восприятия двухсегментного стимула Б как сочетания ГСГ требуется большая длительность первого сегмента. 50% отве­ тов ГСГ приходится на значение длительности, равное 170 мс. Судя по тому, что и при 200 мс ГСГ воспринимается еще не в 100% случаев, максимальная задержка фонемной интерпретации пер­ вого отрезка может, очевидно, превышать 200 мс. Если верны при­ веденные выше соображения о связи максимальной задержки с длиной отрезка сигнала, хранимого в «сенсорной» памяти, то длина этого отрезка должна быть не меньше 200 мс.

Вся сумма данных, приведенных в разделах 6.1.1—6.1.3, подтверждает представление о том, что слоги обрабатываются по­ следовательно и что понятие слога используется при членении потока на элементы. Для формирования в модели понятия слога необходимы такие промежуточные понятия, как марки начала и конца отрезка. Вопрос о том, как и где образуются эти марки, тесно связан с проблемой описания сигнала в сенсорной памяти.

6.2. ОПИСАНИЕ СИГНАЛА НА ВХОДЕ ФОНЕТИЧЕСКОГО ИНТЕРПРЕТАТОРА

До сих пор мы говорили о том, что отрезок сигнала, обрабатываемый фонетическим интерпретатором, можно предста­ вить себе как картинку, изображающую или динамическую спек­ трограмму этого отрезка, или кривые параметров сигнала на этом отрезке. Сейчас необходимо более точно определить, что можно понимать под картинкой и какие допущения скрываются за пред­ положением о том, что интерпретатор «видит» картинку.

Картинкой естественно считать последовательность из п равноотставленных (на Ат) временных отсчетов значений или спектра сигнала, или его параметров (частот формант, основного тона, огибающей и т. д.).

Говоря, что фонетический интерпретатор «видит» картинку стимула на временном интервале Tfc=/zAx, мы подразумеваем, что он одновременно имеет на входе информацию о всех п отсчетах и что упорядоченность значений изображения стимула по оси т воспроизводит порядок появления этих значений стимула во вре­ мени. Это означает, что мы допустили, что до интерпретатора имеется память. Элементы этой памяти образуют упорядоченную шкалу, на которой отображается время. Память, отвечающая этим требованиям, может быть реализована или в виде набора линий задержки, где каждая линия имеет п отводов с интервалами Ат, или в виде упорядоченного множества запоминающих эле­ ментов, в которые последовательно, по мере поступления сигнала, записываются значения его временных отсчетов.

В случае первого предположения (линии задержки) мы имеем дело с «временным окном», мимо которого скользит изображение. При этом возникает проблема выбора моментов времени, когда это изображение будет передаваться на вход интерпретатора. В случае второго предположения, если не превышает длительности слога, возникает проблема управления записью и стиранием информации.

При представлении сигнала картинкой появляется неприятный эффект: одному и тому же слогу, многократно произнесенному одним и тем же диктором, будут соответствовать разные изобра­ жения. Это обусловлено случайными колебаниями темпа речи и тем, что движения разных артикуляторных органов не являются идеально синхронизированными. В результате возникает очень сложная проблема временной нормализации изображения. Норма­ лизация должна логически предшествовать распознаванию.

За последние годы все более отчетливо проявляется стремление найти такую форму изображения речевого сигнала, при которой последовательность наблюдаемых в сигнале явлений была бы сохранена, но точные временные отношения между этими явле­ ниями были бы несущественными.

Кажется, что такая возможность появляется, если допустить, что на вход интерпретатора поступает не спектральное или пара­ метрическое изображение речевого сигнала, но поток акустиче­ ских событий, обнаруженных в этом сигнале слуховой системой. В качестве примера возможных событий можно назвать появление или, наоборот, исчезновение энергии в определенной области спектра, сдвиг спектрального максимума в определенном на­ правлении, кратковременный импульс или, наоборот, паузу в сигнале.

Если фонетический интерпретатор имеет дело с потоком уже выделенных событий, то для него время как одна из координатных осей изображения может не существовать. Вместо времени по­ являются такие качественные понятия, как «одновременно», «следует за», «предшествует», «отставлено на t О С» и т. д.

Допустив, что слуховая система действительно обнаруживает такие (или какие-то другие) события, мы все равно столкнемся с проблемой запоминания. Для того чтобы избирательно реаги­ ровать на последовательность событий (А, В'у при неодновремен­ ном появлении А и В во времени, очевидно, необходимо запоми­ нать А на интервале времени, в течение которого В может по­ явиться. Однако такое запоминание просто реализовать, оно отнюдь не требует записи временных отсчетов процесса.

Итак, кажется возможным назвать две гипотезы относительно природы описания сигнала на входе фонетического интерпрета­ тора. Первую из них мы будем обозначать как гипотезу картинок, вторую — как гипотезу потока событий. Они принципиально отличаются друг от друга уже тем, что предполагают разное разде­ ление задач по обработке речевого сигнала между слуховой систе­ мой и фонетическим интерпретатором. Согласно первой гипотезе,

роль слуховой системы в обработке речевого сигнала сводится к частотному анализу и, возможно, выделению текущих значений параметров. При этом слуховая система должна обладать памятью (например, линиями задержки), допускающей подробное описание отрезка стимула длительностью порядка слога. Задачей фонети­ ческого интерпретатора (в процессе обучения) является формиро­ вание полезных признаков и выработка решающих правил, необ­ ходимых для распознавания сложных изображений.

Согласно второй гипотезе, слуховая система не только произ­ водит частотный анализ сигнала, но и частично решает задачу распознавания, обнаруживая в сигнале ряд существенных собы­ тий. Задачей фонетического интерпретатора (в процессе обучения) является формирование схем, реагирующих на определенные последовательности (комбинации) из поступающих на него событий.

Так как вторая гипотеза предполагает весьма специфическую обработку сигнала слуховой системой, проверка ее относится к области физиологии слуха.

Данные по восприятию согласных и быстрых неречевых после­ довательностей, которые будут приведены ниже, показывают, что допущение о том, что слуховая система выделяет определенные события в речевом потоке, является удобным в том смысле, что позволяет проще и экономичнее описать экспериментальные ре­ зультаты. Кроме того, они содержат некоторые указания на то, какие события следовало бы искать, если бы вторая гипотеза ока­ залась верной.

6 2.1. ОБНАРУЖЕНИЕ [г] РУССКИМИ СЛУШАТЕЛЯМИ

Кратковременное (не более чем примерно на 40 мс) прерывание гласного приводит к тому, что носители таких языков, как болгарский и русский, слышат [г] и стимул воспринимается ими как последовательность ГСГ [®7- 216].

Если длительность исходного гласного стимула фиксировать и смещать положение паузы относительно краев стимула, то че­ ловек воспринимает перемещение ударения с одного гласного на другой. Если сделать паузу совсем короткой, то [г] исчезает, исче­ зает и эффект перемещения ударения при смещении паузы. Испы­ туемый начинает слышать один непрерывный гласный, на фоне которого действует щелчок.

На этом изменении восприятия при укорочении паузы была основана методика определения минимальной [г]-паузы в синтети­ ческих гласных [52> 62]. Экспериментатор определял пороговую паузу методом границ, постепенно ее уменьшая или увеличивая шагом в 1 или 0.5 мс. Испытуемый имел возможность смещать положение паузы относительно краев стимула. Если при этом происходило перемещение ударения, испытуемый говорил, что пауза обнаруживается.

Определенные этим методом значения пороговой [г]-паузы у двух испытуемых оказались следующими: для [и] — 8.5, 8.0 мс; для [i] — 8.2, 7.9 мс; для [а] — 5.7, 5.6 мс.

Так как [г]-пауза является очень короткой, ее можно исполь­ зовать в эксперименте в качестве примера точно локализованного во времени события и попытаться выяснить, что для человека является характеристикой события. Логично подозревать, что характеристикой события может быть значение спектра (значение частот формант) в момент его возникновения.

В русском языке есть такая «удобная» особенность, что соглас­ ные фонемы различаются по твердости / мягкости, т. е. имеются

Рис. 6.16. Схематическое изображение стимулов, применявшихся в ра­ боте [в2].

А — формантный контур, Б — огибающая стимула.

Рис. 6.17. Положение паузы в стимуле, показанном на рис. 6.16, соответ­ ствующее границе между [iru] и [ir'u]. По [в2].

Па оси абсцисс — длительность паузы; по оси ординат — положение начала паузы Г, (Г) и положение конца паузы Т2 (г).

фонема [г] (твердая) и фонема [г'] (мягкая). Установлено также, что основным признаком, используемым для различения твердых и мягких согласных, является частота второй форманты [1в7, 169, 23°].

Это дало возможность использовать такую методику, когда испытуемому предъявлялся стимул с формантным контуром, со­ ответствующим [iu], и паузой в огибающей (рис. 6.16), а испытуе­ мый должен был установить положение паузы, соответствующее фонемной границе между [г] и [г'] ([iru]/[ir'u]), при разных дли­ тельностях паузы. Предварительные опыты показали, что порого­ вое значение [г]-паузы в таком нестационарном стимуле практи­ чески совпадает с таковым для стационарных [и]- и [il-стимулов.

В основном эксперименте (на группе из пяти испытуемых) использовались паузы, длительностью в 12, 16 и 20 мс. Каждый испытуемый осуществлял по 10 установок положения паузы, со­ ответствующего границе между [irn] и [ir'u].

Соседние файлы в папке Нормальная физиология