Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

АКАДЕМИЯ НАУК СССР

НАУЧНЫЕ СОВЕТ ПО КОМПЛЕКСНЫМ ПРОБЛЕМАМ ФИЗИОЛОГИИ ЧЕЛОВЕКА И ЖИВОТНЫХ

РУКОВОДСТВО ПО ФИЗИОЛОГИИ

ФИЗИОЛОГИЯ

РЕЧИ

ВОСПРИЯТИЕ

РЕЧИ

ЧЕЛОВЕКОМ

ИЗДАТЕЛЬСТВО «НАУКА»

ЛЕНИНГРАДСКОЕ ОТДЕЛЕНИЕ ЛЕНИНГРАД • 1976

Авторы:

Л.А. ЧИСТОВИЧ, А. В. ВЕНЦОВ, М. П. ГРАНСТРЕМ, С. Я. ЖУКОВ,

М.Г. ЖУКОВА, Э. Г. КАРНИЦКАЯ, В. А. КОЖЕВНИКОВ, , Д. М. ЛИСЕНКО |,

В.В, ЛЮБЛИНСКАЯ, В. Н. МУШНИКОВ, Н. А. СЛЕПОКУРОВА,

Н.А. ФЕДОРОВА, Р. X. ХААВЕЛЬ, И. А. ЧИСТОВИЧ, В. С. ШУПЛЯКОВ,

УДК 612.821.8 : 612.789 : 534.7S

Физиология речи. Восприятие речи человеком. (Чистович Л. А., Венцов А. В., Гранстрем М. П. и др.). В серии «Руководство по физиологии». Л,, «Наука», 1976. 388 с.

Книга посвящена рассмотрению процессов обработки речевого сигнала слуховой системой и мозгом человека. В первом разделе описываются свой­ ства речевого сигнала и обсуждаются проблемы понимания смысла устного сообщения. Во втором разделе излагаются данные и теоретические пред­ ставления относительно сегментации речевого потока, фонемной класси­ фикации звуков речи и восприятия ритмико-мелодических признаков речевых последовательностей. В третьем разделе описываются результаты иссле­ дований и моделирования периферического слухового анализа и рассматри­ ваются новейшие физиологические и психоакустические данные об обработке сигнала в слуховой системе. Ил. — 205, табл. — 6, лит. — 551 назв.

Редакционная коллегия Руководства:

Н.П. Бехтерева (зам. отв. редактора), В. А. Кисляков, Г. П. Конради,

П.Г. Костюк, К. А. Ланге (отв. секретарь), Б. Ф. Ломов, В. И. Медведев,

А.Л. Поленов, Т. Н. Турпаев, А. М. Уголев, В. Н. Черниговский (отв. редактор), А. И. Шаповалов, М. М. Хананашвили.

Редакционная коллегия тома:

А.В. Венцов, В. А. Кожевников, |Д. М. Лисенко|,

Л.А. Чистович (отв. редактор).

Ф

50300-580 „

© Издательство «Наука», 1976

055(02)-76 б70'76

ПРЕДИСЛОВИЕ

На протяжении последних 10—15 лет постепенно сформировалось научное направление, ставящее своей целью разработку системы, способной воспринимать и понимать речь, причем делать это так, чтобы общающийся с этой системой человек не мог бы даже догадаться, что его собеседник — машина. Ясно, что такая система может быть лишь функциональной моделью жи­ вого прототипа, ее задачей является только воспроизведение пре­ образований информации, осуществляемых в живой системе; от нюдь не предполагается, что она должна повторять конкретную «конструкцию» живой системы.

Так как обязательное требование, предъявляемое к модели, состоит в том, что она должна работать, первый этап исследований был направлен на анализ самой проблемы понимания речи и поиски общей структуры модели, способной, в принципе, спра­ виться с поставленными задачами. Основные сведения, исполь­ зованные на этом этапе работы, касались свойств речевого сигнала и организации языка. Ограничения, накладываемые этими све­ дениями на возможную структуру модели, оказались столь зна­ чительными, что вначале предполагалась возможность решения проблемы вообще без обращения к данным физиологии и психо­ логии. Лишь за последние годы стало ясным, что пренебрегать данными этих наук и экспериментальным исследованием восприя­ тия и понимания речи человеком вряд ли возможно и, во всяком случае, нецелесообразно.

При разработке модели неизбежно приходится пользоваться рядом допущений. Некоторые из них очевидны, другие являются спорными. Именно в случае спорных допущений естественно обратиться к исследованию живой системы и попытаться эти до­ пущения проверить.

1* 3

При разработке модели возникает ряд вариантов решения одной и той же задачи. Если разрабатываемая система отличается большой сложностью, проверить, к чему приведет выбор того или иного варианта, очень трудно, а иногда и практически невозможно до тех пор, пока система не будет •полностью реализована. В этом

случае «дешевле» обратиться к исследованию

живого прототипа

и попытаться выяснить, какой из вариантов

лучше согласуется

с полученными экспериментальными фактами.

Легко заметить, что в данном случае наблюдается весьма не­ привычное для физиолога и психолога отношение между теорией и экспериментальными фактами. Физиолог и психолог привыкли считать, что сначала должно быть как можно больше фактов, потом уже можно строить на их основании теорию, т. е. попытаться дать некоторое обобщенное описание этих фактов. Здесь же как будто бы все поставлено с ног на голову — ведущим является изобретатель системы, эксперименты нужны лишь для ограничения его фантазии. На самом деле все, конечно, обстоит далеко не так. Изобретатель системы с самого начала был отнюдь не свободен в своих фантазиях. Он начинал свою работу с фактов, которые уже были обобщены с помощью более или менее формализованных теорий. Только эти факты относились не к физиологии и психо­ логии, а к другим областям науки — акустике речи и лингвистике.

Для работ данного направления функциональная модель восприятия и понимания речи и теория этих процессов — просто одно и то же. Соответственно, целью экспериментального психо­ логического и физиологического изучения является разработка теории или, что то же самое, уточнение структуры и определение параметров этой функциональной модели.

Для того чтобы очертить круг вопросов, рассматриваемых в настоящей книге, необходимо коротко остановиться на том, какова, по распространенным сейчас представлениям, общая структура полной модели восприятия и понимания речи.

Принимается, что полная модель состоит из трех последова­ тельно соединенных моделей. Первая из них, она обычно назы­ вается моделью восприятия, осуществляет преобразование по­ ступающего на ее вход акустического речевого сигнала в последо­ вательность фонетических элементов. Модель включает блок (блоки) слухового анализа сигнала и блок фонетической интер­ претации. Сведения о языке, содержащиеся в блоке фонетической интерпретации, еще очень ограничены и касаются фонетики языка.

4

Упрощенно говоря, модель умеет переводить воспринятый ею аку­ стический речевой сигнал в артикуляторные инструкции-указания о том, как нужно произнести то, что модель «услышала». Эта модель не знает ни словарного состава языка, ни его грамматики и, тем более, не «понимает» смысла услышанного. Вторая модель преобра­ зует последовательность фопетических элементов в описание смысла фразы. Она осуществляет морфологический анализ и син­ таксический анализ, используя для этого словарь (словари) и грамматические правила. Короче говоря, это действующая модель анализирующей части данного языка. Описание смысла, получае­ мое на выходе модели, является описанием тех сведений о «дей­ ствительности», которые содержались в проанализированной фразе. Это описание таково, что по нему уже нельзя установить, на каком языке была произнесена исходная фраза. Третья модель— ее разработка в настоящее время только начинается — занима­ ется интерпретацией и оценкой полученных сведений о событиях, явлениях и т. д. Она решает, являются эти сведения истинными или ложными, важными или безразличными, что нужно предпринять в результате их получения и т. д. Иначе говоря, модель делает какую-то часть из того, что обозначается как интеллектуальная деятельность.

Уже по характеру задач, решаемых разными моделями, от­ четливо видно, что их разработкой занимаются специалисты со­ вершенно разного профиля, т. е. разные модели относятся к ком­ петенции разных областей науки.

По этой причине сейчас приходится сделать допущение, хотя оно, возможно, и несколько рискованно, что эти модели явля­ ются чисто последовательными. Другими словами, принимается, что первая модель не получает никакой информации с выходов второй и третьей моделей, а вторая модель ничего не знает о том, что решает третья модель. В такой ситуации главный вопрос «сты­ ковки» моделей заключается в согласовании выхода модели преды­ дущего уровня со входом модели следующего уровня. Конкретно речь идет о том, чтобы задаться описанием последовательности фонетических элементов (какая информация должна в ней содер­ жаться и как она должна быть представлена) и задаться описанием смысла.

Ясно, что разработка функциональных моделей требует обяза­ тельного четкого определения того, что является сигналом на входе и что необходимо получить на выходе. При рассмотрении

вопроса о стыковке моделей, естественно, приходится исходить, с одной стороны, из того, какое входное описание необходимо для модели следующего уровня, и, с другой стороны, какое описание реально можно получить на выходе модели предыдущего уровня.

В настоящей книге рассматриваются экспериментальные дан­ ные и теоретические вопросы, касающиеся только первой из этих трех моделей, определяемой как модель восприятия.

Две первые главы являются вводными. В первой главе даются элементарные сведения об акустических свойствах речевого сиг­ нала и приводится краткое и весьма схематизированное изложение основных идей, использовавшихся при разработке систем автома­ тического фонемного распознавания речи. Во второй главе обсу­ ждается вопрос стыковки модели восприятия речи с моделью сле­ дующего уровня, осуществляющей морфологический и синтаксиче­ ский анализ фразы.

Главы 3—6 посвящены вопросам фонетической интерпретации речевого сигнала, а главы 7—12 рассматривают проблемы предва­ рительной слуховой обработки этого сигнала.

Интерес к слуховой обработке речевого сигнала и стремление разобраться в том, в какой мере теоретические представления от­ носительно фонетической интерпретации речевого сигнала согла­ суются с представлениями и данными физиологии слуха и психо­ акустики, в значительной мере обусловлены научными традициями коллектива, к которому принадлежат авторы настоящей книги. Исходное ядро этого коллектива было образовано из учеников основателя современной советской физиологии сенсорных систем — Григория Викторовича Гершуни. Г. В. Гершуни внушил своим ученикам и последователям убеждение в том, что ни нейрофизио­ логия, ни психоакустика, ни экспериментальная психология (или фонетика) не смогут привести к удовлетворительному пониманию принципов обработки информации мозгом, если они будут разви­ ваться как внутренне замкнутые, самостоятельные в теоретиче­ ском плане дисциплины. Г. В. Гершуни одним из первых в мире понял также и то, что исследование восприятия речевых и других естественных звуковых сигналов поставит совершенно новые проблемы перед физиологией слуха и психоакустикой н потребует в конечном итоге существенного пересмотра теоретических пред­ ставлений, сформировавшихся в этих областях.

Работая над настоящей книгой, авторы пытались решить вполне определенную задачу. Она состояла в том, чтобы выяснить,

6

какие ограничения на возможную структуру или, еще лучше, параметры тех или иных блоков функциональной модели восприя­ тия речи накладываются экспериментальными данными, получен­ ными при исследовании слуха и исследовании восприятия речевых и речеподобных сигналов.

При такой постановке задачи круг рассматриваемых экспери­ ментальных фактов оказался достаточно ограниченным. В книге не обсуждаются данные, касающиеся обработки информации на более высоких уровнях полной модели восприятия и понимания речи, в ней нет также описания данных по очень популярной в на­ стоящее время проблеме анатомической локализации «речевых функций».

ПОЯСНЕНИЯ К ТРАНСКРИПЦИИ

В настоящей книге для обозначения звуков использовались знаки международной фонетической транскрипции. Следует, однако, отметить, что при обозначении синтетических звуков не преследовалась цель отразить их звучание наиболее точно. В этих случаях символика употреблялась для обозначения не фонетического качества отдельного звука, а для обозначения способа интерпретации слушателями целого множества сигналов. Таким образом, транскрипция была не столько фонетической, сколько фонемати' ческой.

Особых пояснений требуют следующие обозначения. Знак [i] был при­ нят для обозначения русского гласного ы; для обозначения мягкости соглас­ ного использовался штрих, расположенный вверху справа от основного символа, например [d'].

При цитировании работ зарубежных авторов сохранялась символика орпгина га.

РАЗДЕЛ I

РЕЧЕВОЙ СНГЧ1Л 23 ПРОБЛЕМЫ ЕГО ОПИСАНИЯ

Глава 1

СВОЙСТВА РЕЧЕВОГО СИГНАЛА

И НЕКОТОРЫЕ ВОПРОСЫ

АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ

РЕЧИ

Представление о современных подходах к описанию свойств речевого сигнала дает рис. 1.1, весьма обобщенно и условно показывающий основные типы его обработки в уже используемых или еще разрабатываемых технических системах.

Определим исходный речевой сигнал как функцию р (Z), пред­ ставляющую изменения звукового давления происходящие в те­

чение

того времени,

когда

говорящий произносит фразу.

Функция

р (t) может

быть

Рис. 1.1.

Соотношение

основных

типов

преобразований

речевого

сигнала

в

технических

системах.

1 — линейное усиление; 2 — спектраль­ ное описание; 3 — синтез по спектраль­

ному описанию; 4 — параметрическое опиеаиие; 5 — функциональная модель

речевого аппарата; 6 — фонетическое описание; 7 — синтез сигналов упра­ вления; 8 — описание смысла; 9 — синтез фраз. Остальные обозначения см. в тексте.

выражена электрическим напряжением или другой физичеекой величиной, может быть зарегистрирована тем или иным способом. Ясно, что во всех случаях р (Z), определенная на отрезке фразы, полностью характеризует последнюю. При та­ ком определении речь представляется множеством функций р (t), соответствующих разным фразам, произнесенным множеством дикторов.

Будем считать, что существуют процедуры обработки, в ре­ зультате которых функция р (7) может быть представлена некото­ рым набором величин. Эти величины явятся характеристиками

9

сигнала по определенным признакам, вся их совокупность пред­ ставит описание сигнала. Задачу обычных каналов речевой связи (уровень А, рис. 1.1) можно трактовать как передачу полных опи­ саний р (Z). Известно, что любой колебательный процесс может быть представлен без искажений последовательностью дискретных величин, следующих с частотой■27'’, где F — максимальная частота спектральных составляющих сигнала. Последовательность этих величин при условии, что каждая из них точно воспроизводит значение соответствующей мгновенной амплитуды, составит так называемое полное описание сигнала.

Считается, что для получения полного описания речевого сиг­ нала (обладающего качеством сигнала, переданного по телефону) необходимо производить не менее 8000 отсчетов в секунду и каж­ дый из отсчетов должен иметь точность, соответствующую пред­ ставлению амплитуды по крайней мере 128 уровнями. Объем описания составит 56 000 бит в секунду [121].

Для нас, однако, наибольший интерес имеют описания p(Z), результатом которых является получение нового представления речевого сообщения, заведомо более сжатого по сравнению с ис­ ходным.1 Будем считать, что эти описания являются обратимыми, т. е. по ним можно синтезировать новые функции p*(Z), сохраняю­ щие определенные свойства исходного сигнала. Считаем также, что качество и особенности восстановленного сигнала можно оценить, предъявив p*(Z) слушателю. Соотношение процедур синтеза с процедурами описания в общих чертах может быть понято на основании рис. 1.1.

Наиболее распространенным типом сокращенного описания р (/) является спектральное описание (уровень Б, рис. 1.1), вы­ ражающееся в спектре амплитуд (значения интенсивности частот­ ных составляющих сигнала в зависимости от частоты) и спектре фаз (значения фаз составляющих сигнала в зависимости от ча­ стоты). Результаты спектрального анализа зависят от времени наблюдения сигнала. Получение формально точного спектра тре­ бует бесконечно долгого наблюдения.

Длительные наблюдения имеет смысл производить только в слу­ чае стационарных сигналов, речевой же сигнал по своей природе представляет колебательный процесс, у которого и форма, и пери­ оды волн изменяются довольно быстро и на всем протяжении сигнала. В сигнале реально отсутствуют стационарные участки, и он как бы является непрерывной последовательностью переход­ ных процессов.

Получить спектральное описание подобного процесса, удовле­ творяющее требованиям практики (из них принципиальное —1

1 Количественные оценки степени сжатия описания, достигаемой с по­ мощью различных преобразований сигнала, можно найти в [131> 137]. Оценки эти, однако, основываются на формальных расчетах, известных в теории информации, и вряд ли могут быть применены для таких уровней, как опи­ сание смысла сообщения.

Соседние файлы в папке Нормальная физиология