Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

(соответственно величины начального скачка) приводит к тому, что нейрон отвечает по типу оп-нейрона, т. е. отклик становится резко локализованным по времени (рис. 9.11). Создается впечат­ ление, что признаками становятся только события. Понятно, что если кодом является номер нейрона, указывающий его связь со шкалой z и класс выделяемого признака, то частота тонального стимула будет однозначно определена номерами нейронов, давших on- и о//-ответы.

Важнейший вопрос касается запоминания событий, так как on- и о//-ответы, естественно, образуются во времени. К этому вопросу мы обратимся в следующем разделе.

На основании данных, приведенных в настоящем разделе, можно с достаточной уверенностью утверждать, что принципом переработки изображения сигнала, используемым слуховой си­ стемой, является выделение неравномерностей в спектре стимула по шкале частот и по времени.

9.4.ЦЕНТРАЛЬНЫЕ СЛУХОВЫЕ НЕЙРОНЫ

И«ДЕТЕКТОРЫ ОБРАЗОВ»

Одно из направлений современной электрофизио­ логии состоит в поисках таких центральных нейронов, которые реагировали бы только на определенные классы биологически важных сигналов. Некоторые электрофизиологи считают, что для звуков речи такие «детекторы» уже найдены, причем находятся на уровнях ниже коры. Так, Кейдель [317] называет нейроны, из­ бирательно чувствительные к знаку смещения спектрального мак­ симума «детекторами переходов», а нейроны, реагирующие на частотную модуляцию вне зависимости от знака, — «детекторами согласных».

Если мы имеем в своем распоряжении систему, которая об­ наруживает несколько типов событий в каждой из N частотных областей, то переход от описания сигнала на выходе такой сис­ темы к образу звука (указанию класса звуков, которому он при­ надлежит) требует решения двух весьма сложных проблем. Одна из них может быть названа проблемой объединения информации по спектру — всей области значений z, вторая — проблемой сбора информации по времени.

Допустив, что каждому классу сигналов соответствует опре­ деленный нейрон (нейронный канал), возбуждение которого означает установление принадлежности сигнала к этому классу, естественно предположить [247, 317], что объединение информа­ ции производится с помощью нейронов, выполняющих роль логи­ ческого элемента «И» (логическое умножение). Рассмотрим правдо­ подобность такого предположения применительно к объединению информации по спектру.

Допустим, что слуховая кора представляет собой совокупность

элементов, каждый из

которых отвечает тогда п только тогда,

J0 Физиология речи

241

когда в нескольких определенных точках шкалы z обнаружены максимумы. Так как число естественных сигналов с больше чем одним спектральным максимумом превышает число сигналов с одним максимумом на спектре, элементы, отвечающие на чис­ тый тон, т. е. сигнал с одним спектральным максимумом, должны быть редкостью. Это совершенно’не согласуется с эксперименталь­

ными данными — подавляющее

большинство

нейронов отвечает

на чистые тоны.

 

 

Аналогичные рассуждения

показывают

неправдоподобность

предположения о том, что нейроны слуховой коры являются «детекторами» определенных последовательностей событий.

Элемент, избирательно реагирующий на последовательность событий АВ, не может ответить раньше, чем произойдет событие В. Ответ нейрона, реагирующего на последовательность АВ (на­ личие события А при отсутствии за ним события В), обязательно должен быть задержан относительно начала стимула. По данным Серкова и Сторожука [12в], подавляющее большинство (109 из 135) нейронов, реагирующих на щелчок, отвечают на интервале от 7 до 25 мс от начала стимула. Такие же значения скрытого периода наблюдаются при действии шумовых посылок, причем величина скрытого периода не зависит от длительности посылки [23].

Таким образом, представление о том, что на уровне первич­ ной слуховой коры происходит объединение информации по спектру и значительному интервалу времени, вероятно, нужно отвергнуть. Более вероятное предположение состоит в том, что на верхних уровнях слухового пути производится не только выделение со­ бытий в частотных полосах, но и формирование сигналов об этих событиях, приведение их к такому виду, при котором они могут быть использованы дешифратором.

Обратим внимание на то, что понятие последовательности со бытий обязательно включает время. Для различения последова­ тельностей АВ и АВ необходимо указать интервал времени от на­ чала А, в течение которого нужно ждать В. Если В не появи­ лось в течение этого интервала, то принимается решение АВ. Если такой интервал задан, то появляется возможность отли­ чать двойные одинаковые события АА от единичных событий, следующих друг за другом: АА АА. Наглядный пример такой классификации осуществляет человек в эксперименте, когда ему предъявляются два щелчка, разделенных разным интервалом времени t. При t < 10 мс он воспринимает один хриплый щелчок, при 10 мс < t < 60-4-Ю0 мс он слышит двойной щелчок, при боль­ ших интервалах воспринимаются независимые следующие друг за другом щелчки. Для воспроизведения такой классификации технической системой нужно, кроме прямого канала, воспроиз­ водящего оба импульса, применить два канала с разной длитель­ ностью запрета (рефрактерности) после первого щелчка и, напри­ мер, поставить на выходе сумматор. По величине сигнала на

242

Рис. 9.12. Реакция нейронов слуховой коры на второй в паре щелчок. По [127].

По оси абсцисс — длительность интервала между щелчками (Т); по оси ординат — процент нейронов, отвечающих на второй щелчок при значениях Т, меньших указанных по оси абсцисс (сплошная кривая), и относительная величина амплитуды вызванного потенциала при дейст­ вии второго в паре щелчка (штриховая кривая). Разные кривые — разная глубина погружения электрода.

о

*

сумматоре в момент второго щелчка мы сможем легко классифици­ ровать эти три случая.

Таким образом, использование временных запретов после со­ бытия является необходимым условием классификации последо­ вательности событий.

В работе Серкова и Яновскрго [127] для нейронов первичной

слуховой области был определен минимальный интервал времени

между двумя щелчками, при котором нейрон отвечает на оба

щелчка. В результате была получена зависимость между процен­

том нейронов, отвечающих на второй щелчок, и интервалом вре­

мени между щелчками. Она приведена

сплошной кривой на

рис. 9.12.

Так как ранее было по­

казано [12в], что начальная пачка импульсов па единичный щелчок хорошо совпадает по времени с начальным положительным откло­ нением так называемого суммар­ ного коркового первичного ответа, были произведены также изме-

Рис. 9.13. Воспроизведение частоты мо­ дуляции корковым нейроном. По [247].

По оси абсцисс — частота синусоидальной частотной модуляции тона; по оси ординат — частота импульсации нейрона.

рения относительной амплитуды этого отклонения на второй щелчок в зависимости от интервала времени между щелчками. Отведения осуществлялись при разной глубине погружения элек­ трода. Полученные зависимости приведены на рис. 9.12. Можно

видеть, что

сплошная кривая на

этом рисунке

свидетельствует

о наличии

двух распределений

нейронов по

рефрактерности

(длительности запрета), суммарный ответ, очевидно, соответствует второму из них. Существенно заметить, что зависимость для сум­ марного ответа хорошо согласуется с зависимостью распознава­ ния последовательности от интервала между элементами, при­ веденной в главе 6 (рис. 6.9).

На рис. 9.13 приведены данные по воспроизведению корко­ вым нейроном частотно-модулированного тона при разных час­ тотах синусоидальной модуляции [247]. Можно видеть, что ответ резко подавлен при частоте в 7 Гц и выше. Учитывая, что данный нейрон реагирует как на повышение, так и на понижение частоты, следует заключить, что он перестает воспроизводить обнаружи­ ваемое им событие, если оно повторяется с частотой порядка 14 Гц, т. е. что рефрактерный период должен составлять примерно 70 мс. Это хорошо согласуется с данными рис. 9.12 и с упоминавшимися данными по восприятию последовательностей.

244

Причина этой рефрактерности может быть как в том, что сам нейрон получает тормозной сигнал, становится на некоторое время гиперполяризованным (этот эффект наблюдался при внутриклеточ­ ном отведении [12в]), так и в том, что рефрактерность была на пре­ дыдущем уровне и корковый нейрон просто не получает второго сигнала. Иначе говоря, запрет может формироваться на разных уровнях обработки.

Имеющиеся данные говорят о том, что есть запреты, форми­ руемые в специальных тормозных нейронах коры [128], но есть также и запреты, формируемые на уровне коленчатого тела [18°].

Если есть два разных канала, обнаруживающих события А и В, и в каждом из них есть свой временной запрет, то следую­ щий канал, использующий оба этих канала в качестве входов, может пропускать быстрые АВ- и BA-последовательности, не про­ пуская АА- и ВВ-последовательности. Именно такая ситуация характерна для корковых нейронов с частотно-пороговыми харак­ теристиками, имеющими несколько минимумов, т. е. отвечающих на несколько частотных полос [17В]. Было обнаружено, что при действии двух тональных посылок ответ на вторую посылку подавлен в течение 100 и более миллисекунд от начала первой,

если обе посылки принадлежат одной и той же

частотной

полосе

W1 или W2. Подавления ответа на

вторую

посылку

нет, если одна из посылок принадлежит полосе

И\, а

другая —

полосе

W2.

 

 

Таким образом, можно думать, что если на начальных этапах обработки сигнала в центральной слуховой системе основной за­ дачей является выделение и обнаружение пространственно-времен­ ных неравномерностей, высшие уровни представляют эти выделен­ ные особенности как временные события и подготавливают возможность для опознавания последовательностей событий. Веду­ щую роль здесь начинают, очевидно, играть временные запреты.

9.5. ЗНАЧЕНИЕ ДАННЫХ ЭЛЕКТРОФИЗИОЛОГИИ СЛУХА ДЛЯ ТЕОРИИ ВОСПРИЯТИЯ РЕЧИ

Приведенные выше данные говорят о том, что об­ работка речевого сигнала, осуществляемая слуховой системой, резко отличается по своим принципам от той обработки, которая применяется сейчас в технических системах автоматического рас­ познавания речи. Соответственно трудно ожидать, что решаю­ щие правила, описанные в терминах тех признаков, которые сейчас используются в технике, будут простыми или достаточно универсальными.

Понятно, что задача нахождения правил распознавания, кото­ рыми пользуется человек, в принципе не решается до тех пор, пока признаки сигнала не определены.

245

К сожалению, данные электрофизиологии слуха позволяют только определить тот подход, по которому может пойти поиск моделей обработки и определение их параметров. Пока мы можем утверждать, что признаками являются спектрально-временные неравномерности, но совершенно не имеем возможности формально описать эти неравномерности или даже перечислить число их возможных классов. Очевидно, что единственный возможный вы­ ход состоит в том, чтобы попытаться извлечь необходимые сведе­ ния из другого источника, а именно из психоакустических данных по восприятию неравномерностей в сложном стимуле. Этому во­ просу посвящены следующие главы настоящей книги.

Глава 10

ОБРАБОТКА

«СЛУХОВОГО СПЕКТРА» СТИМУЛА

Под слуховым спектром стимула естественно пони­ мать пространственный рисунок плотности импульсации в слу­ ховом нерве — g(z), где z обозначает характеристическую частоту нейрона (нейронного канала) и, следовательно, координату точки улитки, с которой связан нейрон. Из данных нейрофизиологии (см. главу 9) следует, что g(z) подвергается существенным пре­ образованиям в центральных отделах слуховой системы. Пред­ полагается, что эти преобразования обеспечивают получение «удобного» сокращенного описания спектра стимула.

Под «удобным» понимается описание, по которому естественные сигналы, принадлежащие к разным классам, образуют компакт­ ные легко разделяемые множества. Кроме того, принимается, что признаки этого описания должны быть устойчивыми к раз­ ного рода естественным искажениям звука и приспособлены к «техническим» возможностям центральной нервной системы (удобство запоминания изображения, устойчивость его к соб­ ственным шумам системы и т. д.).

Логично думать, что при фонетической интерпретации рече­ вых сигналов используется только часть из всего набора призна­ ков, выделяемых центральной слуховой системой. Данные, при­ водимые в настоящей главе, касаются в основном еще более частного случая, а именно признаков g(z), используемых при распознавании стационарных гласных.

10.1. ГИПОТЕЗЫ О ПРИРОДЕ ПРИЗНАКОВ ГЛАСНЫХ

Обсуждая гипотезы о природе признаков гласных, исследователи часто основываются на известных технических ме­ тодах, применяемых при автоматическом распознавании гласных. Если исходить из нейрофизиологии слуха, то более содержатель­ ным является разделение гипотез по источнику результирующей

247

информации — номерам (пространственным координатам) возбуж­ денных сигналом нейронных каналов или величинам возбужде­ ния на выходе нейронных каналов.

Первый класс гипотез мы будем называть гипотезами простран­ ственного кодирования, второй класс — гипотезами кодирования величиной возбуждения.

10.1.1. КОДИРОВАНИЕ ВЕЛИЧИНОЙ ВОЗБУЖДЕНИЯ

Принимается, что имеется некоторый небольшой набор суммирующих элементов, различающихся по виду весовых функций, т. е. по значениям коэффициентов возбуждающих и тор­ мозных связей каждого элемента с нейронными каналами пери­ ферической слуховой системы (или какого-то другого уровня, где g(z) еще не подверглась существенным изменениям). В про­ стейшем случае выходной сигнал /-того сумматора будет равен

где L;„ — уровень звукового давления одного сигнала в третьоктавной полосе под номером п, L ,п — то же для второго сигнала,

т — общее число полос.

где g. — значение плотности импульсации в г-том канале пери­

Это послужило основанием для использования в качестве ферической слуховой системы, п — число каналов периферической

начального описания спектров естественных гласных (12 голланд­ слуховой системы, к.. — возбуждающий или тормозной коэффи­

ских гласных по 50 реализаций каждой) значений уровня звуко­ циент связи i-того канала с /-тым суммирующим элементом. вого давления в 18 третьоктавных полосах. Оказалось, что исход­

Описанием спектра гласного на выходе такой модели будет ное 18-размерное пространство может быть без заметных потерь набор значений и1г . . ., и,, где I — число сумматоров. Такие сокращено до четырехили трехмерного. Признаки (оси) этого представления лежат в основе многих работ по автоматическому нового пространства являются линейными комбинациями началь­ распознаванию речи.

ных признаков (3281.

Мы коротко остановимся на группе работ, в которых этот подход9/jЧ был использован для описания восприятия гласных (обзор этих работ см. I425]). В работе [4S1] было показано, что субъективная разница по тембру между двумя стационарными сигналами до­

На основании оценок субъективной разницы между гласно­ подобными стимулами (11 гласных) и на основании матрицы оши­ бок при идентификации гласных были сконструированы трех­ мерные и четырехмерные субъективные пространства гласных. Оказалось, что эти трехмерные и четырехмерные конфигурации очень хорошо совмещаются с соответствующими конфигурациями, полученными при анализе [328, 431].

Трудность интерпретации этих результатов состоит в том, что конфигурация гласных в пространстве двух главных признаков, найденных в работе [328], практически идеально совмещается с кон­ фигурацией гласных в пространстве частот первой и второй фор­ мант [432]. Авторы делают вывод об эквивалентности использо­ ванного ими полосного метода анализа с формантным анализом гласных. Этот вывод означает, что примененный авторами под­ ход фактически не дает возможности определить, какими призна­ ками спектра пользуется человек при восприятии гласных.

Данные, приводимые ниже в настоящей главе, позволяют на­ дежно исключить только крайний вариант гипотезы кодирования величиной возбуждения. Он состоит в том, что число суммирую­ щих элементов мало и каждый элемент имеет отличные от нуля коэффициенты связи с частотными каналами на всем интервале шкалы z.

10.1.2. ПРОСТРАНСТВЕННОЕ КОДИРОВАНИЕ

Основной смысл гипотезы пространственного коди­ рования состоит в том, что обработка g(z) обеспечивает выделение (обнаружение) некоторых локальных особенностей этой фуцкции. Характеристикой выделенной особенности является ее положение на шкале z. Значения этих характеристик используются при фо­ немной интерпретации гласных.

Эта точка зрения соответствует распространенному представ­ лению о том, что, воспринимая гласный, человек выделяет фор­ манты и основывается при классификации на значениях частот формант. Вместе с тем гипотеза пространственного кодирования и формантная гипотеза не обязательно совпадают, они лишь частично перекрываются.

Гипотеза пространственного кодирования заранее не опре­ деляет, какие именно особенности выделяются на g(z). Этих осо­ бенностей может быть, в принципе, как больше, так и меньше числа формант в гласном звуке, особенность может или совпадать

сформантой, или быть ее приближенной оценкой.

Сдругой стороны, с позиции формантной гипотезы безразлично, как кодируется частота форманты в нервной системе. Она может быть представлена как номером возбужденного нейронного ка­ нала, так, например, и частотой (периодом) импульсации. Важно лишь, чтобы соблюдалась монотонная зависимость между часто­ той форманты и соответствующей выходной переменной.

249

Для рассмотрения вопроса о том, какие особенности g(z) могли бы служить признаками при распознавании гласных и как можно было бы выделять эти особенности, необходимо прежде всего выяснить, насколько подробно отражен в g(z) спектр глас­ ного.

Так как слуховой анализатор обладает ограниченной разре­ шающей способностью, естественно, что слуховой спектр глас­ ного должен быть «размыт» по сравнению с идеальным спектром. Если бы свойства улитки как анализатора были полностью из­ вестны и функциональная модель периферической слуховой системы была создана, g(z) можно было бы просто промерить. К сожалению, окончательной модели улитки пока нет (см. главу 7). По этой причине все еще необходимо пользоваться психоакусти­ ческими методами измерения и расчета слухового спектра; прин­ ципы их будут описаны в следующем разделе.

10.2. ОПРЕДЕЛЕНИЕ СЛУХОВОГО СПЕКТРА СТИМУЛА

Для психоакустики g(z) является изображением сигнала на выходе функциональной модели периферической слу­ ховой системы. Это изображение можно сконструировать, ис­ пользуя результаты психоакустических измерений и приняв ряд априорных допущений.

Модель периферической слуховой системы считается состоя­ щей из набора частотных каналов; каждый канал включает фильтр звуковых частот и преобразователь. Проблема нахождения g(z), соответствующей исследуемому звуку, разделяется на две задачи. Первая из них состоит в том, чтобы экспериментально определить (или вычислить) для каждого частотного канала модели экви­ валентный уровень интенсивности чистого тона той частоты, на ко­ торую настроен данный канал. Под эквивалентным понимается такой уровень интенсивности тона, при котором величину им­ пульсации в данном канале можно считать такой же, как при действии исследуемого звука. Совокупность найденных эквива­ лентных уровней мы будем называть эквивалентным спектром. Вторая задача заключается в переходе от эквивалентного спектра к g(z). Для этого нужно знать амплитудную характеристику преобразователя.

В случае стационарных сигналов под амплитудной характерис­ тикой преобразователя можно понимать зависимость между энер­ гией сигнала на входе преобразователя за достаточно большой интервал времени и суммарной величиной импульсации за это же время.

Прямых методов измерения требуемой характеристики не су­ ществует. Подходы к ее определению основаны на рассмотрении полных моделей, осуществляющих различение или оценку сигна­ лов. Подбирается такая амплитудная характеристика преобразо­

250

Соседние файлы в папке Нормальная физиология