Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
гарсков 01-10 блеа нью вёршн.docx
Скачиваний:
25
Добавлен:
11.04.2015
Размер:
1.39 Mб
Скачать
  1. Психоакустические факторы и их учет при построении систем сжатия звуковой информации

Сжатие (компрессия) аудиоданных представляет собой процесс уменьшения скорости цифрового потока за счет сокращения статистической и психоакустической избыточности цифрового звукового сигнала.

Методы сокращения статистической избыточности аудиоданных также называют сжатием без потерь, а, соответственно, методы сокращения психоакустической избыточности - сжатием с потерями.

Сжатие без потерь

Сокращение статистической избыточности основано на учете свойств самих звуковых сигналов. Она определяется наличием корреляционной связи между соседними отсчетами цифрового звукового сигнала, устранение которой позволяет сокращать объем передаваемых данных на 15...25% по сравнению с их исходной величиной. Для передачи сигнала необходимо получить более компактное его представление, что возможно осуществить с помощью ортогонального преобразования. Важными условиями применения такого метода преобразования являются:

  • возможность восстанавливать исходный сигнал без искажений

  • способность обеспечивать наибольшую концентрацию энергии в небольшом числе коэффициентов преобразования

  • быстрый вычислительный алгоритмом

Этим требованиям отвечает модифицированное дискретно-косинусное преобразование (МДКП).

Уменьшить скорость цифрового потока позволяют методы кодирования, учитывающие статистику звуковых сигналов, например, вероятности появления уровней разной величины. Одним из таких методов является код Хаффмана, где наиболее вероятным значениям сигнала приписываются более короткие кодовые слова, а значения отсчетов, вероятность появления которых мала, кодируются кодовыми словами большей длины. Именно в силу этих двух причин в наиболее эффективных алгоритмах компрессии цифровых аудиоданных кодированию подвергаются не сами отсчеты звукового сигнала, а коэффициенты МДКП.

Сжатие с потерями

Сжатие аудиоданных с потерями (сокращение психоакустической избыточности) основывается на несовершенстве человеческого слуха при восприятии звуковой информации. Неспособность человека в определенных случаях различать тихие звуки в присутствии более громких, называемая эффектом маскировки, была использована в алгоритмах сокращения психоакустической избыточности.

Эффекты слухового маскирования зависят от спектральных и временных характеристик маскируемого и маскирующего сигналов и могут быть разделены на две основные группы:

  • частотное (одновременное) маскирование

  • временное (неодновременное) маскирование

Эффект маскирования в частотной области связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо нечувствительно к малым амплитудам близких частот. То есть, когда два сигнала одновременно находятся в ограниченной частотной области, то более слабый сигнал становится неслышимым на фоне более сильного.

Маскирование во временной области характеризует динамические свойства слуха, показывая изменение во времени относительного порога слышимости (порог слышимости одного сигнала в присутствии другого), когда маскирующий и маскируемый сигналы звучат не одновременно. При этом следует различать явления послемаскировки (изменение порога слышимости после сигнала высокого уровня) и предмаскировки (изменение порога слышимости перед приходом сигнала максимального уровня). Более слабый сигнал становится неслышимым за 5 − 20 мс до включения сигнала маскирования и становится слышимым через 50 − 200 мс после его включения.

Очевидно, что после устранения психоакустической избыточности звуковых сигналов их точное восстановления при декодировании оказывается уже невозможным. Методами устранения психофизической избыточности можно обеспечить сжатие цифровых аудиоданных в 10 − 12 раз без существенных потерь в качестве.

Психоакустическая модель — использование феномена восприятия человеком звука, для сжатия информации с потерями при хранении звуковой информации

Оболонин, Аудиотехнические устройства и системы, стр 184:

Ключевыми моментами при разработке любой психоакустической модели являются:

  1. вид ортогонального преобразования;

  2. алгоритм обработки коэффициентов преобразования (БПФ или МДКП) с целью максимально возможного уменьшения числа учитываемых спектральных составляющих;

  3. выбор аппроксимирующих функций для учета явления маскировки, включая проблему суммирования индивидуальных кривых маскировки;

  4. процедура расчета глобального порога маскировки для спектральной выборки сигнала.

Известны в основном три психоакустические модели: NMR (Noise to Mask Ratio - отношение сигнал/маска); PAQM - Perceptual Audio Quality Measure; PERCEVAL - PerCeptual EVALion. Наибольшее распространение пока получила модель NMR, в которой учитываются абсолютный порог слышимости, и явление маскировки в частотной области. Это позволяет частично устранить при передаче части звукового сигнала не важные для слухового восприятия - Redundanz und Irrelevanz.

Рассмотрим основные свойства слуха, лежащие в основе NMR-модели.

Aбсолютный порог слышимости. Это минимальное значение звукового давления, которое способно еще воспринять человеческое ухо при отсутствии мешающих звуков. Обычно его выражают в дБ по отношению к стандартной величине звукового давления p0=2Ч10-5Па. Чувствительность слуха к восприятию отдельных спектральных составляющих в очень сильной степени зависит от частоты (рис. 4, нижняя пунктирная кривая). Очевидно, что те спектральные компоненты полезного сигнала, которые лежат ниже абсолютного порога слышимости кодировать и передавать не следует.

Относительный порог слышимости. Известно, что порог слышимости одного сигнала изменяется в присутствии другого сигнала. Это явление носит название маскировки. Этот феномен также поясняет рисунок 4 (все кривые, кроме нижней), на котором приведен полученный путем субъективно-статистических экспертиз порог слышимости тона NПС, маскируемого узкополосным белым шумом с уровнем звукового давления NШ, равном 20, 40, 60, 80 и 100 дБ. Маскирующий шум имеет полосу частот DF = 160 Гц, среднюю частоту 1000 Гц. Все эти пять кривых имеют максимум на средней частоте узкополосного шума F0=1000 Гц.

Отметим некоторые общие особенности кривых маскировки:

- c увеличением средней частоты маскирующего шума диапазон частот, где проявляется маскировка, становится тем шире, чем больше уровень маскирующего сигнала NШ;

- в точках максимумов кривые маскировки достигают уровней, отличающихся в меньшую сторону от соответствующего уровня маскирующего сигнала на 4 дБ;

- кривые маскировки несимметричны, они имеют крутой спад в сторону низких частот и пологий спад в сторону высоких частот.

Спектральные компоненты, лежащие ниже относительного порога слышимости слухом не воспринимаются, поэтому их также можно не передавать на приемную сторону системы при кодировании.

Критические полосы слуха. Если в качестве полезного сигнала выступает тон, а в качестве маскирующего - узкополосный шум, центральная частота которого равна частоте тонального сигнала, и если полоса частот маскирующего шума DF расширяется, то оказывается, что при достижении некоторого значения DF=DFЧГ величина порога слышимости тона перестанет изменяться. Это значение полосы DFЧГ и называют частотной группой слуха (критической полосой слуха). Значение DFЧГ зависит от частоты F (рис. 5). На частотах ниже 500 Гц ширина частотной группы постоянна и составляет около 100 Гц. В области частот выше 500 Гц она возрастает пропорционально частоте, при этом DFЧГ " 0,2F. В диапазоне частот от 20 Гц до 16 кГц размещаются 24 частотные группы слуха с шириной от 100 Гц в низкочастотной части и до 4...6 кГц в высокочастотной части спектра. Слух сравнивает полезный сигнал и мешающий шум по интенсивности в пределах критических полос слуха, оценивая порог слышимости.

Шкала частот и шкала высот тона. Зависимость формы кривых маскировки как от частоты F, так и от уровня N маскирующего сигнала затрудняет их аналитическое представление. Этого можно избежать, если от шкалы частот перейти к шкале высоты тона, которая определена следующим образом: увеличение частоты F на одну частотную группу F1=F+DFЧГ приводит к изменению высоты тона z на один барк (рис.6). Это так называемая "Барк-шкала" - шкала частотных групп или критических полос слуха. Высота тона - это субъективный параметр ощущения.

Если при построении кривых маскировки по оси абсцисс откладывать не частоты F, а значения высоты тона z в барках, то кривые маскировки при разных значениях z маскирующего сигнала будут одинаковыми при одном и том же значении уровня маскирующего сигнала NШ. Их форма при таком представлении будет зависеть только от NШ, и не будет зависеть от величины z. В стандартах MPEG при расчете глобального порога маскировки всегда используется шкала высоты тона.

Маскировка в частотной области. Маскировка в частотной области проявляется по-разному в зависимости от особенностей спектров звуковых сигналов. При разработке алгоритмов компрессии учитывается различие маскировки внутри частотной группы слуха (intra-band masking) и вне ее (extra-band masking).

Маскировка внутри частотной группы (intra-band masking) оценивается с помощью коэффициента маскировки DNМ. Он имеет разное значение в зависимости от того, маскирует ли тон шум (DNМ1). Берется шум с шириной полосы, равной частотной группе слуха, и охватывающий равномерно тон с двух сторон, и определяется порог слышимости шума, маскируемого тоном (tone masking noise), или, наоборот, шум с полосой частот, равной частотной группе слуха DNМ2, маскирует тон (noise masking tone).

Маскировка тона шумом (DNМ2). Под коэффициентом маскировки DNМ2 понимается разность уровней чистого тона на пороге слышимости и маскирующего шума равномерно охватывающего этот тон и имеющего полосу частот в одну частотную группу. Величина коэффициента маскировки DNМ2 до частоты 500 Гц минимальна и равна -2 дБ. С возрастанием частоты в области частот, где ширина частотных групп растет, величина коэффициента маскировки DNМ2 уменьшается, приближаясь на самых верхних частотах к значению -6 дБ. По оси абсцисс отложены значения частоты тона F, по оси ординат - значения DNМ2 в дБ. Во всех случаях тон становится слышимым, даже если его уровень меньше уровня маскирующего шума. Для расчета величины DNМ2 можно воспользоваться простым выражением вида:

DNМ2"-1,525 - 0,175z - 0,5;где DNМ2 в дБ, а z - высота тона в барках. Эта формула используется в стандарте MPEG ISO/IEC 11172-3, Layer 2.

Маскировка шума тоном (DNМ1). Совершенно другая картина имеет место, когда маскирующим сигналом является чистый тон, а маскируемым - шум. Здесь явление маскировки сказывается значительно слабее. В качестве аппроксимирующей функции часто используется выражение вида: DNМ1" -(15,5 + z),

где DNМ1 - коэффициент маскировки шума чистым тоном в дБ. Зависимости DNМ1 (нижняя кривая) и DNМ2 (верхняя кривая) представлены на рисунке 7. Здесь по оси абсцисс отложены значения высоты тона в барках, по оси ординат - значения коэффициентов маскировки DNМ1 и DNМ2 в дБ. Видно, что с увеличением z значения коэффициентов маскировки уменьшаются. При одном и том же значении z всегда DNМ2 существенно превышает DNМ1.

Маскировка вне частотной группы (extra-band masking). Для этого случая предложено множество аппроксимаций. Одной из наиболее распространенных является пара функций вида:

1) B(z) " 100,1[S1Ч(Z-ZM)] при z < zM,

2) B(z) " 100,1[S2Ч(Z-ZM)] при z > zM,где: S1 = 27, дБ/барк; S2 = [24+230/F - 0,2NM], дБ/Барк; NM - уровень маскирующего сигнала, дБ; z - высота тона маскируемого сигнала, барк; zM - высота тона маскирующего сигнала, барк; В(z) - относительное значение интенсивности маскируемого сигнала с высотой тона z, соответствующее порогу его слышимости в присутствии маскирующего сигнала с высотой тона zM.

На рис.8 в качестве примера представлено семейство индивидуальных кривых маскировки. По оси ординат отложены уровни интенсивности, в дБ, соответствующие порогу слышимости маскируемого тона NПС=NM+10log[B(z)]; по оси абсцисс - высота тона z. Параметром представленных кривых является значение уровня NМ маскирующего сигнала. Очевидно, что величина относительного порога слышимости имеет максимальное значение при z = zM.

Индекс тональности. Выше рассмотрены предельные случаи, когда сигналы представляют собой шум или тон. В реальных условиях чаще всего встречаются промежуточные состояния. Количественной мерой схожести реального сигнала с тональным или шумовым может служить коэффициент (индекс) тональности a. Для чистого тона a=1, для шума a=0.

С учетом индекса тональности общую формулу для коэффициента маскировки можно представить в виде: DNМI " a(14,5+i)+(1,0-a) х 5,5.

Значение коэффициента маскировки DNМI меняется от 14,5 дБ для первой частотной группы (i=1) до 38,5 дБ для частотной группы i=24. Для шумоподобного сигнала (тон маскируется шумом) a=0 и величина коэффициента маскировки DNМ2 в первом приближении равна 5,5 дБ и не зависит от частоты тонального сигнала.

Если учесть зависимость коэффициента маскировки от частоты, то получим более точный результат, определяемый выражением DNМi" a(i)Ч(14,5+i)+(1-a(i))ЧDNM2(i), где i - номер частотной группы слуха (i=1,2,...,24), a(i)-коэффициент тональности маскирующего сигнала. Процедура расчета индекса тональности достаточно сложна. Поэтому в психоакустичесих моделях стандартов MPEG ISO/IEC 11172-3, 13818-3 и 14496-3 при его оценке введены существенные упрощения.

Маскировка во временной области. Это явление характеризует динамические свойства слуха, показывая изменение во времени относительного порога слышимости, когда маскирующий и маскируемый сигналы звучат не одновременно. При этом следует различать явления послемаскировки (изменение порога слышимости после сигнала высокого уровня) и предмаскировки (изменение порога слышимости перед приходом сигнала максимального уровня).

Послемаскировка (или постмаскировка). Явление постмаскировки описывается экспоненциальной функцией вида:

BМ(t)= 1,0 - (1/1,35)Чarctg(t/13,2ЧT0,25) где ВM(t)- нормированное значение коэффициента послемаскировки; Т- длительность маскирующего сигнала, в мс; t - текущее время, мс. Зависимости ВМ(t) показаны на рисунке 9. По оси ординат отложено текущее время t в мс, по оси ординат - нормированные значения коэффициента послемаскировки. Параметром кривых является длительность Т маскирующего сигнала. Видно, что послемаскировка проявляется на интервале времени равном 100...200 мс.

Предмаскировка проявляется на значительно более коротком временном интервале. Он обычно составляет около 10 мс. Длительность предмаскировки в очень сильной степени зависит от особенностей индивидуума. Чаще всего именно по этим двум причинам явление предмаскировки не учитывается.

Глобальный порог маскировки. В психоакустической модели для каждой субполосы кодирования рассчитывается допустимое значение уровня шумов квантования (так называемое отношение сигнал/маска SMR), при котором они еще маскируются полезным сигналом и не замечаются слухом. Результат таких вычислений для одного аудиофрейма показан на рисунке 10. Верхний рисунок (а) представляет собой выраженную в дБ энергию сигнала выборки в каждой из субполос кодирования. На нижнем рисунке (б) изображены уровень глобального порога маскировки в субполосах психоакустического анализа (кривая вверху) и гистограмма, показывающая максимально-допустимое значение шумов квантования в субполосах кодирования, при котором они еще маскируются полезным сигналом выборки. После этого биты распределяются для субполосных сигналов так, чтобы уровень шумов квантования не превысил бы найденные допустимые значения в каждой из 32 полос. Результат распределения бит для этого же аудиофрейма представлен на рисунке 11. Цифры на гистограмме - это число бит, которые следует выделить для кодирования субполосных отсчетов в каждой из полос кодирования, чтобы не был бы превышен глобальный порог маскировки.

  1. Представление и преобразование двумерных сигналов

Уточнить у гарскова

Двумерный дискретный сигнал (его также называют последовательностью или массивом) - это функция, определенная на совокупности упорядоченных пар целых чисел. Так, .  (1.1)

Отдельные элементы последовательности будем называть отсчетами. Тогда x(n1,n2) представляет собой отсчет последовательности x в точке (n1,n2). Значения отсчетов могут быть вещественными или комплексными. Если n1 и n2 считать переменными величинами, выражение x(n1,n2) можно рассматривать как обозначение всей последовательности. Хотя такое обозначение некорректно, оно широко используется в технической литературе и не должно приводить к недоразумениям.

Иногда может оказаться полезным рассматривать сигнал x не просто как функцию, определенную на множестве целочисленных значений ее аргументов, а как совокупность его отсчетов. При такой интерпретации не возникает соблазна определить x для каких-то значений n1 и n2, не являющихся целыми числами. Графическое изображение двумерной последовательности представлено на рис. 1.1.

Рис. 1.1. Графическое представление двумерной последовательности.

В соответствии с приведенным выше определением двумерные последовательности имеют бесконечную протяженность, поскольку n1 и n2 могут принимать любые целочисленные значения. Однако на практике для большинства двумерных последовательностей значения отсчетов известны только в конечной области плоскости (n1,n2). Например, при сканировании черно-белой фотографии за ее краями отсчеты не берутся. Вместо того чтобы ограничивать область определения такой двумерной последовательности, мы просто будем считать, что все значения отсчетов за пределами определенной области равны нулю.