Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Введение в компрессию формата MPEGAUDIO.doc
Скачиваний:
31
Добавлен:
01.05.2014
Размер:
1.75 Mб
Скачать

2.2 Психоаккустика.

MPEG/audio алгоритм сжимает аудио данные в болшую часть за счет удаления аккустически неуместных частей аудио сигнала.Это дает выигрыш аудио системам, которые использует человек в том, что человек не слышит дискретные шумы в режиме маскирования. Маскирование – свойство восприятия аудио систем, которое имеет место всякий раз, когда имеется сильный аудио сигнал, создающий временный или спектральный соседний понижающий незаметный аудио сигнал. Вариации психоаккустических эксперементов подтверждают феномен маскирования.

Текущие результаты также показывают, сто аудио системы, которые использует человек, ограничены в разршении частотной зависимости. Частотная зависомость может быть определена в терминах критической ширины пропускания, которая меньше 100Гц для самых низких слышимых частот и неболее 4кГц. Аудио системы используют разнообразные компоненты сигналов внутри критической полосы, если бы даже частотный отбор этих систем был бы лучше критической части.

Поскольку частотная зависомость аудио системы определяет энергию, порог шумо маскирования на каждой окнкретной частоте – это единственная зависимость энергии сигнала, внутри ограниченной ширины пропускания окрестности этой частоты.

Рисунок 10 показывает это совйство. MPEG/audio работает, разделяя сигнал на частотные подчасти, которые близки к критической части, далее дескрктизация каждой подчасти соответствует слышимости дискретного звука в пределах его ширины. Для более эффективной компрессии, шаждая ширина должна быть дескретизирована с небольшим необходимым уровнем для дескретизирования неслышимых шумов.

2.2.1 Психоаккустическая модель.

Психоаккустическая модель анализирует аудио сигнал и подсчитывает сумму шумо маскирования определенного, как функция частоты. Способность маскирования дает сигналу компонентныю зависимость от значсения его частоты и его насыщщености. Кодировщик использует эту информацию для определения лучшего представления аудио сигнала ограниченным числом битов кода. MPEG/audioстандарт предлагает дву варианта вставки психоаккустической модели. Первая психоаккустическая модель – более комплексна чем модель 2 и не имеет каких либо вариантов упрощения обсчетов. Каждая из двух моделей применимы для любого слоя компрессии. Однако только вторая модель включает определенные модификации для приспособления к третьему слою.

Это дает значительную свободу в реализации психофизической модели. От необходимой точности модели зависит результат фактора компрессии и реализаций. Для низкого уровня компрессии, с общирным количеством битов кода, полная реализация психоаккустической модели может быть адекватной использованию потребителя. В этом случае процесс распределения битов может интерпктивно определять биты для подчастей с самыми низким сигнал-шум отношением. Для архивирования музыки, психофизическая модель может быть сделана более настраиваемой.

Ниже – главное описание основных последовательных ступеней в общете каждой психоаккустической модели. Различия в двух моделях будут акцентированы.

Временное выравнивание. Это одна из оценок психоаккустически. Аудио данные отсылающиеся в психоаккустическую модель, должны совпадать с аудио данными, которые будут закодированны. Психоаккустическая модель должна подсчитывать для каждой – задержку аудио данных, проходящих через блок фильтра и смещение данных которые отклонены от центра в пределах психофизического окна анализа. К примеру, при использовании первой психоаккустической модели для первого слоя, задержка прохождения через блок фильтра для 256 сэмклов и смещений необходимых для центрирования 384 сэмплов фрагмента первого слоя в 512 точках окна анализа это (512-384)/2=64 точки. Следующее смещение – 320 точек временного выравнивания прихоаккустической модели данных с выхода блока фильтра.

Конвертация аудио в представление частотной области. Психоаккустическая модель должна использоваться раздельно, независимо, временно частотное отображение от многофазового блока фильтра, потому что этого требует качество диапазона частот для точного подсчета порога маскирования. Обе психоаккустические модели используют преобразование Фурье для этого отображения. Стандарт весов Ханна применяется к аудио данным до преобразования Фурье, состояние данных для уменьшения граничных эффектов окна преобразования.

Первая психоаккустическая модель использует 512 сэмплерное окно анализа для первого слоя и 1024 сэмплерное – для второго и третьего слоя. Поскольку 384 сэмпла во фрагменте первого слоя. 512 сэмплерное окно дает адекватную зону действия. Окна еще более малого размера уменьшают вычислительную нагрузку. Слой 2 и 3 используют 1.152 - сэмплерный размер фрагмента а 1.024 – сэмплерное окно не дает полной зоны действия. В то время как идеальное окно анализа должно полностью покрывать все сэмплы для кодирования, 1.024 сэмплерное окно – достойный выбор. Сэмплы незначительного значения окна анализа в основном не имеют положительного эффекта на психоаккустическую оценку.

Вторая психоаккустическая модель использует 1.024 сэмплерное окно для всех слоев. Для первого слоя модель центрирования фрагментов 384 аудио сэмплерная в психоаккустическом окне анализа, как мы говорили. Для слоя 2 и 3 модель считае два раза по 1.024 точек психоаккустики для каждого фрагмента. Первый подсчет содержит первую половину 1.152 сэмплов в окне анализа, а второй подсчет – вторую. Модель комбинирует результат двух обсчетов, используя высшее отношения двух сигналов маскирования подчастей. Этот эффект возвращает самый назкий из двух порогов маскирования для каждой подчасти.

Процесс спектрального значения в групперовке отношения критической ширины пропускания. Для упрощения психоаккустических вычислений, обе модели производят частотные дискретные значения.

Разделение спектральных значений а тональных и не тональных комопнентах.

Обе модели опознают и разделяют звуковые и шумовые комопненты аудио сигнала, поскольку способности маскирования двух типов сигнала – различные.

Первая психоаккустическая модель отличает тональные компонены опираясь на локальные скачки спектра энергии аудио сигнала. После получения тональных комопнент первая модель суммирует остальные спектральные значения в один нетональный комопнент критической полосы. Частотные индексы каждой из этих концентрированных не тональных компонент – значения собранные в геометрическом смысле окружающей критической полосы.

Вторая психоаккустическая модель на самом деле никогда не разделяет тональные и не тональные компоненты. Вместо этого она подсчитывает тональный индекс как функцию частоты. Этот индекс показатель того, где компонента близка к тональной или шумовой. Вторая модель использует этот индекс для интерполяции между значениями чистого маскированного тона и шумового маскированного тона. Тональный индекс основан на мере предсказывания. Модель 2 использует данные от предыдущих двух анализирующих окон для предсказывания, через линейную интерполяцию, значений компонент для текущего окна. Тональные компоненты более предсказуемы и таким образом можно получить высокие тональные индексы. Поскольку этот процесс проходит с большим количеством данных, это более более подходит для дискриминации между тональными и нетональными компонентами, чем метод первой модели.

Применение развесистой функции. Способность маскирования – дает распространение через близлежащую критическую щирину. Модель определяет порог шумового маскирования благодаря применению имперического определения маскирования (модель 1) или обобщенной функции (модель 2) компонент сигнала.

Установка низкой ширины значение порога.

Обе модели содержат империческое определение абсолютного порога маскирования, порога тишины. Этот порого – низкая ширина слышимого звука.

Нахождение порога маскирования для каждой подчасти.

Обе психоаккустических модели считают порог маскирования с наивысшим частотным диапазоном, который возможен благодаря блоку многофазового фильтра. Обе модели получают пороговое значение каждой подчасти из возможного множества порогов маскирования, сосчитанного для частоты в пределах данной подчасти.

Модель 1 выбирает минммальный порог маскирования в пределах каждой подчасти. Пока этот подход хорош для частей низких частот, где эти подчасти ограничены критической шириной, это может быть неточным для частей высогих частот, поскольку критические ширины для этого диапазона частот корече некоторых подчастей. Эти неточности возникают потому что первая модель концентрирует все нетональные компоненты внутри каждой критической ширины в едином значении на единой частоте. В эффекте первой модели конвертирование нетональных компонент в форму тональных. Подчасти внутри широкой критической ширины, но далеки от концентрированной нетональной компоненты это не даст точной оценки нетонального маскирования. Этот подход возможен для уменьшения обьема вычислений.

Модель 2 выбирает минимальный порог маскирования охваченный подчастью, только где ширина относится к региону частоты критической ширены. Это использует средний порог маскирования охваченный подчастью, где ширина относительно близка к критической. Модель 2 менее точна для подчастей высокой частоты, поскольну нет концентрации нетональных компонент.

Вычисление отношения сигнал-маскирования.

Психоаккустическая модель считает отношение сигнал-маскирование как отношение энернии сигнала внутри подчасти (или для слоя 3, группы частей) к минимуму порога маскирования для данной подчасти. Модель переводит это значение в бит распределение секции кодирования.

2.2.1.1 Пример психоаккустической модели анализа.

Этот сегмент дает иллюстрированный пример анализа используемого психоаккустическими моделями 1 и 2.

Рисунок 11 – график спектра примера аудио сигнала психоаккустически анализированного и компрессированного. Этот сигнал состоит из комбинаций сильного 11.250Гц, гинусоидального тона с низкоуровневым шумом.

2.2.1.1.1 Пример для психоаккустической модели 2.

Процессы, применяемые второй моделью до некоторой степени показывают, что эта модель будет задействована первой.

Рисунок 12а показывает результат, соответствующий второй психоаккустической модели, модификации аудио сигнала обьекта группы (63, один к трем критическая ширина, разделения) и затем применения обобщенной функции. Звуковой здвиг пика синусоиды и расширение низкопропускного распределения шума. Результат модификации расширяет диапазон низких частот и уменьшает диапазон высоких. Потому что обобщенная функция применяется к группе, модель обобщенной функции – индекс для аудио сигнала подсчитанный психоаккустической моделью 2.

Рисунок 14а показывает график порога маскирования, как подсчитанный моделью, основанной на модели энергии и тонального индекса. На этом рисунке избражены графики обоих порогов маскирования до и после слияния в порог тишины для иллюстрирования влияния. Запомните, порог тишины значительно увеличивает порог маскирования шума для высоких частот. Аудио системы человека гораздо менее чувствительны в этом регионе. Так же запомните, как синусоидальный сигнал увеличивает порог маскирования для близлежащих частот. Порог маскирования считается для одинаковых групп частот, вместо нескольких групп, для последнего этапа психоаккустической модели вычисление отношения сигнал-маскирование для каждой подчасти.

Рисунок 14б – это график этих выводов, и рисунок 14с – это частотный график обраобтанного аудио сигнала методом отношения сигнал-маскирование. В этом примере аудио компрессия была суровой (768 к 64кбит/сек.)поэтому кодировщику необязательно маскировать весь дискретный сигнал.