Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ССТВ_учебное_пособие_2.doc
Скачиваний:
236
Добавлен:
03.03.2016
Размер:
33.95 Mб
Скачать

1.5. Кодирование звуковых объектов

Широкие возможности представляет стандарт МРЕG-4 для кодирования звука. Впервые используются раздельные алгоритмы для кодирования звуков музыкального происхождения и речи, введены мощные средства создания и обработки синтезированного звука.

Наиболее широкий круг звуковых объектов, от низкоскоростных моно до многоканального звука вещательного качества, относится к категории универсального звука (GAGeneral Aud). В качестве основного алгоритма кодирования звуков различного происхождения принят известный из МРЕG-2 алгоритм ААС с незначительными усовершенствованиями. Одно из них касается введения режима PNS (Реrсерtuаl Nоisе Substitutn — перцептуальное замещение шумом). Суть данного метода заключается в обнаружении в приходящем сигнале шумоподобных составляющих и исключении их из общего процесса кодирования. Декодеру передается информация о мощности шумовых компонентов в отдельных участках спектра, и он подменяет соответствующие спектральные коэффициенты псевдослучайными сигналами с требуемой мощностью. Режим PNS иллюстрируется структурной схемой, показанной на рисунке 1.7.

Рисунок 1.7 — Схема реализации режима PNS:

а) кодер; б) декодер

Еще одно усовершенствование связано с введением алгоритма ВSАС (Вit-Sliсеd Аrithmеtiс Соding — арифметическое кодирование с побитовым расщеплением). Чтобы получить масштабируемый поток, ВSАС использует альтернативный по отношению к ААС модуль кодирования квантованных коэффициентов с точным управлением скоростью потока в пределах от 16 кбит/с до 64 кбит/с с шагом 1 кбит/с.

Существенный выигрыш в скорости потока для стационарных гармонических и квазигармонических сигналов позволяет получить метод долговременного предсказания LТР (Long Теrm Рrеdtn). В технике кодирования речи этот метод широко используется во временной области. В стандарте МРЕG-4 он интегрирован в схему универсального кодера (см. рисунок 1.8), где операции квантования и кодирования осуществляются над спектральными представлениями входного сигнала.

Рисунок 1.8 — Схема универсального кодера с LТР

Для работы схемы LТР кодированный сигнал предыдущего кадра переводится обратно во временную область с помощью инверсного преобразования TNS и синтезирующего БФ, в блоке LТР он сравнивается с приходящим сигналом, а полученная разность опять переводится в спектральную область. Специальный переключатель FSS (Frequency Selective Switch — переключатель с частотной избирательностью) выбирает исходный или разностный сигнал в зависимости от того, какая альтернатива в данный момент предпочтительнее. По сравнению с предсказанием из МРЕG-2 ААС данный метод предсказания требует вдвое меньших ресурсов памяти и производительности процессора.

Для увеличения эффективности кодирования музыкальных сигналов на низких скоростях разработан алгоритм Twin VQ (Тrаnsfоrm-dоmаin Wеightеd Intеrlеаvе VQ — взвешивающее векторное квантование с перемежением и преобразованием областей). Основная идея — заменить обычное кодирование спектральных компонентов в ААС перемежающим векторным квантованием, приложенным к нормализованному спектру (см. рисунке 1.9).

Рисунок 1.9 — Алгоритм Twin VQ векторного квантования спектральных компонентов

Квантование спектральных коэффициентов осуществляется в два шага: на первом они нормализуются к некоторому пределу, на втором — квантуются с использованием векторного квантования. Процесс нормализации включает оценку спектра по шкале Барка, извлечение периодических компонентов и оценку мощности спектральных составляющих. В результате нормализации спектральные коэффициенты выравниваются и нормализуются вдоль частотной оси. Затем нормализованные коэффициенты описываются как многомерный вектор, чередуются в субвекторы, как показано на рисунке 1.9, и квантуются с использованием векторного квантования. Остальная часть алгоритма ААС остается неизменной.

Алгоритм Тwin VQ дает хорошие результаты в интервале скоростей от 6 кбит/с до 24 кбит/с и используется в основном вуниверсальных кодеках МРЕG-4 с масштабированием для формирования базового слоя.