Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
гарсков 01-10 блеа нью вёршн.docx
Скачиваний:
26
Добавлен:
11.04.2015
Размер:
1.39 Mб
Скачать

Семейство стандартов mpeg

 

MPEG расшифровывается как «Moving Picture Coding Experts Group», дословно - группа экспертов по кодированию подвижных изображений.  MPEG  ведет свою историю с января 1988 года. Начиная с первого собрания в мае 1988 года, группа начала расти, и выросла до очень большого коллектива специалистов. Обычно, в собрании MPEG принимают участие около 350 специалистов из более чем 200 компаний. Большая часть участников MPEG — это специалисты, занятые в тех или иных научных и академических учреждениях. 

4.2.1.Стандарт mpeg-1

 

            Стандарт MPEG-1 (ISO/IEC 11172-3) включает в себя три алгоритма различных уровней сложности: Layer (уровень) I, Layer II и Layer III. Общая структура процесса кодирования одинакова для всех уровней. Однако, несмотря схожесть уровней в общем подходе к кодированию, уровни различаются п левому использованию и внутренним механизмам. Для каждого уровня определен цифровой поток (общая ширина потока) и свой алгоритм декодирования

            MPEG-1 предназначен для кодирования сигналов, оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Как было указано выше, MPEG-1 имеет три уровня (Layer I, II и Ш). Эти уровни имеют различия в обеспечиваемом коэффициенте сжатия и качестве звучания получаемых потоков.

            MPEG-1 нормирует для всех трех уровней следующие номиналы скоростей цифрового потока: 32, 48, 56, 64, 96, 112, 192, 256, 384 и 448 кбит/с, число уровней квантования входного сигнала - от 16 до 24. Стандартным входным сигналом для кодера MPEG-1 принят цифровой сигнал AES/EBU (двухканальный цифровой звуковой сигнал с разрядностью квантования 20 ... 24 бита на от­чет) Предусматриваются следующие режимы работы звукового кодера:

            ■   одиночный канал (моно);

            ■   двойной канал (стерео или два моноканала);

            ■   joint stereo (сигнал с частичным разделением правого и левого каналов). Важнейшим свойством MPEG-1 является полная обратная совместимость

всех трех уровней. Это означает, что каждый декодер может декодировать сиг­налы не только своего, но и нижележащих уровней.

            В основу алгоритма Уровня I положен, разработанный компанией Philips для записи на компакт-кассеты, формат DCC (Digital Compact Cassette). Коди­рование первого уровня применяется там, где не очень важна степень компрес­сии и решающими факторами являются сложность и стоимость кодера и деко­дера. Кодер Уровня I обеспечивает высококачественный звук при скорости цифрового потока 384 кбит/с на стереопрограмму.

            Уровень II требует более сложного кодера и несколько более сложного декодера, но обеспечивает лучшее сжатие — «прозрачность» канала достигает­ся уже при скорости 256 кбит/с. Он допускает до 8 кодирований/декодирований без заметного ухудшения качества звука. В основу алгоритма Уровня П поло­жен популярный в Европе формат MUSICAM.

            Самый сложный Уровень III включает все основные инструменты сжатия: полосное кодирование, дополнительное ДКП, энтропийное кодирование, усовершенствованную ПАМ. За счет усложнения кодера и декодера он обеспечи­вает высокую степень компрессии - считается, что «прозрачный» канал формируется на скорости 128 кбит/с, хотя высококачественная передача воз­можна и на более низких скоростях,

            В стандарте рекомендованы две психоакустические модели: более простая Модель 1 и более сложная, но и более высококачественная Модель 2. Они

отличаются алгоритмом обработки отсчетов. Обе модели могут использоваться

всех трех уровней, но Модель 2 имеет специальную модификацию для  Уровня III.

            MPEG -1 оказался первым международным стандартом цифрового сжатия звуковых сигналов и это обусловило его широкое применение во многих областях: вещании, звукозаписи, связи и мультимедийных приложениях. Наиболее широко  используется Уровень II, он вошел составной частью в европейские спутникового, кабельного и наземного цифрового ТВ вещания, в стандарты звукового вещания, записи на DVD, Рекомендации МСЭ BS.1115 и J.52. Уровень III (его еще называют МР-3) нашел широкое применение в цифровых сетях с интегральным обслуживанием (ISDN) и в сети Интернет Подавляющее большинство музыкальных файлов в сети записаны именно в этом стандарте.                                                 

Цифровой аудиоформат — формат представления звуковых данных, используемый при цифровой звукозаписи, а также для дальнейшего хранения записанного материала на компьютере и других электронных носителях информации, так называемых звуковых носителях.

Разновидности цифровых аудиоформатов

Существуют различные понятия звукового формата.

Формат представления звуковых данных в цифровом виде зависит от способа квантованияцифро-аналоговым преобразователем (ЦАП). В звукотехнике в настоящее время наиболее распространены два видаквантования:

  • импульсно-кодовая модуляция

  • сигма-дельта-модуляция

Зачастую разрядность квантования и частоту дискретизации указывают для различных звуковых устройств записи и воспроизведения как формат представления цифрового звука (24 бита/192 кГц; 16 бит/48 кГц).

Формат файлаопределяет структуру и особенности представления звуковых данных при хранении назапоминающем устройствеПК. Для устранения избыточности аудио данных используютсяаудиокодеки, при помощи которых производитсясжатие аудиоданных. Выделяют три группы звуковых форматов файлов:

  • аудиоформаты без сжатия, такие как WAV, AIFF

  • аудиоформаты со сжатием без потерь(APE, FLAC)

  • аудиоформаты, с применением сжатия с потерями(mp3, ogg)

Особняком стоят модульные музыкальные форматы файлов. Созданныесинтетическиили изсэмпловзаранее записанных живых инструментов, они, в основном, служат для создания современной электронной музыки (MOD). Также сюда можно отнести форматMIDI, который не является звукозаписью, но при этом с помощьюсеквенсорапозволяет записывать и воспроизводить музыку, используя определенный набор команд в текстовом виде.

Форматы носителей цифрового звукаприменяют как для массового распространения звуковых записей (CD,SACD), так и в профессиональной звукозаписи (DAT,минидиск).

Для систем пространственного звучаниятакже можно выделить форматы звука, в основном являющиеся звуковым многоканальным сопровождением к кинофильмам. Такие системы имеют целые семейства форматов от двух крупных конкурирующих компаний Digital Theater Systems Inc. —DTSи Dolby Laboratories Inc. —Dolby Digital.

Также форматом называют количество каналов в системах многоканального звука (5.1; 7.1). Изначально такая система была разработана для кинотеатров, но впоследствии была расширена для систем домашнего кинотеатра.

MP3 (более точно, англ. MPEG-1/2/2.5 Layer 3; но не MPEG-3) — третий слой формата кодирования звуковой дорожки MPEG, лицензируемый формат файла для хранения аудиоинформации.

В формате MP3 используется алгоритм сжатия с потерями, разработанный для существенного уменьшения размера данных, необходимых для воспроизведения записи и обеспечения качества воспроизведения звука очень близкого к оригинальному (по мнению большинства слушателей). При создании MP3 со средним битрейтом 128 кбит/с в результате получается файл, размер которого примерно равен 1/11 от оригинального файла с CD-Audio. Само по себе несжатое аудио формата CD-Audio имеет битрейт 1411,2 кбит/с. MP3-файлы могут создаваться с высоким или низким битрейтом, который влияет на качество файла-результата. Принцип сжатия заключается в снижении точности некоторых частей звукового потока, что практически неразличимо для слуха большинства людей. Данный метод называюткодированием восприятия.[1] При этом на первом этапе строится диаграмма звука в виде последовательности коротких промежутков времени, затем на ней удаляется информация не различимая человеческим ухом, а оставшаяся информация сохраняется в компактном виде. Данный подход похож на метод сжатия, используемый при сжатии картинок в формат JPEG.

Описание формата

Как и формат JPEG, MP3 использует спектральные отсечения, согласно психоакустической модели. Вспомним анатомию уха (Улитка является механическим измерителемАЧХ и по действию схожа с АЧХ-метром) следовательно звук необходимо представить как спектр. Звуковой сигнал разбивается на равные по продолжительности отрезки, каждый из которых после обработки упаковывается в свой фрейм (кадр). Разложение в спектр требует непрерывности входного сигнала, посему для расчётов используется также предыдуший и следующий фрейм. В звуковом сигнале есть гармоники с меньшой амплитудой и гармоники, лежащие вблизи более интенсивных — такие гармоники отсекаются, так как среднестатистическое человеческое ухо не всегда сможет определить присутствие либо отсутствие таких гармоник (пример: световая завеса — когда яркий источник света не позволяет разглядеть более тёмный предмет, который находится на заднем плане). Также возможна замена двух и более близлежащих пиков одним усреднённым (что как правило и приводит к искажению звука). Критерий отсечения определяется требованием к выходному потоку. Поскольку весь спектр актуален, мы не можем отсекать высокочастотные гармоники как в JPEG, но мы можем облегчить информацию за счёт разрежения спектра. После спектральной «зачистки» применяются математические методы сжатия и упаковка во фреймы. Каждый фрейм может иметь несколько контейнеров, что позволяет хранить информацию о нескольких потоках (левый и правый канал либо центральный канал и разница каналов). Степень сжатия можно варьировать, в том числе в пределах одного файла. Интервал возможных значений битрейтасоставляет 8-320 кбит/c.

Так как формат MP3 поддерживает двухканальное кодирование (стерео), существует 4 режима:

  • Стерео— это

  • Моно— одноканальное кодирование

  • Двухканальное стерео (англ.Dual Channel) — два независимых канала,

  • Объединённое стерео (англ. Joint Stereo, M/S Stereo) —

CBR - это, VBR - это; ABR - это

AAC

+ мамчев основы цтв стр 139

 AAC — это широкополосный алгоритм кодирования аудио, который использует два основных принципа кодирования для сильного уменьшения количества данных, требуемых для передачи высококачественного цифрового аудио. Данный формат является одним из наиболее качественных, использующих сжатие с потерями, поддерживаемый большинством современного оборудования, в том числе портативного

Как работает AAC

  1. Удаляются невоспринимаемые составляющие сигнала.

  2. Удаляется избыточность в кодированном аудио сигнале.

  3. Затем сигнал обрабатывается по методу МДКПсогласно его сложности.

  4. Добавляются коды коррекции внутренних ошибок.

  5. Сигнал сохраняется или передаётся.

Аудио стандарт MPEG-4не требует единственного или малого набора высокоэффективных схем компрессии, а скорее сложный набор для выполнения широкого круга операций от кодирования низкокачественной речи до высококачественного аудио и синтезирования музыки.

  • Семейство алгоритмов аудио кодирования MPEG-4охватывает диапазон от кодирования низкокачественной речи (до 2кбит/с) до высококачественного аудио (от 64 кбит/с на канал и выше).

  • AAC имеет частоту дискретизации от 8 Гцдо 96 кГц и количество каналов от 1 до 48.

  • В отличие от гибридного набора фильтров MP3, AAC использует Модифицированное Дискретное Косинусное Преобразование (MDCT) вместе с увеличенным размером «окна» в 2048 пунктов. AAC более подходит для кодирования аудио с потоком сложных импульсов и прямоугольных сигналов, чемMP3.

AAC может динамически переключаться между длинами блоков MDCT от 2048 пунктов до 256.

  • Если происходит единственная или кратковременная смена, используется малое «окно» в 256 пунктов для лучшего разрешения.

  • По умолчанию используется большое 2048-пунктовое «окно» для улучшения эффективности кодирования.

Преимущества AAC перед MP3

  • До 48 звуковых каналов;

  • Бо́льшая эффективность кодирования как при постоянном, так и при переменном битрейте;

  • Частоты дискретизации от 8 Гц до 96 кГц (MP3: 8 Гц — 48 кГц);

  • Более гибкий режим Joint stereo.

OGG

OGG Vorbis - относительно новый формат аудио компресии, официально вышедшей летом 2002 года. Он пренадлежит к таким видов форматов, как MP3, AAC, VQF и WMA, то есть к форматам компрессии с потерями. Психоаккустическая модель OGG близка к MP3, но математическая обработка и практическая реализация этой модели в корне отличаются. преимущество формата Ogg Vorbis - использование новейшей и наиболее качественной психоаккустической модели, из-за чего соотношение битрейт/качество значительно ниже, чем у других форматов. Как результат качество звука лучше, но размер файла меньше. Ogg Vorbis не ограничивает пользователя только двумя аудио каналами (стерео левый и правый). Он поддерживает до 255 отдельных каналов с частотой дискретизации до 192kHz и разрядностью до 32bit (чего не позволяет ни один формат сжатия с потерями), поэтому Ogg Vorbis великолепно подходит для кодирования 6-ти канального звука DVD-Audio. К тому же, формат OGG Vorbis sample accurate. Это гарантирует, что звуковые данные перед кодированием и после декодирования не будут иметь смещений или дополнительных/потерянных сэмплов относительно друг друга. Ogg Vorbis был разработан сообществом Xiphophorus для того, чтобы заменить все платные запатентованные аудио форматы. Несмотря на то, что это самый молодой формат из всех конкурентов МР3, Ogg Vorbis имеет полную поддержку на всех известных платформах (Windows, PocketPC, Symbian, DOS, Linux, MacOS, FreeBSD, BeOS и др.), а также большое количество аппаратных реализаций. Популярность на сегодняшний день значительно превосходит все альтернативные решения. Как правило, формат .OGG используеться в играх.

OGG Vorbis — свободный формат сжатия звука с потерями, официально появившийся летом 2002 года. По функциональности и качеству аналогичен таким кодекам как AAC, AC3 и VQF, превосходящим MP3.Психоакустическая модель, используемая в Vorbis, по принципам действия близка к MP3 и подобным, однако математическая обработка и практическая реализация этой модели существенно отличаются, что позволило авторам объявить свой формат совершенно независимым от всех предшественников.

Vorbis идеален для применения в качестве звуковых дорожек фильмов, так как не изменяет их длину при переменном битрейте, что позволяет сохранять синхронность с видеодорожкой и применим для многоканального звука (например 6-канальный звук DVD).

Преимущества Vorbis

  • Отсутствие патентных ограничений.

  • До 255 каналов.

  • «Sample accurate» — звуковые данные не будут иметь смещений, дополнительных или потерянных семплов относительно друг друга.

  • «Streamable» — поддержка поточного воспроизведения.

  • Эффективные алгоритмы переменного битрейта.

  • Частота дискретизациидо 192 кГц.

  • Разрядность до 32 бит.

  • Гибкий Joint stereo.

  • Гибкая психоакустическая модель.

  • Теги хранятся в Юникоде, а не в национальной кодировке.

Недостатки

  • Требует большей вычислительной мощи, чем MP3.