Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
n1.doc
Скачиваний:
124
Добавлен:
12.03.2015
Размер:
1.5 Mб
Скачать

4.2. Сжатие видеоинформации

4.2.1. Общие положения. В разделе «Аудиомагнитофоны» и в предыдущем параграфе достаточно внимания уделялось различным методам сжатия аудио и видеоинформации. Без сжатия информации невозможно было бы говорить о создании стандарта D-VHS и DVD-дисков. Если о DVD-дисках мы более подробно поговорим в разделе «Проигрыватели компакт-дисков», то в настоящем разделе остановимся на стандартах сжатия MPEG, тем более, что изначально они предназначались для сжатия видеоинформации.

Те­левизионный кадр со­держит 576 активных строк (всего их  625, но часть из них служебные). Согласно стандарту ITU-R BT.601 междуна­родного телекоммуникационного сообщества (ITU — Inter­national Telecommunications Union) каждая строка содержит 720 независимых отсчетов. Таким образом, телевизионный кадр представляет собой матрицу из 720576 точек, а пре­дельно достижимое разрешение ограничено 700 линиями. В оцифрованном телевизионном сигнале каждый кадр предста­вляет собой точечный рисунок, где точка образована отсче­том в горизонтальной строке. Таких «рисунков» должно про­ходить 25 за секунду (если строго  50 полукадров-полей, со­стоящих из четных и нечетных строк соответственно). Тогда информационный объем одной минуты цифрового видеосиг­нала с разрешением, соответствующим вещательному, и при глубине цвета 24 бита (True Color) составит 720  576 точек  24 бита цветности  25 кадров/с  60 с – 1866 Мб... То есть без малого 2 гигабайта; при этом скорость цифрового видео­потока будет равна 250 Мбит/с. Даже если поступиться каче­ством и рассматривать вдвое худшее разрешение по обеим осям (360288, что примерно соответствует качеству хоро­шей VHS-записи), объем минуты видеопрограммы займет 467 Мб, а соответствующая скорость цифрового потока соста­вит более 60 Мбит/с. Надо учесть, что мы принимали в расчет только видео, а ведь каждый фильм имеет и звуковое сопрово­ждение. Получается, что все равно такой сигнал останется слишком громоздким для прямого использования даже в совре­менных коммуникациях или на современных носителях.

В кон­це 80-х  начале 90-х годов единственным цифровым носите­лем, пригодным для массового тиражирования, был компакт-диск емкостью 650 Мб, а скорость цифрового потока при его воспроизведении составляла порядка 150 кб/с (1,2 Мбит/с); пропускная способность коммуникационных сетей не превы­шала 3 Мбит/с.

4.2.2. Принципы сжатия видеоинформации. Руководствуясь подобными ориентирами, группа специали­стов международной организации по стандартизации (ISO) в 1988 г. приступила к разработке стандартов кодирования и сжатия видео- и аудиоинформации. Официальное наимено­вание этой группе было дано ISO/IECJTC1 SC29WG11. Впоследствии она стала известна как «Экспертная группа по кинематографии» (Moving Picture Expert Group), а аббревиатура MPEG, образованная от англий­ского варианта обиходного названия этой группы, давно уже используется как обозначение разработанных ею норм и стандартов.

В основу правил сжатия видеоданных была заложена идея поиска и устранения избыточной информации, не влияющей на конечное восприятие качества изображения. В первую очередь, был учтен «человеческий фактор»  пси­хофизиологическая модель восприятия человеком видео­изображений (HVS  Human Visual Sense); в частности, тот факт, что градации яркости воспринимаются зрительным аппаратом человека значительно тоньше, чем градации цве­та. Это означает, что цветовую информацию можно загрубить по сравнению с яркостной, при этом в субъективном восприятии качество изображения не ухудшится. То есть первоочередным направлением в построении алгоритмов всех стандартов MPEG становится отыскание и устранение информации, избыточной с точки зрения субъективного восприятия.

Как известно, компонентный телевизи­онный сигнал для переноса через эфир из исходного RGB преобразуется в со­вокупность сигнала яркости Y и двух цветоразностных сигналов, назовем их условно U (синий) и V (красный). При преобразовании в цифро­вую форму диапазон изменения их значений допускает 256 градаций (от 0 до 255 для Y, и от -128 до 127 для U и V), что в двоичном исчислении описывается восьмиразрядным «словом». Теоретически каждый элемент кадра имеет собственные значения Y, U и V, т.e. требует для описания 3 байт. Такое представление, когда как яркость, так и сигналы цветности имеют равное чис­ло независимых значений, условно обозначают как 4:4:4

Однако, как уже отмечено выше, зрительная си­стема человека менее чувствительна к цветовым изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Имен­но такое представление, обозначаемое как 4:2:2, было принято в профессио­нальном цифровом телевидении (фор­маты Betacam SX, Digital Betacam и DVCPro5O). При этом U- и V-матрицы уменьшаются до 360576, а для пере­дачи полного значения телевизионно­го сигнала в каждом отсчете кадра до­статочно 2 байт (чередуя через отсчет независимые значения U и V). Для це­лей полупрофессионального и потре­бительского видео уменьшили вдвое и вертикальное цветовое разрешение, т.е. перешли к представлению 4:2:0. Это уменьшает цветовые матрицы до 360288 отсчетов, а приведенное число байт на отсчет  до 1,5. Последний ва­риант, в частности, использован в фор­матах DV и DVCam.

Собствен­но, пониженную чувствительность че­ловеческого глаза к градациям цветно­сти по сравнению с градациями яркости уже давно используют в привыч­ном аналоговом телевидении  цветоразностные компоненты передаются с уменьшенным вдвое разрешением. Да и в декодерах цветности телевизи­онных приемников также производит­ся «удвоение рядов»  в PAL усредне­ние сигналов двух строк, а в SECAM повторение строк.

Следующим шагом по устранению из­быточности стало отыскание инфор­мации, повторяющейся хотя бы в тече­ние какого-то отрезка времени, и при­нятие мер к избежанию дублирования этой информации. В подавляющем большинстве фрагментов фон изобра­жения остается довольно долго неиз­менным, а действие происходит в ос­новном на переднем плане. То есть большинство кадров в последователь­ности несет, как правило, довольно много повторяющейся информации. Меняющаяся от кадра к кадру часть видеоинформации обусловлена дви­жением любых объектов. Отсюда и основная идея схемы сжатия — предска­зывать движение от кадра к кадру и передавать по возможности только часть информации, связанную с этим движением. В соответствии с этой иде­ей определены три типа кадров в пос­ледовательности: Intra (исходные), Predicted (предсказуемые) и Bi-direc­tional Interpolated (двунаправленной интерполяции)  см. схему рис. 2.10.

Из самих терминов понятно, что ис­ходные (или I) кадры являются базовы­ми, опорными в последовательности в течение определенного отрезка вре­мени (в соответствии со стандартом I-кадры должны появляться 1-2 раза в секунду). К этим кадрам применяется только внутрикадровое сжатие по ал­горитмам, аналогичным используе­мым в стандарте JPEG для компрессии неподвижных изображений (как упо­миналось выше, телевизионный кадр в цифровой форме  это картинка, со­стоящая из точек  пикселей).

Кадр разбивается на блоки 88 пикселей (размер квадрата регламентирован од­нозначно). Над каждым блоком произ­водится дискретно-косинусное преоб­разование Фурье с последующим квантованием (преобразованием дан­ных из непрерывной формы в дискрет­ную) полученных коэффициентов (ам­плитуд гармоник). Обычно пиксели в блоке и сами блоки изображения ка­ким-то образом связаны между со­бой  например, однотонный фон, равномерный градиент освещения, по­вторяющийся узор и т.д. (принято го­ворить, что они пространственно коррелированы), так что основная инфор­мационная нагрузка ложится на гар­моники низших порядков.

В процессе квантования учитывается, что человек более чувствителен к дискретизации низких частот, нежели высоких (вновь «человеческий фактор»). Так как в про­цессе квантования многие коэффици­енты Фурье (высших порядков) приоб­ретают нулевые значения, при кодиро­вании (можно назвать это упаковкой) применяется специальный алгоритм зигзаг (Zigzag) для получения длинных последовательностей нулей. Количество предсказуемых (Р) кадров задано стандартом еще жестче  каж­дый третий кадр в последовательно­сти должен быть Р-типа. Обработка Р-кадров производится с использова­нием предсказания движения по пред­шествующим исходным или предска­зуемым кадрам.

Кадр разбивается на макроблоки 1616 пикселей, каждому макроблоку ставится в соответствие наиболее сходный участок изображе­ния из опорного кадра, сдвинутый на вектор перемещения. Следовательно, информация о конкретном блоке Р-кадра состоит из вектора смещения (век­тора движения) блока относительно опорного и разницы между блоками, которая затем и кодируется. Этот про­цесс и называется анализом и компен­сацией движения. Благодаря этому до­пустимая степень сжатия для Р-кадров получается в 3 раза выше, чем для I.

В зависимости от характера видеоизо­бражения, кадры двунаправленной ин­терполяции (В-типа) кодируются од­ним из четырёх способов: предсказа­ние вперёд, обратное предсказание с компенсацией движения (использует­ся, если в кодируемом кадре появля­ются новые объекты изображения), двунаправленное предсказание с ком­пенсацией движения, внутрикадровое предсказание (при резкой смене сюже­та или при высокой скорости переме­щения элементов изображения). В дву­направленных кадрах достигается наиболее глубокое сжатие видеодан­ных. Но зато прежде, чем декодиро­вать кадр В-типа, требуется декодиро­вать как минимум два I- или Р-кадра. Если бы коэффициенты Фурье переда­вались точно, восстановленное изо­бражение полностью совпадало бы с исходным. Однако ошибки восстанов­ления коэффициентов, обусловленные квантованием, приводят к искажениям изображения. Чем грубее производит­ся квантование, тем меньший объем занимают коэффициенты и тем силь­нее сжатие сигнала, но и тем больше вероятность визуальных искажений в восстановленном изображении.

Итак, кадры разбиты на блоки (или ма­кроблоки), блоки, в свою очередь, представлены числовыми матрицами. Теперь упакованные матрицы блоков с характеристиками квантования, векто­рами движения и т.д. объединяются в слои, слои в кадры, а кадры в группы (см. схему рис. 2.11).

Так формируется ви­деопоток (Video Stream), который за­тем «вливается» в общий системный MPEG-поток (System Stream). В этот системный поток, кроме видео, входят поток аудио и служебная информа­ция, которая, в первую очередь, обес­печивает при декодировании синхро­низацию видео и звука (Timing Infor­mation).

Фактически а системный поток встраивается таймер, работающий на частоте 90 кГц. Метка, по которой происходит перевод вре­менного счетчика в декодере SCR (Sys­tem Clock Reference), и метка начала воспроизведения PDS (Presentation Data Stamp) вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS составляет 33 бита, что обеспечивает возможность представ­ления любого временного цикла дли­тельностью до 24 часов.

Давно из­вестный фор­мат цифровой видеозаписи DV (в том числе и MiniDV), в сущности, представ­ляет собой как бы предельный случай MPEG-компрессии  это поток, состо­ящий только из I-кадров (его еще ино­гда называют M-JPEG  Motion JPEG). То есть оцифрованные кадры подвер­гаются только внутрикадровой JPEG компрессии, без использования межкадрового сжатия. Цифровой потоr DV-видео при формате представления 4:2:0 может достигать 25 Мбит/с.

4.2.3. Стандарты MPEG. Проследим наиболее важные эта­пы становления стандартов MPEG.

MPEG1. Первый стандарт появился в 1992 г. и был рассчитан на пере­дачу видео по низкоскоростным сетям или для записи на компакт-диски (Video-CD). Макси­мально возможная скорость цифрового потока была изна­чально ограничена порогом в 150 кб/с (односкоростной CD-ROM или стандартный аудиопроигрыватель компакт-дис­ков). Чтобы уложиться в заданные рамки, конечно, пришлось поступиться качеством. В MPEG1 разрешающая способность картинки снижена, по сравнению с разверткой вещательного телевидения, в два раза по обеим осям: 288 активных строк в телевизионном кадре и 360 отсчетов в актив­ной части строки. В принципе, это разрешение близко по уровню к формату аналоговой VHS-видеозаписи. Но нельзя забывать о JPEG-компрессии. Уменьшение числа отсчетов оз­начает тем самым увеличение блоков и макроблоков внутри каждого кадра. То есть снижение разрешения автоматически делает внутрикадровую компрессию более грубой и как след­ствие  более заметной потребителю. Однотонные поверх­ности оказываются как бы составленными из рассыпающих­ся квадратиков; особенно назойливо квадратики «вылезают» на динамичных сценах. По этим причинам, а также по причине прогресса цифровых технологий стандарт MPEG1 не успел получить большого распространения. От него нам остались в основном стандар­ты сжатия звука, существующие сегодня самостоятельно (о них мы говорили в разделе «Аудиомагнитофоны»).

MPEG2. Новый стан­дарт MPEG2, работа над которым, собственно, началась сразу по выходе MPEG1 и завершилась в 1995 г. «Второй» MPEG не принес революционных изменений, это  вполне эволюци­онная доработка старого стандарта под новые возможности техники и новые требования заказчиков  крупнейших ком­паний масс-медиа. MPEG2 предназначался для обработки ви­деоизображения, соизмеримого по качеству с телевизионным вещательным, при пропускной способности каналов переда­чи данных от 3 до 15 Мбит/с. Сейчас стандарт MPEG2 ассоци­ируется, в первую очередь, с DVD-дисками. Но в 1992 году, когда стар­товали работы над этим стандартом, еще не существовало широкодоступных носителей, на которые можно было бы за­писать видеоинформацию, сжатую по алгоритмам MPEG2. Самое главное  компьютерная техника того времени не могла обеспечить и нужную полосу пропускания. Зато спут­никовое телевидение с новейшим по тем временам оборудо­ванием уже тогда готово было предоставить канал передачи с необходимыми характеристиками. В октябре 1995 года через телевизионный спутник «Pan Am Sat» было реализовано пер­вое 20-канальное цифровое ТВ-вещание, использовавшее стандарт MPEG2. Спутник осуществлял трансляцию на терри­тории Скандинавии, Бенилюкса, Ближнего Востока и Север­ной Африки.

С появлением же в середине 90-х гг. цифрового много­целевого диска DVD (Digital Versatile Disk, Digital Video Disk), обладающего в простейшей — односторонней и однослойной  версии емкостью 4,7 Гб (почти в 8 раз боль­ше CD), он, естественно, становится практически безаль­тернативным массовым носителем для распространения качественной кинопродукции, сжатой по стандарту MPEG2. Это обусловило массовое производство бюджетных DVD-проигрывателей и, конечно, появление недорогих аппарат­ных кодеров/декодеров. На стандарте MPEG2 сейчас по­строены все системы цифрового спутникового телевиде­ния, в частности, система «НТВ+». На нем же основываются эфирные системы цифрового телевещания DVB, получаю­щие все более широкое распространение в ряде стран За­падной Европы и в США. В профессиональной студийной аппаратуре для реализации цифрового нелинейного мон­тажа используется версия EDITABLE MPEG, в которой все кадры ключевые, а скорость потока в формате 4:2:2 дости­гает 50 Мбит/с.

Как мы от­мечали, революционных изменений в новом стандарте нет, но усовершенствования коснулись практически всех этапов «упаковки»; более того, появились операции, ранее не приме­нявшиеся. К примеру, после разбивки видеопотока на кадры и группы кадров кодер анализирует содержимое очередного кадра на предмет повторяющихся, избыточных данных. Сос­тавляется список оригинальных участков и таблица повторя­ющихся участков. Оригиналы сохраняются, копии удаляются, а таблица повторяющихся участков используется при декодировании сжатого видеопотока. Значительное повышение плотности упаковки было также достигнуто благодаря при­менению во внутрикадровом сжатии нелинейного преобра­зования Фурье взамен линейного. Оптимизации подвергся алгоритм предсказания движения, а также введены несколько новых, ранее не используемых алгоритмов компрессии ви­деоданных. Они в совокупности позволяют кодировать раз­ные слои кадра в зависимости от важности с разной интен­сивностью цифрового потока. Стандарт MPEG2 предоставля­ет программистам и продвинутым пользователям возмож­ность в процессе кодирования задавать точность частотных коэффициентов матрицы квантования, что непосредственно влияет на качество получаемого в результате сжатия изобра­жения (и на размер тоже). Точность квантования может варь­ироваться в диапазоне 8-11 бит на одно значение элемента. Для сравнения: в MPEG1 предусматривалось только одно фи­ксированное значение  8 бит на элемент. То есть в рамках стандарта MPEG2 имеется возможность гибкой настройки ка­чества изображения в зависимости от пропускной способно­сти сети или емкости носителя (вот почему на первых DVD можно было видеть разное по качеству изображение). Эта гибкость, в частности, и сделала MPEG2 основой для приема/передачи цифрового телевидения по различным цифровым сетям.

В результате для фильмов, созданных в стандартах PAL и SECAM, поддерживается разрешение 720576 при 25 кадрах в секунду при качестве, практически не уступающем вещатель­ному. Собственно, MPEG-фильм нельзя отнести к какой-либо системе цветного телевидения, так как кадры в MPEG являют­ся просто картинками и не имеют прямого отношения к ис­ходной для фильма системе телевидения; речь может идти о соответствии размера и частоты следования кадров. В части аудио в MPEG2, по сравнению с MPEG1, добавле­на поддержка многоканального звука (Dolby Digital 5.1, DTS и т.п.)

MPEG3. Прежде всего не следует смешивать его с широкоизвестным форматом компрессии звука МРЗ, о котором мы говорили в разделе «Аудиомагнитофоны». Стандарт MPEG3 первоначально разрабатывался для ис­пользования в системах телевидения высокой четкости (High-Definition Television, HDTV) со скоростью потока данных 20-40 Мбит/с. Но еще в процессе разработки стало очевидно, что параметры, требуемые для передачи HDTV, вполне обес­печиваются использованием стандарта MPEG2 при увеличен­ной скорости цифрового потока. Другими словами, острой нужды в существовании отдельного стандарта для HDTV нет. Таким образом, MPEG3, еще не родившись, стал фактически составной частью стандарта MPEG2 и отдельно теперь даже не упоминается.

MPEG4. В новом стандарте MPEG4, появившемся в самом конце 1999 г., предложен более широкий взгляд на медиа-реальность. Стан­дарт задает принципы работы с контентом (цифровым пред­ставлением медиа-данных) для трех областей: собственно интерактивного мультимедиа (включая продукты, распро­страняемые на оптических дисках и через Интернет), графи­ческих приложений (синтетического контента) и цифрового телевидения (DTV). Фактически данный стандарт задает пра­вила организации среды, причем среды объектно-ориенти­рованной. Он имеет дело не просто с потоками и массивами медиа-данных, а с медиа-объектами (ключевое понятие стан­дарта). В MPEG4 определен двоичный язык описания объек­тов, классов и сцен BIFS, который разработчики характеризу­ют как «расширение C++». Помимо работы с аудио- и видео­данными, стандарт позволяет работать с естественными и синтезированными компьютером 2D- и 3D-oбъектами, про­изводить привязку их взаимного расположения и синхрони­зацию друг относительно друга, а также указывать их интера­ктивное взаимодействие с пользователем.

Картинка разделяется на составные элементы  медиа-объекты, описывается структура этих объектов и их взаимо­связи, чтобы затем собрать их в единую видеозвуковую сцену. Результирующая сцена составляется из медиа-объектов, объе­диненных в иерархическую структуру:

а) неподвижные картинки (например, фон);

б) видеообъекты (например, говорящий человек);

в) аудиообъекты (голос, связанный с этим человеком);

г) текст, связанный с данной сценой;

д) синтетические объекты, которых не было изначально в описываемой сцене, но которые туда добавляются при де­монстрации конечному пользователю (например, синтезиру­ется говорящая голова);

е) текст (например, связанный с головой), из которого в конце синтезируется голос.

Такой способ представления данных позволяет изменять результирующую сцену, обеспечивая высокий уровень ин­терактивности для конечного пользователя и предоставляя ему целый ряд возможностей, например: перемещать и по­мещать объекты в любое место сцены, трансформировать объекты, изменять их форму и геометрические размеры, собирать из отдельных объектов составной объект и про­водить над ним какие-либо операции, менять текстуру и цвет объекта, манипулировать им (заставить, к примеру, стол передвигаться в пространстве), менять точку наблюде­ния за всей сценой.

Особое внимание уделим сжатию видеоматериалов, поскольку именно эта область интересует нас в этом разделе. Алгоритм компрессии видео, в принци­пе, работает по той же схеме, что и в предыдущих стандартах, но есть несколько радикальных нововведений. В отличие от прежних стандартов, которые делили кадр на квадратные блоки вне зависимости от содержимого, новый кодер опери­рует целыми объектами произвольной формы. К примеру, че­ловек, двигающийся по комнате, будет воспринят как отдель­ный объект, перемещающийся относительно другого непод­вижного объекта  заднего плана. Также применен «интелле­ктуальный» способ расстановки ключевых кадров. Ключевые кадры не расставляются с заданной регулярностью, а выделя­ются кодером только в те моменты, в которые происходит смена сюжета. Естественно, разветвленные алгоритмы поиска и обработки объектов сложной формы, углубленного анализа последовательностей кадров требуют существенно больших вычислительных ресурсов для качественного восстановления (декомпрессии) изображения из этого формата, нежели в слу­чае MPEG1 и MPEG2. К счастью, производительность современных процессоров позволяет обойти это препятствие. В результате усовершенствований эффективность компрессии видео в MPEG4 возросла настолько, что позволяет размещать полно­метражный фильм длительностью полтора-два часа с весьма приличным качеством всего на одном стандартном компакт-диске (650 Мб). Впрочем, не стоит питать иллюзий по поводу рекламируемого «DVD-качества» МРЕС4-продукции. Следует помнить, что сколь бы совершенным ни был кодер, всегда су­ществует ограничение на минимальный размер (поток) сжато­го видео. Поэтому фильмы в MPEG4, размещенные даже на двух компакт-дисках, все-таки не дотягивают до ка­чества DVD-видео в стандарте MPEG2.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]