Оптимальное алфавитное кодирование

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский Государственный Университет Телекоммуникаций и Информатики

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Пособие_СиАОД.doc

Скачиваний:

Добавлен:

11.04.2015

Размер:

2.05 Mб

Скачать

☆

<<< < Предыдущая 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 4344 / 4744 45 46 47 > Следующая >>>

Оптимальное алфавитное кодирование

Побуквенное кодирование пригодно для любых сообщений. Однако на практике часто доступна дополнительная информация о вероятностях символов исходного алфавита. С использованием этой информации решается задача оптимального побуквенного кодирования.

Пусть имеется дискретный вероятностный источник, порождающий символы алфавита А={a₁,…,a_n} с вероятностями p_i= p(a_i), . Основной характеристикой источника является его энтропия, которая представляет собой среднее значение количества информации в сообщении источника и определяется выражением (для двоичного случая). Энтропия характеризует меру неопределенности выбора для данного источника. Например, если А={a₁,a₂}, p₁=0, p₂=1, т.е. источник может породить только символ a₂, то неопределенности нет, энтропия H(p₁, p₂)=0. Максимальная энтропия будет, если все символы равновероятны, например, А={a₁,a₂}, p₁=1/2, p₂=1/2, тогда неопределенность максимальная, т.е. H(p₁, p₂)=1.

Для практических применений важно, чтобы коды сообщений имели по возможности наименьшую длину. Основной характеристикой неравномерного кода является количество символов, затрачиваемых на кодирование одного сообщения. Пусть имеется разделимый побуквенный код для источника, порождающего символы алфавита А={a₁,…,a_n} с вероятностями p_i= p(a_i), , состоящий изn кодовых слов с длинами L₁,…,L_nв алфавите {0,1}. Средней длиной кодового слова называется величина или среднее число кодовых букв на одну букву источника.

Пример. Пусть для имеются два источника с одним и тем же алфавитом А={a₁,a₂,a₃} и разными распределениями P₁={1/3, 1/3, 1/3}, P₂={1/4, 1/4, 1/2}, которые кодируются одним и тем же кодом φ = {a₁10, a₂ 000, a₃ 01}. Средняя длина кодового слова для разных распределений будет различной

L_φ(P₁)=1/3^.2 + 1/3^.3 + 1/3^.2=7/3 ≈2.33

L_φ(P₂)=1/4^.2 + 1/4^.3 + 1/2^.2= 9/4 =2.25

Побуквенный разделимый код называется оптимальным, если средняя длина кодового слова минимальна для данного разделения вероятностей символов. Избыточность кода является показателем качества кода. Избыточностью кода называется разность между средней длиной кодового слова и энтропией источника сообщений r=L_cp-H. Задача эффективного неискажающего сжатия заключается в построении кодов с наименьшей избыточностью, у которых средняя длина кодового слова близка к энтропии источника. К таким кодам относятся классические коды Хаффмена, Шеннона, Фано, Гильберта-Мура.

Приведем некоторые свойства, которыми обладает любой оптимальный побуквенный код.

Лемма 1. Для оптимального кода с длинами кодовых слов L₁,…,L_n: верно соотношение L₁≤L₂≤…≤L_n(p₁≥p₂≥…≥p_n).

Доказательство (от противного): Пусть есть i и j, что L_i>L_j при p_i>p_j. Тогда

L_ip_i+L_jp_j=L_ip_i+L_jp_j+L_ip_j+L_jp_i-L_ip_j-L_jp_i=

=p_i(L_i-L_j)-p_j(L_i-L_j)+L_jp_i+L_ip_j=(p_i-p_j)(L_i-L_j) +L_ip_j+L_jp_i>L_ip_j+L_jp_i,

т.е. если поменяем местами L_i и L_j, то получим код, имеющий меньшую среднюю длину кодового слова. Противоречие с оптимальностью.

Лемма 2 Пусть схема оптимального префиксного кодирования для распределения вероятностей Р,. Тогда среди элементарных кодов, имеющих максимальную длину, существуют два, которые различаются только в последнем разряде.

Доказательство. Покажем, что в оптимальной схеме кодирования всегда найдется два кодовых слова максимальной длины. Предположим обратное. Пусть кодовое слово максимальной длины одно и имеет вид ,. Тогда длина любого элементарного кода не больше длиныb, т.е. ,. Поскольку схема кодирования префиксная, то кодовые словане являются префиксомb. С другой стороны, b не является префиксом кодовых слов . Таким образом, новая схема кодирования также является префиксной, причем с меньшей средней длиной кодового слова , что противоречит оптимальности исходной схемы кодирования. Пусть теперь два кодовых словаимаксимальной длины отличаются не в последнем разряде, т.е.,,,. Причем,не являются префиксами для других кодовых слови наоборот. Тогда новая схематакже является префиксной, причем, что противоречит оптимальности исходной схемы кодирования.

Рассмотрим алгоритм построения оптимального кода Хаффмена.

Упорядочим символы исходного алфавита А={a₁,…,a_n} по убыванию их вероятностей p₁≥p₂≥…≥p_n.
Если А={a₁,a₂}, то a₁0, a₂1.
Если А={a₁,…,a_j,…,a_n} и известны коды <a_j  b_j>, j = 1,…,n ,то для {a₁,…a_j^/ ,a_j^//…,a_n}, p(a_j)=p(a_j^/)+ p(a_j^//), a_j^/  b_j0, a_j^// b_j1.

Пример. Пусть дан алфавит A={a₁, a₂, a₃, a₄, a₅, a₆} с вероятностями p₁=0.36, p₂=0.18, p₃=0.18, p₄=0.12, p₅=0.09, p₆=0.07. Будем складывать две наименьшие вероятности и включать суммарную вероятность на соответствующее место в упорядоченном списке вероятностей до тех пор, пока в списке не останется два символа. Тогда закодируем эти два символа 0 и 1. Далее кодовые слова достраиваются, как показано на рисунке 67.

a₁0.36 0.36 0.36 0.36 0.64 0

a₂0.18 0.18 0.28 0.36 0.36 1

a₃0.18 0.18 0.18 0.28 00

a₄0.12 0.16 0.18 000 01

a₅0.09 0.12 010 001

a₆0.07 0100 011

0101

Рисунок 66 Процесс построения кода Хаффмена

Таблица 10 Код Хаффмена

a_i

P_i

L_i

кодовое слово

a₁

a₂

a₃

a₄

a₅

a₆

0.36

0.18

0.12

0.09

0.07

000

001

011

0100

0101

Посчитаем среднюю длину, построенного кода Хаффмена

L_ср(P)=1^.0.36 + 3^.0.18 + 3^.0.18 + 3^.0.12 + 4^.0.09 + 4^.0.07 =2.44,

при этом энтропия данного источника равна

H=-(0.36^.log0.36+2^.0.18^.log0.18+0.12^.log0.12+0.09^.log0.09+0.07log0.07)=2.37

Код Хаффмена обычно строится и хранится в виде двоичного дерева, в листьях которого находятся символы алфавита, а на «ветвях» – 0 или 1. Тогда уникальным кодом символа является путь от корня дерева к этому символу, по которому все 0 и 1 собираются в одну уникальную последовательность.

Рисунок 67 Кодовое дерево для кода Хаффмена

<<< < Предыдущая 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 4344 / 4744 45 46 47 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.03.20166.03 Mб248Полетайкин Методичка по лабам.doc
#
26.11.2019127.54 Кб4Положение о ВКР_210406.docx
#
08.09.201931.45 Кб7ПОНЯТИЕ УСТОЙЧИВОСТИ ФУНКЦИОНИРОВАНИЯ ОТРАСЛЕЙ...docx
#
11.04.20153.85 Mб20Пособие для заочного отд. 2012.pdf
#
11.04.20153.87 Mб78Пособие по ММР Калинин.doc
#
11.04.20152.05 Mб82Пособие_СиАОД.doc
#
29.08.20191.69 Mб6Пособие_СиАОД.doc
#
11.04.2015199.17 Кб10Постановление правительства система СИ.doc
#
11.04.2015497.83 Кб19Постоянный ток.pdf
#
11.04.20151.75 Mб45ПОТ РО-45-009-2003.rtf
#
11.04.2015135.46 Кб15почта методичка.docx