Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
міні-шпори - v3.doc
Скачиваний:
4
Добавлен:
01.09.2019
Размер:
834.05 Кб
Скачать

1. Теоретичні основи стиснення даних

Теоретичне підґрунтя стиснення інформації було розроблене Клодом Шенноном в кінці 40-х років 20 сторіччя. Його теорія трактує кількість І. як міру зменшення невизначеності відносно певного процесу за результатами спостереження за його реалізацією (зауважимо, що спостереження за відомим процесом не дає І.). З цього виходить, що потрібна міра невизначеності процесу.

Ця міра називається ентропія та оцінюється середньою несподіваністю реалізації процесу. Реалізація процесу тим більш несподівана, чим менше її ймовірність. Тому мірою ентропії могла би бути люба спадна функція цій ймовірності.

Якщо ми маємо символи      

х1, х2,…, хN

з ймовірностями появлення                    

р1, р2,…, рN,

то мірою несподіваності отримання  символу могла би бути величина 1/рN. Але при цьому несподіваність отримання повідомлення з декількох символів дорівнювала би добутку несподіваностей отримання окремих символів, а не їх сумі, що бажано з точки зору забезпечення адитивності міри інформації. Тому беруть логарифм log(1/рN)=-log рN, і тоді ентропія повідомлення дорівнює сумі ентропій символів:

log(1/ р1 р2)=-log p1 –logp2

Кількість інформації 1 отримаємо, якщо N=2, р12=1/2 і основа логарифму 2, це і називається біт.

Кількість інформації в повідомленні з фіксованим алфавітом :

 

Н=р1 (log(1/ р1) + р2 (log(1/ р2)+….+ рN log(1/рN)

 

Н – середня кількість бітів (ентропія), яка необхідна для представлення одного символу;

рі – імовірність появи і-го символу

N – кількість символів.

 

Приклад:

Є 4 символи з ймовірностями

Р1=0.5         Р2=0.25       Р34=0.125

Н= - 0.5 log0.5 ……  =1.75 біт

 

Що є надмірністю? Інтуїтивно зрозуміло, що невизначеність максимальна, якщо усі символи мають рівну ймовірність, 1/N. В нашому прикладі це 0.25, N=4. Тоді максимальна кількість інформації дорівнює

 

Hmax = log N.

 

Як можна бачити, співвідношення між Н та Нmax характеризує насиченість символу інформацією, а надмірність визначається як

 

R = 1-Н/Нmax

 

В нашому прикладі Нmax= 2, R=1-Н/Нmax=0.125

 

Стиснення інформації і відбувається за рахунок цієї надмірності, яка обумовлена нерівноймовірністю окремих (символів) повідомлень.

Крім того, це демонструє також, що в межах кожної моделі джерела інформації є теоретична границя стиснення, яку не можна перевищити без втрати інформації. Доведено також, що для любій послідовності даних можна побудувати оптимальний алгоритм (теорема Хафмана). Важливо, що все це вірно для певної моделі джерела інформації (якщо зображення представити як послідовність відрізків або блоків, це дасть різні оцінки).

 

2. Основні методи стиснення

Не зважаючи на велику кількість алгоритмів стиснення, їх можні розподілити на два великих класи:

  1. Стиснення без втрати інформації

  2. Стиснення з втратою інформації

 

2.1. Стиснення без втрати інформації

Надмірність усувається лише за рахунок зміни структури даних, тому такі методи є повністю зворотними, тобто із результуючого коду можна відтворити вихідні дані за допомогою зворотного методу. Це потрібно, якщо необхідне повне співпадання вихідних та відтворених даних (коди програм, текстова інформація). Характерні приклади форматів стиснення без втрати інформації: .ZIP, .ARJ, .RAR.