1. Теоретичні основи стиснення даних

Теоретичне підґрунтя стиснення інформації було розроблене Клодом Шенноном в кінці 40-х років 20 сторіччя. Його теорія трактує кількість І. як міру зменшення невизначеності відносно певного процесу за результатами спостереження за його реалізацією (зауважимо, що спостереження за відомим процесом не дає І.). З цього виходить, що потрібна міра невизначеності процесу.

Ця міра називається ентропія та оцінюється середньою несподіваністю реалізації процесу. Реалізація процесу тим більш несподівана, чим менше її ймовірність. Тому мірою ентропії могла би бути люба спадна функція цій ймовірності.

Якщо ми маємо символи

х₁, х₂,…, х_N

з ймовірностями появлення

р₁, р₂,…, р_N,

то мірою несподіваності отримання символу могла би бути величина 1/р_N. Але при цьому несподіваність отримання повідомлення з декількох символів дорівнювала би добутку несподіваностей отримання окремих символів, а не їх сумі, що бажано з точки зору забезпечення адитивності міри інформації. Тому беруть логарифм log(1/р_N)=-log р_N, і тоді ентропія повідомлення дорівнює сумі ентропій символів:

log(1/ р₁ р₂)=-log p₁ –logp₂

Кількість інформації 1 отримаємо, якщо N=2, р₁=р₂=1/2 і основа логарифму 2, це і називається біт.

Кількість інформації в повідомленні з фіксованим алфавітом :

Н=р₁ (log(1/ р₁) + р₂ (log(1/ р₂)+….+ р_N log(1/р_N)

Н – середня кількість бітів (ентропія), яка необхідна для представлення одного символу;

р_і – імовірність появи і-го символу

N – кількість символів.

Приклад:

Є 4 символи з ймовірностями

Р₁=0.5 Р₂=0.25 Р₃=Р₄=0.125

Н= - 0.5 log0.5 …… =1.75 біт

Що є надмірністю? Інтуїтивно зрозуміло, що невизначеність максимальна, якщо усі символи мають рівну ймовірність, 1/N. В нашому прикладі це 0.25, N=4. Тоді максимальна кількість інформації дорівнює

H_max= log N.

Як можна бачити, співвідношення між Н та Н_max характеризує насиченість символу інформацією, а надмірність визначається як

R = 1-Н/Н_max

В нашому прикладі Н_max= 2, R=1-Н/Н_max=0.125

Стиснення інформації і відбувається за рахунок цієї надмірності, яка обумовлена нерівноймовірністю окремих (символів) повідомлень.

Крім того, це демонструє також, що в межах кожної моделі джерела інформації є теоретична границя стиснення, яку не можна перевищити без втрати інформації. Доведено також, що для любій послідовності даних можна побудувати оптимальний алгоритм (теорема Хафмана). Важливо, що все це вірно для певної моделі джерела інформації (якщо зображення представити як послідовність відрізків або блоків, це дасть різні оцінки).

2. Основні методи стиснення

Не зважаючи на велику кількість алгоритмів стиснення, їх можні розподілити на два великих класи:

Стиснення без втрати інформації
Стиснення з втратою інформації

2.1. Стиснення без втрати інформації

Надмірність усувається лише за рахунок зміни структури даних, тому такі методи є повністю зворотними, тобто із результуючого коду можна відтворити вихідні дані за допомогою зворотного методу. Це потрібно, якщо необхідне повне співпадання вихідних та відтворених даних (коди програм, текстова інформація). Характерні приклади форматів стиснення без втрати інформації: .ZIP, .ARJ, .RAR.

<<< < Предыдущая 1 2 34 / 314 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
27.11.20197.86 Mб9ЛР2_Дослідження характеристик апертурних антен...docx
#
17.11.2019106.5 Кб1МІКРОБ ГАЛУЗІ Л.Р. 1.doc
#
12.11.201973.73 Кб4МІКРОБ ГАЛУЗІ Л.Р..doc
#
15.12.20182.94 Mб37Мікроекономіка.doc
#
01.09.2019612.35 Кб2міні-шпори - v2.doc
#
01.09.2019834.05 Кб4міні-шпори - v3.doc
#
24.12.20183.41 Mб29міні-шпори - Копія (2).doc
#
09.11.201934.29 Кб2МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ УКРАЇНИ.docx
#
05.03.201665.14 Кб5Міністерство освіти і науки України.docx
#
05.12.20182.37 Mб38Міністерство освіти і науки.doc
#
05.03.2016436.74 Кб7Міністерство освіти і науки2.doc