- •Глава 3 Основы количественной теории информации
- •3.1. Основные понятия теории информации
- •3.2. Количество информации
- •Количество информации для равновероятных символов в сообщении
- •Количество информации для неравновероятных независимых символов в сообщении
- •Количество информации в случае неравновероятных зависимых символов
- •3.3. Энтропия и ее свойства
- •Свойства энтропии
- •Энтропия - величина неотрицательная и ограниченная.
- •Энтропия системы, имеющей m равновероятных состояний, максимальна и равна log2m.
- •Совместная энтропия независимых источников сообщений равна сумме энтропий.
- •Условная энтропия
- •Энтропия непрерывных сообщений
- •Относительная энтропия
- •3.4. Количественные характеристики источника сообщений Избыточность сообщения
- •Экономичность источников информации
- •Производительность источника сообщений
Энтропия непрерывных сообщений
Рассмотрим систему, где качественные признаки состояния изменяются непрерывно (непрерывный сигнал). Вероятность нахождения системы в состоянии х (т.е. сигнал принимает значение х) характеризуется плотностью вероятности f(x). Чтобы найти энтропию такого сообщения, разбиваем диапазон возможного изменения сигнала на дискреты размером ∆x.
Вероятность нахождения системы в i-й дискрете равна
P(xi) = f(xi)∙x
Тогда энтропия системы вычисляется так:
при малых Δх:
А также
Таким образом
(3.13)
Если ∆х=1 (это зависит от масштаба), то
Величина Н* называется приведенной или дифференциальной энтропией.
При уменьшении ∆х Н стремится к ∞. Это естественно, т.к. чем точнее мы хотим задать состояние системы, тем большую степень неопределенности мы должны устранить. Дифференциальная энтропия не является мерой количества информации, хотя и характеризует степень неопределенности, присущую источнику.
Относительная энтропия
Идеальные сообщения, имеющие максимальную энтропию, оптимальны в том смысле, что в них на один символ (элемент, уровень квантования) приходится наибольшее количество информации.
В реальных сообщениях символы всегда коррелированны (после запятой не появляется точка, после гласной мягкий знак), вследствие чего количество информации, приходящееся на один символ будет меньше, чем в идеальных. Соотношение реальных и оптимальных сообщений выражается посредством коэффициента сжатия (относительная энтропия)
где n0 и np – количество символов оптимального и реального сообщения.
Одно и то же количество информации I(s) может содержаться в сообщении, состоящим из np символов с энтропией Нр(s) или из n0 символов с энтропией Н0(s)
I(s) = np∙Hp(s) = n0∙H0(s), а так как Hp(s)≤H0(s), то npn0.
3.4. Количественные характеристики источника сообщений Избыточность сообщения
Коэффициент избыточности выражается так
Он показывает, какая часть реального сообщения является излишней и могла бы не передаваться, если бы сообщение было организовано оптимально.
Экономичность источников информации
Энтропию можно увеличивать за счет обеспечения равновероятности символов алфавита, а также за счет увеличения мощности алфавита. Однако увеличение мощности алфавита приводит к сложностям приема-передачи информации (непрерывный сигнал передается и воспринимается с погрешностями, китайские иероглифы трудны для освоения, для них не хватает клавиш на клавиатуре…), к увеличению избыточности сообщений (в языках программирования ряд команд применяется редко). Существует теоретический оптимум для мощности алфавита.
Пусть имеется источник с алфавитом мощности m. Тот же алфавит можно получить, используя два источника с алфавитами m/2 или три источника с алфавитами m/3 и т.д. При какой мощности алфавита m общая энтропия будет максимальной, если k∙m = const, где k – количество независимых источников, а m – это мощность алфавита каждого источника? (Под независимыми источниками можно понимать и независимые сигналы одного источника)
Пусть k∙m = а. Энтропия композиции независимых источников равна
k = а/m
Найдем максимум энтропии, для чего продифференцируем по m
m = e
Оптимальная мощность алфавита теоретически равна основанию натуральных логарифмов е (2.718281828459045…), а практически – трем.
Очевидно, что троичный алфавит является более экономичным, чем двоичный. Именно поэтому в истории развития вычислительной техники были случаи создания компьютеров, использующих троичный алфавит. В 1958 году группа советских инженеров под руководством конструктора Н.П. Брусенцова представила электронно-вычислительную машину «Сетунь», работающую на принципах троичной логики. Элементной базой такого компьютера были магнитные усилители на ферритовых сердечниках. Они допускали три устойчивых состояния: ток в прямом направлении (логическая «единица»), ток в обратном направлении (логическая «минус единица») и отсутствие тока (логический «ноль»). Машины этой серии выпускались с 1962 по 1964 год и отличались исключительной надежностью. Архитектурно они были совершеннее «двоичных» полупроводниковых аналогов. Помешали их массовому распространению миниатюризация, удешевление и повышение надежности полупроводниковых элементов. «Сетунь» стала экономически невыгодной.