Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИиИКТ Лекция 1 Информация.doc
Скачиваний:
10
Добавлен:
10.05.2015
Размер:
128 Кб
Скачать

1.4. Вывод формулы Шеннона

Нам необходимо научиться оценивать степень неопределенности различных ситуаций, опытов. Для самых простых опытов, имеющихк равновероятных исходов, степень неопределенностиизмеряется с помощью самого числа «к»: при к = 1 никакой неопределенности нет, так как исход предопределен, но не случаен. При росте числа возможных исходов предсказание результата опыта становится все более затруднительным, так что естественно предположить, что мера степени неопределенности является функцией к f(к), причемf(1) = 0 иf(k) монотонно растет с ростом «к».

Кроме того, надо научиться оценивать неопределенность нескольких опытов. Рассмотрим два независимых опыта «а» и «в»(т.е. таких два опыта, что любые сведения об исходе первого никак не меняют вероятностей исходов второго). Если опыт «а» имеет р равновероятных исходов, а опыт «в» — q равновероятных исходов, то сложный опыт ав, состоящий в одновременном выполненииопытов «а» и «в», очевидно, обладает большей неопределенностью, чем каждый опыт «а» или «в» в отдельности.

Примерсложногоопыта. Пусть в одной урне находится 32 таблички с буквами русского алфавита (е и ё будем считать неразличимыми), а в другой — таблички с арабскими цифрами 0, 1, ..., 9. Опыт «а» состоит в извлечении из первой урны одной буквы, а опыт «в» — в извлечении из второй урны одной цифры. В первом случае у нас 32 равновероятных исхода, а вовтором — 10. При этом извлечение какой бы то ни было буквы из первой урны никак не влияет на то, какая будет извлечена цифра. В сложном опыте «а» х «в» = 320 исходов, и степень неопределенности этого опыта больше, чем двух исходных.

Очевидно, что в сложном опыте степень неопределенности опыта «а» дополняется степенью неопределенности «в». Можно считать, что степень неопределенности опыта «а» х «в» равна сумме неопределенностей опытов «а» и «в». Так как опыт «а» х «в» имеет «p»х «q» равновероятных исходов, то мы можем формировать условие, которому должна удовлетворять функцияf(k):f(pq) = f(p) + f(q).

Последнее условие вместе с требованием f(1) = 0 и условием монотонного роста наталкивает на мысль, что в качестве меры неопределенности опыта, имеющего к равновероятных исходов, можно взять число logk:. Формально доказывается, что логарифмическая функция является единственной функцией аргумента к, удовлетворяющей условиямf(pq) = f(p) + f(q), f(1) = 0 иf(p) > f(q) прир > q.

При определении конкретной оценки меры неопределенности обычно используют логарифм по основанию два, т.е. f(k) =log2k. Это означает, что за единицу измерения степени неопределенности здесь принимается неопределенность, содержащаясяв опыте, имеющем два равновероятных исхода (как в опыте подбрасывания монеты). Такая единица измерения неопределенности называется бит (bitbinary digitдвоичный разряд). В немецкой литературе ее название очень выразительно — Ja-Nein Einheit (единица «Да-Нет»). В случае использования десятичных логарифмов в качестве единицы степени неопределенности принималась бы неопределенность опыта с десятью равновероятными исходами — дит. Чаще всего именно бит принимается в качестве единицы измерения: мы соглашаемся оценивать неопределенность системы в самых мелких возможных единицах. Неопределенность десятичного набора — гораздо крупнее: дит почти в 3,3 раза больше бита (так какlog210 = 3,32).

Клод Шеннон в 1950 г. предложил в качестве меры неопределенности системы «а» с «к» состояниями энтропии Н(а)

k

Н(a) = - Σ Pt log Pt

i=1

где Ptвероятность того, что система находится в i-u состоянии.

Энтропия равна нулю только в одном случае, когда все вероятности Рi равны нулю, кроме одной, которая равна единице. Это точно описывает отсутствие неопределенности: система находится всегда в одном и том же состоянии.

Энтропия максимальна, когда все вероятности равны.

Если вес исходы равновероятны, т.е. Pi = 1/к, то согласно формуле Шеннона Н(a) = log к

Например, энтропия нашего алфавита из 32 букв: Н = log32 = 5 бит. Энтропия десятичного набора цифр Н = log 10 =3,32 бита. Энтропия системы, в которой отдельно храниться 32 буквы и 10 цифр Н = log(32 х 10)= 5 + 3,32 = 8,32 бита.

Вооружившись таким основательным понятием, как количество информации, рассмотрим его с позиций семиотики.