Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика учебник.doc
Скачиваний:
190
Добавлен:
13.05.2015
Размер:
27.91 Mб
Скачать

1.2. Измерение информации

Неопределенность знаний. За всю свою жизнь человек накапливает разнообразную информацию в форме знаний. Парадокс такого накопления информации состоит в том, что чем большим объемом знаний обладает человек, тем больше он ощущает недостаток знаний. К примеру, объем знаний выпускника школы гораздо больше, чем объем знаний первоклассника, однако граница его незнания существенно больше. Действительно, первоклассник ничего не знает о законах физики и поэтому не осознает недостаточности своих знаний, тогда как выпускник школы при подготовке к экзаменам по физике может обнаружить, что существуют физические законы, которые он не знает или не понимает. Информацию, которую получает человек, можно считать мерой уменьшения неопределенности знаний. Если некоторое сообщение приводит к уменьшению неопределенности знаний, то можно говорить, что такое сообщение содержит информацию.

Единицы измерения количества информации. Подход к информации как мере уменьшения неопределенности знаний позволяет количественно измерять информацию. Для количественного выражения любой величины необходимо определить единицу измерения.

За единицу количества информации принимается такое количество информации, которое содержит сообщение, уменьшающее неопределенность знаний в два раза. Такая единица называется «бит».

К примеру, рассмотрим всем известный опыт с бросанием монетки. Перед броском существует неопределенность знаний – возможны два события. После броска наступает полная определенность, так можно однозначно сказать, что монета находится в определенном положении. Таким образом, сообщение о том, что монета упала определенным образом, уменьшает неопределенность знаний в два раза (так как до броска было два возможных события, а после броска – только одно), а значит, это сообщение несет информацию в 1 бит.

В информатике система образования кратных единиц измерения количества информации несколько отличается от принятых в большинстве наук. Традиционные метрические системы единиц (например, система СИ) в качестве множителей кратных единиц используют коэффициент 10n, где n = 3,6,9 и так далее.

Компьютер оперирует с числами не в десятичной, а в двоичной системе счисления (см. п. 1.3.), поэтому в кратных единицах измерения количества информации используется коэффициент 2n.

Следующей по величине после бита единицей измерения количества информации является байт, причем 1 байт = 23 бит = 8 бит.

Кратные байту единицы измерения количества информации вводятся следующим образом:

1Кбайт (килобайт) = 210 байт = 1024 байт;

1Мбайт (мегабайт) = 210 Кбайт = 1024 Кбайт;

1Гбайт (гигабайт) = 210 Мбайт = 1024 Мбайт;

1Тбайт (терабайт) = 210 Гбайт = 1024 Гбайт.

Формула Хартли. Существует формула, которая связывает между собой количество возможных событий N и количеством информации I:

(1.1.)

Эта формула называется формулой Хартли. В формуле выражение читается: «логарифм числаN по основанию 2». Численно логарифм равен степени, в которую необходимо возвести число 2, чтобы получить число N. Значения логарифма по основанию 2 представлены в таблице 1.1.

N

N

N

0,1

 -3,32

3

 1,58

32

5

0,25

- 2

4

2

64

6

0,5

-1

5

 2,32

128

7

0,75

 - 0,42

8

3

256

8

1

0

10

 3,32

512

9

2

1

16

4

1024

10

Таблица 1.1. Таблица значений логарифма по основанию 2.

Задача 1.1. Пусть игрок вытаскивает одну карту из 8 ему известных карт. Определить количество информации, которое содержит сообщение, что игрок вытянул одну определенную карту.

Решение:

Количество возможных событий равно 8 (N = 8), тогда по формуле Хартли искомое количество равно log28 = 3 бита.

Ответ: 3 бита. 

Из формулы Хартли легко определить количество возможных событий:

(1.2.)

Задача 1.2. В результате сообщения о наступлении одного из возможных событий получили 4 бита информации. Определить количество возможных событий.

Решение:

Так как I = 4 бита, то по формуле (1.2.) получаем:

N = 24 = 16.

Ответ: 16 событий. 

Формула Шеннона. Стоит отметить, что возможные события, о которых шла речь выше имеют одинаковую вероятность появления. Действительно, в опыте с бросанием монеты вероятность выпадения «орла» равна вероятности выпадения «решки» (равна ). В этом случае говорят, что событияравновероятные. Существует множество ситуаций, когда возможные события имеют различные вероятности появления. Например, если проводить опыт с несимметричной монетой (одна сторона тяжелее другой), то вероятности выпадения «орла» и «решки» будут различаться. В этом случае говорят, что события не равновероятные.

Количество информации в случае не равновероятных событий можно вычислить с помощью формулы Шеннона:

(1.3.),

где I – количество информации, N – количество возможных событий, pi – вероятность i-го события.

Задача 1.3. Пусть в корзине 4 черных шара, 2 красных и по одному белому и синему. Определить количество информации, которое мы получим после доставания шара из корзины.

Решение:

В данном случае существуют 4 возможных события: достали черный шар, достали красный шар, достали белый шар и достали синий шар. Очевидно, что события не равновероятные. Для нахождения вероятностей воспользуемся формулой:

(1.4.),

где pi – вероятность i-го события, mi – количество шаров i-го цвета, n – общее количество шаров. Найдем вероятности для нашей задачи:

вероятность вытаскивания черного шара ;

вероятность вытаскивания красного шара ;

вероятность вытаскивания белого шара ;

вероятность вытаскивания синего шара .

Стоит отметить, что сумма всех вероятностей должна быть равна 1.

Воспользуемся формулой Шеннона для нахождения количества информации:

бит.

Ответ: 1.75 бит. 

Алфавитный подход к измерению информации. При определении количества информации на основе уменьшения неопределенности знаний мы рассматривали информацию с точки зрения содержания. Однако при хранении и передаче информации с помощью технических устройств информация рассматривается как последовательность знаков (букв, цифр, кодов и т.д.).

Алфавитный подход основам на том, что всякое сообщение можно кодировать с помощью конечной последовательности символов некоторого алфавита. Под алфавитом понимается конечное множество символов, в котором некоторые комбинации символов несут определенный смысл. Примером алфавита могут служить как известные буквенные алфавиты (русский, латинский и т.п.), так и некоторые комбинации символов (например, символы 0 и 1 составляют алфавит для двоичной системы счисления). Количество символов в алфавите называется мощностью алфавита.

Будем считать, что вероятность появления каждого символа алфавита одинакова. Тогда количество информации, которое несет появление одного символа (информационный вес одного символа), можно вычислить по формуле Хартли:

(1.5.),

где i – информационный вес одного символа, N – мощность алфавита.

Если сообщение содержит k символов, то количество информации, которое несет сообщение (информационный объем сообщения), можно вычислить по формуле:

(1.6.),

где I – информационный объем сообщения, k – количество символов в сообщении, i – информационный вес одного символа, N – мощность алфавита.

Задача 1.4. Пусть при написании сообщения, состоящего из 24 символов, используется алфавит мощностью 64 символа. Определить информационный объем сообщения.

Решение:

Нам известны мощность алфавита (N = 64) и количество символов в сообщении (k = 24), тогда по формуле (1.6.) найдем информационный объем сообщения:

Ответ: 18 байт. 

Стандартный машинный алфавит содержит 256 символов, тогда информационный вес одного символа по формуле (1.5.) будет равен log2258 = 8 бит = 1 байт. Это очень удобно при решении задач, так как при использовании машинного алфавита информационный объем в байтах будет равен количеству символов.

Задача 1.5. Сообщение, написанное машинным алфавитом, содержит 2000 символов. Определить информационный объем сообщения.

Решение:

Так как сообщение написано машинным алфавитом, то информационный объем сообщения в байтах будет равен количеству символов. Это значит, что:

Ответ: 1.95 Кбайт. 

Задача 1.6. В книге, написанной машинным алфавитом, 100 страниц. На каждой странице 50 строк. В каждой строке 48 символов. Определить информационный объем книги.

Решение:

Сначала определим количество символов во всей книге (k). Для этого перемножим количество страниц на количество строк на количество символов в каждой строке:

Атак как книга написана машинным алфавитом, то информационный объем книги будет равен:

Ответ: 234.38 Кбайт. 

Вопросы:

1. Объясните парадокс накопления информации. Почему, чем большим объемом знаний обладает человек, тем больше он ощущает недостаток знаний?

2. Что такое неопределенность знаний?

3. Сколько бит в одном мегабайте?

4. В каком случае сообщение о том, что игрок вытянул карту из колоды, будет нести больше количество информации, если в колоде 32 карты или 64?

5. Какая мощность у русского алфавита?

Задачи для самостоятельного решения:

Задача 1.7. Перевести

а) 792 бита в байты; б) 15 байтов в биты;

в) 12288 байтов в Кбайты; г) 8 Мбайт в Кбайты;

д) 40960 бит в Кбайты; е) 2 Мбайта в биты.

Задача 1.8. Игрок бросает симметричный восьмигранный кубик. Определить количество информации, которое несет сообщение о том, что кубик упал на определенную сторону.

Задача 1.9. В результате сообщения о наступлении одного из равновероятных событий получили 8 бит информации. Определить количество возможных событий.

Задача 1.10. Пусть в колоде 8 крестовых карт, 4 червовые и по 2 бубновые и пиковые. Определить количество информации, которое мы получим после доставания одной карты из колоды.

Задача 1.11. Пусть при написании сообщения, состоящего из 80 символов, используется алфавит мощностью 128 символов. Определить информационный объем сообщения.

Задача 1.12. Пусть при написании сообщения, состоящего из 1024 символов, используется машинный алфавит. Определить информационный объем сообщения.

Задача 1.13. В книге, написанной машинным алфавитом, 80 страниц. На каждой странице 80 строк. В каждой строке 80 символов. Определить информационный объем книги.

Задача 1.14. Информационный объем книги, написанной машинным алфавитом, равен 200 Кбайт. На каждой странице в книге 64 строки. В каждой строке 32 символа. Определить количество страниц в книге.