Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекц для студенов.doc
Скачиваний:
26
Добавлен:
24.08.2019
Размер:
1.39 Mб
Скачать

Формула Хартли:

I = log2N

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100  6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

  1. при бросании монеты: "выпала решка", "выпал орел";

  2. на странице книги: "количество букв чётное", "количество букв нечётное".

Американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN), где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

В качестве единицы информации Клод Шеннон предложил принять  один  бит    (англ. bitbinary digit — двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений   (типа "орел"—"решка", "чет"—"нечет" и т.п.).

В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица —  байт,  равная  восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Более крупными производными единицами информации являются:

  • 1 Килобайт (Кбайт) = 1024 байт = 210 байт,

  • 1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

  • 1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

  • 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

  • 1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

  • 1 Эксабайт (Эбайт) = 1024 Пбайт = 260 байт.

  • 1 Зеттабайт (Збайт) = 1024 Эбайт = 270 байт.

  • 1 Йоттабайт (Йбайт) = 1024 Збайт = 280 байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений, но тогда это будет уже не двоичная (бит), а десятичная (дит) единица информации.

1.6.3. Алфавитный подход к измерению информации

Содержательный (вероятностный) подход к измерению информации определяет количество информации, которое содержится в сообщениях, уменьшающих неопределенность наших знаний, т. е. мы рассматривали информацию со своей точки зрения — с позиции человека. Для нас количество информации зависит от ее содержания, понятности и новизны. Однако любое техническое устройство не воспринимает содержание информации. Здесь не работают «неопределенность знаний» и «вероятность информации». Поэтому в вычислительной технике используется другой подход к измерению информации.

Вокруг нас везде и всюду происходят информационные обмены. Информацией обмениваются между собой люди, животные, технические устройства, органы человека или животного и т.д. во всех этих случаях передача информации происходит в виде последовательностей различных сигналов. В вычислительной технике такие сигналы кодируют определенные смысловые символы, т.е. такие сигналы кодируют последовательности знаков, букв, цифр, кодов цвета точек и т.д. С этой точки зрения рассматривается другой подход к измерению информации — алфавитный.

У нас есть небольшой текст, написанный на русском языке. Он состоит из букв русского алфавита, цифр, знаков препинания. Для простоты будем считать, что символы в тексте присутствуют с одинаковой вероятностью.

Множество используемых в тексте символов называется алфавитом. В информатике под алфавитом понимают не только буквы, но и цифры, и знаки препинания, и другие специальные знаки. У алфавита есть размер (полное количество его символов), который называется мощностью алфавита.

Обозначим мощность алфавита через N. Тогда воспользуемся формулой для нахождения количества информации их вероятностного подхода: I = log2N.

Для расчета количества информации по этой формуле нам необходимо найти мощность алфавита N.

Пример 1

Найти объем информации, содержащейся в тексте из 3000 символов, написанном русскими буквами.

Решение:

1) Найдем мощность алфавита:

N = 33 русских прописных буквы + 33 русских строчных букв + 21 специальный знак = 87 символов. Подставим в формулу и рассчитаем количество информации:

2) I = Iog287 = 6,4 бита.

Такое количество информации - информационный объем - несет один символ в русском тексте. Теперь, чтобы найти количество информации во всем тесте, нужно найти общее количество символов в нем и умножить на информационный объем одного символа. Значит:

3) 6,4·3000= 19140 бит.

Теперь переведем этот текст на немецкий язык. Причем так, чтобы в тексте осталось 3000 символов. Содержание текста при этом осталось точно такое же. Поэтому с точки зрения вероятностного подхода количество информации также не изменится, т.е. новых понятных знаний не прибавилось и не убавилось.

Пример 2

Найти количество информации, содержащейся в немецком тексте с таким же количеством символов.

Решение: Найдем мощность немецкого алфавита:

1) N = 26 немецких прописных буквы + 26 немецких строчных букв + 21 специальный знак = 73 символа.

Найдем информационный объем одного символа:

2) I = 1og273 = 6,1бит.

Найдем объем всего текста.

3) 6,1·3000 =18300 бит.

Сравнивая объемы информации русского текста и немецкого, мы видим, что на немецком языке информации меньше, чем на русском. Но ведь содержание не изменилось. Следовательно, при алфавитном подходе к измерению информации ее количество не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте. С точки зрения алфавитного подхода, в толстой книге информации больше, чем в тонкой. При этом содержание книги не учитывается.

Правило для измерения информации с точки зрения алфавитного подхода.

  1. Найти мощность алфавита - N.

  2. Найти информационный объем одного символа — I = log2N.

  3. Найти количество символов в сообщении — К.

  4. Найти информационный объем всего сообщения — К·I.

Пример 3

Найти объем текста, записанного на языке, алфавит которого содержит 128 символов и 2000 символов в сообщении.

Дано: К = 2000, N= 128.

Найти: IТ - ?

Решение:

1) I = log2N = log2128 = 7 бит - объем одного символа.

  1. Iт = I·K = 7·2000 = 14000 бит - объем сообщения.

Ответ: 14000 бит.

Обмен информацией происходит с разной скоростью. Если говорить о людях, то темп речи очень важен для взаимопонимания. Некоторые люди разваривают очень медленно, другие — наоборот быстро . Скорость чтения также у людей бывает разная.

Скорость передачи информации называется скоростью информационного потока и выражается в битах в секунду (бит/с), байтов в секунду (байт/с), Кбайтов в секунду (Кб/с) и т.д. Скорость чтения и скорость речи можно вычислить. Скорость информационного потока в случае, когда он происходит между техническими устройствами, намного выше, чем между людьми. Прием и передачи информации в этом случае происходит по каналам связи. К основным характеристикам каналов связи относятся:

  •  максимальная скорость передачи информации по каналу связи называется пропускной способностью канала;

  •  надежность;

  •  стоимость;

  •  резервы развития.

Сегодня предпочтение отдается высокоскоростному оптоволокну. Информация по таким каналам связи передается в виде светового сигнала, посылаемого лазерным излучателем.