- •Глава 1. Введение в информатику
- •1.1. Понятие «инфоpматика»
- •1.2. Понятие «информация»
- •1.2.1. Определение информации
- •1.2.2. Классификация информации
- •1. По типу сигнала Информация
- •4. По форме представления –
- •5. По общественному значению –
- •1.2.3. Свойства информации
- •1.3. Информационная деятельность человека
- •1.4. Информатизация и информационное общество
- •1.5. Информационные процессы
- •1.5.1. Передача информации. Сигнал
- •1.6. Измерение количества информации
- •1.6.2. Содержательный подход к измерению информации
- •Формула Хартли:
- •1.6.3. Алфавитный подход к измерению информации
- •1.7. Информационные ресурсы и информационные технологии
- •1.7.1. Информационные системы
- •1.8. Кодирование. Двоичное кодирование
- •1.8.1. Кодирование текстовой информации
- •1.8.1.1. Кодовая таблица ascii
- •1.8.1.2. Международный стандарт Unicode
- •1.8.2. Представление графической информации
- •1.8.3. Кодирование звуковой информации
- •1.8.3.1. Оцифровка звука
- •1.8.3.2. Характеристики оцифрованного звука
- •1.8.4. Кодирование числовой информации
- •1.8.4.1. Кодирование целых чисел
- •1.8.4.2. Кодирование вещественных чисел
Формула Хартли:
I = log2N
Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.
Приведем другие примеры равновероятных сообщений:
при бросании монеты: "выпала решка", "выпал орел";
на странице книги: "количество букв чётное", "количество букв нечётное".
Американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN), где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.
Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.
Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.
В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit — binary digit — двоичная цифра).
Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений (типа "орел"—"решка", "чет"—"нечет" и т.п.).
В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.
Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).
Более крупными производными единицами информации являются:
1 Килобайт (Кбайт) = 1024 байт = 210 байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,
1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.
1 Эксабайт (Эбайт) = 1024 Пбайт = 260 байт.
1 Зеттабайт (Збайт) = 1024 Эбайт = 270 байт.
1 Йоттабайт (Йбайт) = 1024 Збайт = 280 байт.
За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений, но тогда это будет уже не двоичная (бит), а десятичная (дит) единица информации.
1.6.3. Алфавитный подход к измерению информации
Содержательный (вероятностный) подход к измерению информации определяет количество информации, которое содержится в сообщениях, уменьшающих неопределенность наших знаний, т. е. мы рассматривали информацию со своей точки зрения — с позиции человека. Для нас количество информации зависит от ее содержания, понятности и новизны. Однако любое техническое устройство не воспринимает содержание информации. Здесь не работают «неопределенность знаний» и «вероятность информации». Поэтому в вычислительной технике используется другой подход к измерению информации.
Вокруг нас везде и всюду происходят информационные обмены. Информацией обмениваются между собой люди, животные, технические устройства, органы человека или животного и т.д. во всех этих случаях передача информации происходит в виде последовательностей различных сигналов. В вычислительной технике такие сигналы кодируют определенные смысловые символы, т.е. такие сигналы кодируют последовательности знаков, букв, цифр, кодов цвета точек и т.д. С этой точки зрения рассматривается другой подход к измерению информации — алфавитный.
У нас есть небольшой текст, написанный на русском языке. Он состоит из букв русского алфавита, цифр, знаков препинания. Для простоты будем считать, что символы в тексте присутствуют с одинаковой вероятностью.
Множество используемых в тексте символов называется алфавитом. В информатике под алфавитом понимают не только буквы, но и цифры, и знаки препинания, и другие специальные знаки. У алфавита есть размер (полное количество его символов), который называется мощностью алфавита.
Обозначим мощность алфавита через N. Тогда воспользуемся формулой для нахождения количества информации их вероятностного подхода: I = log2N.
Для расчета количества информации по этой формуле нам необходимо найти мощность алфавита N.
Пример 1
Найти объем информации, содержащейся в тексте из 3000 символов, написанном русскими буквами.
Решение:
1) Найдем мощность алфавита:
N = 33 русских прописных буквы + 33 русских строчных букв + 21 специальный знак = 87 символов. Подставим в формулу и рассчитаем количество информации:
2) I = Iog287 = 6,4 бита.
Такое количество информации - информационный объем - несет один символ в русском тексте. Теперь, чтобы найти количество информации во всем тесте, нужно найти общее количество символов в нем и умножить на информационный объем одного символа. Значит:
3) 6,4·3000= 19140 бит.
Теперь переведем этот текст на немецкий язык. Причем так, чтобы в тексте осталось 3000 символов. Содержание текста при этом осталось точно такое же. Поэтому с точки зрения вероятностного подхода количество информации также не изменится, т.е. новых понятных знаний не прибавилось и не убавилось.
Пример 2
Найти количество информации, содержащейся в немецком тексте с таким же количеством символов.
Решение: Найдем мощность немецкого алфавита:
1) N = 26 немецких прописных буквы + 26 немецких строчных букв + 21 специальный знак = 73 символа.
Найдем информационный объем одного символа:
2) I = 1og273 = 6,1бит.
Найдем объем всего текста.
3) 6,1·3000 =18300 бит.
Сравнивая объемы информации русского текста и немецкого, мы видим, что на немецком языке информации меньше, чем на русском. Но ведь содержание не изменилось. Следовательно, при алфавитном подходе к измерению информации ее количество не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте. С точки зрения алфавитного подхода, в толстой книге информации больше, чем в тонкой. При этом содержание книги не учитывается.
Правило для измерения информации с точки зрения алфавитного подхода.
Найти мощность алфавита - N.
Найти информационный объем одного символа — I = log2N.
Найти количество символов в сообщении — К.
Найти информационный объем всего сообщения — К·I.
Пример 3
Найти объем текста, записанного на языке, алфавит которого содержит 128 символов и 2000 символов в сообщении.
Дано: К = 2000, N= 128.
Найти: IТ - ?
Решение:
1) I = log2N = log2128 = 7 бит - объем одного символа.
Iт = I·K = 7·2000 = 14000 бит - объем сообщения.
Ответ: 14000 бит.
Обмен информацией происходит с разной скоростью. Если говорить о людях, то темп речи очень важен для взаимопонимания. Некоторые люди разваривают очень медленно, другие — наоборот быстро . Скорость чтения также у людей бывает разная.
Скорость передачи информации называется скоростью информационного потока и выражается в битах в секунду (бит/с), байтов в секунду (байт/с), Кбайтов в секунду (Кб/с) и т.д. Скорость чтения и скорость речи можно вычислить. Скорость информационного потока в случае, когда он происходит между техническими устройствами, намного выше, чем между людьми. Прием и передачи информации в этом случае происходит по каналам связи. К основным характеристикам каналов связи относятся:
максимальная скорость передачи информации по каналу связи называется пропускной способностью канала;
надежность;
стоимость;
резервы развития.
Сегодня предпочтение отдается высокоскоростному оптоволокну. Информация по таким каналам связи передается в виде светового сигнала, посылаемого лазерным излучателем.