- •552800 И 654600 - Информатика и вычислительная техника
- •Введение
- •Часть 1. Информатика и современное общество
- •1. Информатизация общества и информатика
- •1.1. Информационное общество
- •1.2. Понятие информатики
- •Средства для преобразования информации
- •Часть 2. Информация, ее представление и измерение
- •2. Информация
- •2.1. Понятие и характерные черты информации
- •2.2. Классификация информации
- •2.3. Свойства информации
- •3. Сигнал как материальный носитель информации
- •3.1. Виды сигнала
- •3.2. Преобразования сигнала
- •3.3. Системы счисления
- •3.3.1. Правила перевода чисел из одной системы счисления в другую
- •3.3.1.1. Правила перевода целых чисел
- •3.3.1.2. Правила перевода правильных дробей
- •3.3.1.3. Правило перевода дробных чисел
- •3.3.2. Правила выполнения простейших арифметических действий
- •3.3.2.1. Правила сложения
- •3.3.2.2. Правила вычитания
- •3.3.2.3. Правила умножения
- •3.3.2.4. Правила деления
- •4. Кодирование дискретного сигнала
- •4.1. Кодирование по образцу
- •4.1.1. Прямые коды
- •4.1.2. Ascii-коды
- •4.1.3. Коды, учитывающие частоту информационных элементов
- •4.1.4. Коды Грея
- •4.1.5. Код Штибица
- •4.2. Криптографическое кодирование
- •4.2.1. Метод простой подстановки
- •4.2.2. Метод Вижинера
- •4.3. Эффективное кодирование
- •4.3.1. Метод Шеннона-Фано
- •4.3.2. Метод Хаффмена
- •4.3.3. Повышение эффективности кодирования
- •4.3.4. Декодирование эффективных кодов
- •4.3.5. Специальные методы эффективного кодирования
- •4.3.5.1. Методы эффективного кодирования числовых последовательностей
- •4.3.5.2. Методы эффективного кодирования словарей
- •Основной вспомогательный
- •4.3.5.3. Методы эффективного кодирования естественно-языковых текстов
- •4.4. Помехозащитное кодирование
- •4.4.1. Искажение кодовых комбинаций
- •4.4.2. Кодовое расстояние и корректирующая способность кода
- •4.4.3. Коды, исправляющие ошибки
- •5. Измерение информации
- •5.1. Структурный подход к измерению информации
- •5.1.1. Геометрическая мера
- •5.1.2. Комбинаторная мера
- •5.1.3. Аддитивная мера
- •5.2. Статистический подход к измерению информации
- •5.3. Взаимосвязь структурного и статистического подходов к измерению информации
- •5.4. Семантический подход к измерению информации
- •5.4.1. Целесообразность информации
- •5.4.2. Полезность информации
- •5.4.3. Истинность информации
- •6. Качество информации
- •Часть 3. Компьютер как основной элемент информационного процесса
- •7. Структура компьютера и принципы его функционирования
- •8. Виды современных компьютеров
- •9. Структурные элементы компьютера
- •9.1. Память
- •9.1.1. Внутренняя память
- •9.1.2. Внешняя память
- •9.1.2.1. Физическая и логическая структура магнитных дисков
- •9.2. Устройство управления
- •9.3. Арифметико-логическое устройство
- •9.3.1. Структура и принцип действия
- •9.3.2. Формы представления числовых данных
- •9.3.2.1. Формы представления целых чисел
- •9.3.2.2. Формы представления вещественных чисел
- •9.3.3. Коды представления числовых данных
- •9.3.4. Принципы выполнения арифметической операции сложения
- •9.3.4.1. Сложение целых чисел
- •9.3.4.2. Сложение вещественных чисел
- •10. Виды программного обеспечения компьютера
- •Инструментарий технологии программирования.
- •10.1. Системное программное обеспечение
- •Системное по базовое по сервисное по (утилиты) операционные системы операционные оболочки
- •10.2. Пакеты прикладных программ
- •10.3. Инструментарий технологии программирования
- •Инструментарий технологии программирования
- •11. Поколения эвм
- •12. Технология проектирования программ
- •12.1. Формализация задачи
- •12.2. Программирование задачи
- •12.2.1. Разработка алгоритма
- •12.2.1.1. Способы описания алгоритма
- •12.2.1.2. Методы проектирования алгоритмов
- •12.3. Отладка программы
- •13. Эволюция использования компьютеров. Проект эвм пятого поколения
- •Часть 4. Фазы обращения информации
- •14. Структура информационного процесса
- •15. Сбор информации
- •15.1. Методы классификации
- •15.1.1. Иерархическая классификация
- •15.1.2. Фасетная классификация
- •15.2. Методы кодирования
- •15.3. Распознавание и кодирование объектов
- •15.4. Регистрация информации
- •16. Восприятие информации
- •16.1. Сканер как устройство восприятия информации
- •16.1.1. Первичное восприятие и измерение информации
- •16.1.2. Анализ результатов первичного восприятия и измерения
- •16.1.3. Распознавание символов
- •16.2. Восприятие информации клавиатурой
- •16.2.1. Первичное восприятие и измерение
- •16.2.2. Анализ
- •16.2.3. Распознавание
- •17. Передача информации
- •17.1. Модуляция и демодуляция сигнала
- •17.2. Уплотнение сигнала и выделение уплотненного сигнала
- •17.4. Компьютерные сети
- •17.4.1. Топология сетей
- •17.4.2. Методы передачи данных в сетях
- •17.4.3. Организация обмена информацией в сети
- •18. Обработка информации
- •19. Представление информации
- •19.1. Устройства вывода на электронный носитель
- •19.1.1. Мониторы, использующие элт
- •19.1.2. Жидкокристаллические мониторы
- •19.1.3. Плазменные мониторы
- •19.1.4. Технология вывода изображений на мониторы, использующие элт
- •19.1.4.1. Принципы организации текстовых видеорежимов
- •19.1.4.2. Принципы организации графических видеорежимов
- •19.2. Устройства вывода на бумажный носитель
- •19.2.1. Технология формирования цвета
- •19.2.2. Матричные принтеры
- •19.2.3. Струйная технология
- •19.2.4. Термическая технология
- •19.2.5. Электрографическая технология
- •Приложение 1. Определения информатики
- •Приложение 2. Определения информации
- •Приложение 3. Положения комбинаторики, используемые в измерении информации
- •Список литературы
- •Оглавление
- •Часть 1. Информатика и современное общество 6
- •Часть 2. Информация, ее представление и измерение 11
- •Часть 3. Компьютер как основной элемент информационного процесса 81
- •Часть 4. Фазы обращения информации 154
5.1.3. Аддитивная мера
Эта мера предложена в 1928 году американским ученым Хартли, поэтому имеет второе название – мера Хартли. Хартли впервые ввел специальное обозначение для количества информации – I и предложил следующую логарифмическую зависимость между количеством информации и мощностью исходного алфавита:
I = l log h, (5.4)
где I – количество информации, содержащейся в сообщении;
l – длина сообщения;
h – мощность исходного алфавита.
При исходном алфавите {0,1}; l = 1; h = 2 и основании логарифма, равном 2, имеем
I = 1*log22 = 1.
Данная формула даёт аналитическое определение бита (BIT - BInary digiT) по Хартли: это количество информации, которое содержится в двоичной цифре.
Единицей измерения информации в аддитивной мере является бит.
Пример 5.3. Рассчитать количество информации, которое содержится в шестнадцатеричном и двоичном представлении ASCII-кода для числа 1.
В соответствии с таблицей ASCII-кодов (рис. 4.1) имеем:
шестнадцатеричное представление числа 1 – 31, (5.5)
двоичное представление числа 1 – 00110001. (5.6)
В соответствии с (5.4) получаем:
для (5.5) I = 2log216 = 8 бит;
для (5.6) I = 8 log22 = 8 бит.
Таким образом, разные представления ASCII-кода для одного символа содержат одинаковое количество информации, измеренной аддитивной мерой.
5.2. Статистический подход к измерению информации
В 30-х годах ХХ века американский ученый Клод Шеннон предложил связать количество информации, которое несет в себе некоторое сообщение, с вероятностью получения этого сообщения.
Вероятность p – количественная априорная (т.е. известная до проведения опыта) характеристика одного из исходов (событий) некоторого опыта. Измеряется в пределах от 0 до 1. Если заранее известны все исходы опыта, сумма их вероятностей равна 1, а сами исходы составляют полную группу событий. Если все исходы могут свершиться с одинаковой долей вероятности, они называются равновероятными.
Например, пусть опыт состоит в сдаче студентом экзамена по информатике. Очевидно, у этого опыта всего 4 исхода (по количеству возможных оценок, которые студент может получить на экзамене). Тогда эти исходы составляют полную группу событий, т.е. сумма их вероятностей равна 1. Если студент учился хорошо в течение семестра, значения вероятностей всех исходов могут быть такими:
p(5) = 0,5; p(4) = 0,3; p(3) = 0,1; p(2) = 0,1. (5.7)
Здесь запись p(j) означает вероятность исхода, когда получена оценка j (j = {2, 3, 4, 5}).
Если студент учился плохо, можно заранее оценить возможные исходы сдачи экзамена, т.е. задать вероятности исходов, например, следующим образом:
p (5) = 0,1; p(4) = 0,2; p(3) = 0,4; p(2) = 0,3. (5.8)
В обоих случаях выполняется условие:
где n – число исходов опыта,
i – номер одного из исходов.
Пусть можно получить n сообщений по результатам некоторого опыта (т.е. у опыта есть n исходов), причем известны вероятности получения каждого сообщения (исхода) - pi. Тогда в соответствии с идеей Шеннона, количество информации I в сообщении i определяется по формуле (5.9):
I = -log2 pi, (5.9)
где pi – вероятность i-го сообщения (исхода).
Пример 5.4. Определить количество информации, содержащейся в сообщении о результате сдачи экзамена для студента из (5.7).
Пусть I(j) – количество информации в сообщении о получении оценки j. В соответствии с (5.9) имеем:
I(5) = -log2 0,5 = 1,
I(4) = -log2 0,3 = 1,74,
I(3) = -log2 0,1 = 3,32,
I(2) = -log2 0,1 = 3,32.
Пример 5.5. Определить количество информации, содержащейся в сообщении о результате сдачи экзамена для студента из (5.8):
I(5) = -log2 0,1 = 3,32,
I(4) = -log2 0,2 = 2,32,
I(3) = -log2 0,4 = 1,32,
I(2) = -log2 0,3 = 1,74.
Таким образом, количество получаемой с сообщением информации тем больше, чем неожиданнее данное сообщение.
Этот тезис использован при эффективном кодировании кодами переменной длины (т.е. имеющими разную геометрическую меру): исходные символы, имеющие большую частоту (или вероятность), имеют код меньшей длины, т.е. несут меньше информации в геометрической мере, и наоборот.
Соотношение (5.8) позволяет определять также размер двоичного эффективного кода, требуемого для представления того или иного сообщения, имеющего определенную вероятность появления.
Пример 5.6. Есть 4 сообщения: a, b, c, d с вероятностями, соответственно, р(a) = 0,5; р(b) = 0,25; р(c) = 0,125; р(d) = 0,125. Определить число двоичных разрядов, требуемых для кодирования каждого их четырех сообщений.
В соответствии с (5.9) имеем:
I(a) = -log20,5 = 2,
I(b) = -log20,25 = 2,
I(c) = -log20,125 = 3,
I(d) = -log20,125 = 3.
Судя по примеру 4.7, эффективное кодирование методом Шеннона-Фано сформировало для заданных сообщений (символов) коды полученной длины.
Пример 5.7. Определить размеры кодовых комбинаций для эффективного кодирования сообщений из примера 5.4.
Для вещественных значений объемов информации (что произошло в примере 5.4) в целях определения требуемого числа двоичных разрядов полученные значения округляются по традиционным правилам арифметики. Тогда имеем требуемое число двоичных разрядов:
для сообщения об оценке 5 – 1,
для сообщения об оценке 4 – 2,
для сообщения об оценке 3 – 3,
для сообщения об оценке 2 – 3.
Проверим результат, построив эффективный код для сообщений об исходах экзамена методом Шеннона-Фано. Исходные данные – из примера 5.4.
Имеем:
Исходные символы |
Вероятности |
Коды |
сообщение об оценке 5 |
0,5 |
1 |
сообщение об оценке 4 |
0,25 |
01 |
сообщение об оценке 3 |
0,125 |
001 |
сообщение об оценке 2 |
0,125 |
000 |
Таким образом, задача решена верно.
П
(5.10)
где pi – вероятность i-го сообщения.
Пример 5.8. Определить среднее количество информации, получаемое студентом из (5.7), по всем результатам сдачи экзамена.
В соответствии с (5.10) имеем:
Iср = - (0,5*log20,5 + 0,3*log20,3 + 0,1*log20,1 + 0,1*log20,1) = 1,67.
Пример 5.9. Определить среднее количество информации, получаемое студентом из (5.8), по всем результатам сдачи экзамена.
В соответствии с (5.10) имеем:
Iср = - (0,1*log20,1 + 0,2*log20,2 + 0,4*log20,4 + 0,3*log20,3) = 1,73.
Большее количество информации, получаемое во втором случае, объясняется большей непредсказуемостью результатов: в самом деле, у отличника два исхода равновероятны.
Пусть у опыта два равновероятных исхода, составляющих полную группу событий, т.е. p1 = p2 = 0,5. Тогда имеем в соответствии с (5.10):
I ср = -(0,5*log20,5 + 0,5*log20,5) = 1. (5.11)
Формула (5.11) есть аналитическое определение бита по Шеннону: это среднее количество информации, которое содержится в двух равновероятных исходах некоторого опыта, составляющих полную группу событий.
Единица измерения информации при статистическом подходе – бит.
На практике часто вместо вероятностей используются частоты исходов. Это возможно, если опыты проводились ранее и существует определенная статистика их исходов. Так, строго говоря, в построении эффективных кодов участвуют не частоты символов, а их вероятности.
Пример 5.10. Пусть имеются 14 определений информатики из прил. 1 и других определений не существует (это значит, что определения из прил. 1 составляют полную группу событий, т.е. сумма их вероятностей равна 1). Все определения – равновероятны, т.е. предпочтения не отдается никакому из них (это означает, что вероятности всех определений равны между собой и равны 1/14). Рассчитать количество информации, содержащейся в определении 13, и среднее количество информации, получаемое по всем определениям.
Количество информации, содержащейся в определении 13, рассчитаем по формуле (5.9). Имеем:
I = -log2 pi = I = -log21/14 = 3,8 бит.
При расчете среднего количества информации в соответствии с (5.10) имеем:
I ср = -(1/14*log2(1/14))*14 = 3,8 бит.
Таким образом, частное и среднее количества информации в данном случае совпали. Это следствие того, что все определения равновероятны.
В примерах 5.6 – 5.10 сообщение рассматривалось как неделимая информационная единица. Поэтому даже разные по структуре определения информатики имеют одинаковое количество информации.
У
(5.12)
где pij – вероятность появления символа в j-той позиции (численно равна вероятности pi).
Тогда количество информации в сообщении с учетом составляющих его символов можно рассчитать по формуле (5.9), если вероятность сообщения рассчитана по формуле (5.12).
Пример 5.11. Рассчитать количество информации в определении информатики под номером 13 из прил. 1, если вероятности составляющих его символов приведены в табл. 4.6.
Имеем N = 48 – количество символов в сообщении, число символов с их вероятностями (выборка из табл. 4.6) - в табл. 5.1.
Таблица 5.1
символы |
число символов в сообщении |
вероятность одного символа (из табл. 4.6) |
а |
3 |
0,062 |
в |
1 |
0,038 |
е |
3 |
0,072 |
з |
2 |
0,016 |
и |
4 |
0,062 |
к |
1 |
0,028 |
м |
2 |
0,026 |
н |
5 |
0,053 |
о |
7 |
0,09 |
п |
1 |
0,023 |
р |
3 |
0,04 |
с |
3 |
0,045 |
т |
2 |
0,053 |
у |
1 |
0,021 |
ф |
1 |
0,001 |
х |
1 |
0,009 |
ц |
2 |
0,004 |
ч |
1 |
0,012 |
ы |
1 |
0,016 |
точка и пробелы |
4 |
0,175 |
В соответствии с (5.12) вероятность p сообщения – определения информатики 13 из прил. 1 – имеет значение:
p = (0,062*3)*(0,038*1)*(0,072*3)*(0,016*2)*(0,062*4)*(0,028*1)*(0,026*2)*
(0,053*5)*(0,09*7)*(0,023*1)*(0,04*3)*(0,045*3)*(0,053*2)*(0,021*1)*(0,001*1)*
(0,009*1)*(0,004*2)*(0,012*1)*(0,016*1)*(0,175*4) = 24*10-27.
Тогда в соответствии с (5.9) количество информации в данном сообщении:
I = -log2(24*10-27) = 85 бит.