Кодирование информации. Равномерные и неравномерные коды. Условие Фано. Задача построения эффективных кодов. Первая теорема Шеннона. Построение кода Шеннона-Фано. Кодирование Хаффмана.

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Волгоградский государственный социально-педагогический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

1-4 вопросы ИНФОРМАТИКА.docx

Скачиваний:

Добавлен:

28.03.2015

Размер:

116.75 Кб

Скачать

☆

1 / 61 2 3 4 5 6 > Следующая >>>

Предмет и задачи информатики. Структура современной информатики. Понятие информации. Информационные процессы. Непрерывная и дискретная информация. Дискретизация. Различные подходы к измерению количества информации. Формулы Хартли и Шеннона.

Информатика – наука, изучающая закономерности получения, хранения, передачи и обработки информации в природе и человеческом обществе.

Предмет информатики составляют следующие понятия:

аппаратное обеспечение средств вычислительной техники;
программное обеспечение средств вычислительной техники;
средства взаимодействия аппаратного и программного обеспечения.

Основной задачей информатики является систематизация приёмов и методов работы с аппаратными программными средствами вычислительной техники.

Задачи информатики состоят в следующем:

1. Исследование информационных процессов любой природы.

2. Разработка информационной техники и создание новейшей технологии переработки информации на базе полученных результатов исследования информационных процессов.

3. Решение научных и инженерных проблем создания, внедрения и обеспечения эффективного использования компьютерной техники и технологии во всех сферах общественной жизни.

Структура информатики :

Теоретическая информатика- часть информатики, включающая ряд математических разделов. Она опирается на математическую логику и включает такие разделы, как теория алгоритмов и автоматов, теория информации и теория кодирования, теория формальных языков и грамматик, исследование операций и другие. Этот раздел информатики использует математические методы для общего изучения процессов обработки информации.

Вычислительная техника- раздел, в котором разрабатываются общие принципы построения вычислительных систем. Речь идет не о технических деталях и электронных схемах, а о принципиальных решениях на уровне так называемой архитектуры вычислительных систем, определяющей состав, назначение, функциональные возможности и принципы взаимодействия устройств. Примеры принципиальных, ставших классическими решениями в этой области-неймановская архитектура компьютеров первых поколений, шинная архитектура ЭВМ старших поколений, архитектура параллельной(многопроцессорной) обработки информации.

Программирование- деятельность, связанная с разработкой систем программного обеспечения. Здесь отметим лишь основные разделы современного программирования: создание системного программного обеспечения и создание прикладного программного обеспечения

Информационные системы- раздел информатики, связанный с решением вопросов по анализу потоков информации в различных сложных системах, их оптимизации, структурировании, принципах хранения и поиска информации. Известным примером решения проблемы на глобальном уровне может служить гипертекстовая поисковая система WWW.

Искусственный интеллект- область информатики, в которой решаются сложные проблемы находящиеся на пересечении с психологией лингвистикой и другими науками.

Термин информация происходит от латинского informatio, что означает разъяснение, изложение. Понятие "информация" многогранно, и поэтому строгого общепринятого определения нет. В широком смысле информация – это отражение реального мира в виде сигналов и знаков.

В информатике понятие "информация" означает сведения об объектах и явлениях окружающей среды, которые уменьшают имеющуюся неопределенность, неполноту знаний о них.

С понятием информации связаны такие понятия, как сигнал, сообщение и данные.

Сигнал – физический процесс, параметры которого содержат информацию о том или ином объекте, явлении. Посредством сигналов осуществляется перенос информации в пространстве и во времени (например, электрический, световой, звуковой сигналы и т.д.).

Сообщение – информация, представленная в определенной форме и предназначенная для приема-передачи.

Данные – информация, представленная в форме, позволяющей ее дальнейшую обработку в том числе и техническими средствами, например, компьютером.

Под информационным процессом понимается процесс передачи, обработки (преобразования), восприятия и использования информации.

Для обмена информацией, ее преобразования и передачи необходимо наличие источника (носителя) сообщений, передатчика (кодера), канала связи, приемника (декодера) и получателя сообщений

Информация может поступать как непрерывно во времени, так и дискретно.

Дискретность (от лат. discretus — разделённый, прерывистый) — означает прерывность и противопоставляется непрерывности. Дискретные величины принимают не все возможные значения, а только определённые, и их можно пересчитать. Дискретное изменение величины происходит скачками, через определённые промежутки времени.

Непрерывная величина может принимать любые значения в некотором диапазоне, которые могут быть сколь угодно близки, но всё-таки отличаться друг от друга. Количество таких значений бесконечно велико.

В технике непрерывная информация называется аналоговой, дискретная — цифровой.

Дискретизация — это процесс перевода непрерывного аналогового сигнала в дискретный (обратный процесс называется восстановлением). Непрерывный аналоговый сигнал заменяется последовательностью коротких импульсов (отсчётов), величина которых равна значению сигнала в данный момент времени. Возможность точного воспроизведения такого представления зависит от интервала времени между отсчётами.

Чаще всего применяются два подхода к измерению информации:

алфавитный (т.е. количество информации зависит от последовательности знаков);
содержательный или вероятностный (т.е. количество информации зависит от ее содержания).

Алфавитный (объемный) подход применяется в технике, где информацией считается любая хранящаяся, обрабатываемая или передаваемая последовательность знаков, сигналов.

Этот подход основан на подсчете числа символов в сообщении, то есть связан только с длиной сообщения и не учитывает его содержания. Но длина сообщения зависит не только от содержащейся в нем информации. На нее влияет мощность алфавита используемого языка.

Множество используемых в тексте символов называется алфавитом.

Полное количество символов алфавита называется мощностью алфавита.

Чем меньше знаков в используемом алфавите, тем длиннее сообщение. Так, например, в алфавите азбуки Морзе всего три знака (точка, тире, пауза), поэтому для кодирования каждой русской или латинской буквы нужно использовать несколько знаков, и текст, закодированный по Морзе, будет намного длиннее, чем при обычной записи.

В вычислительной технике наименьшей единицей измерения информации является 1 бит (binary digit). Один бит соответствует одному знаку двоичного алфавита, т.е. 0 или 1.

Таким образом, 1бит = 0 или 1.

Единицы измерения информации

Для удобства помимо бита применяются более крупные единицы измерения информации.

1байт = 8 бит

1Кб (килобайт) = 1024 байт

1Мб (мегабайт) = 1024 Кб

1Гб (гигабайт) = 1024 Мб

1Тб(терабайт)=1024 Гб.

Для того чтобы подсчитать количество информации в сообщении необходимо умножить количество информации, которое несет 1 символ, на количество символов.

Информационный объем сообщения (информационная емкость сообщения) - количество информации в сообщении, измеренное в битах, байтах или производных единицах (Кбайтах, Мбайтах и т.д.).

Формулы Хартли и Шеннона.

Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Формула Хартли: I = log2N

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN), где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

Кодирование информации. Равномерные и неравномерные коды. Условие Фано. Задача построения эффективных кодов. Первая теорема Шеннона. Построение кода Шеннона-Фано. Кодирование Хаффмана.

Закодировать текст – значит сопоставить ему другой текст. Кодирование применяется при передаче данных – для того, чтобы зашифровать текст от посторонних, чтобы сделать передачу данных более надежной, потому что канал передачи данных может передавать только ограниченный набор символов (например, — только два символа, 0 и 1) и по другим причинам.

При кодировании заранее определяют алфавит, в котором записаны исходные тексты (исходный алфавит) и алфавит, в котором записаны закодированные тексты (коды), этот алфавит называетсякодовым алфавитом. В качестве кодового алфавита часто используют двоичный алфавит, состоящий из двух символов (битов) 0 и 1. Слова в двоичном алфавите иногда называют битовыми последовательностями.

Равномерное кодирование

Наиболее простой способ кодирования – побуквенный. При побуквенном кодировании каждому символу из исходного алфавита сопоставляется кодовое слово – слово в кодовом алфавите. Иногда вместо «кодовое слово буквы» говорят просто «код буквы». При побуквенном кодировании текста коды всех символов записываются подряд, без разделителей.

Пример 1. Исходный алфавит – алфавит русских букв, строчные и прописные буквы не различаются. Размер алфавита – 33 символа.

Кодовый алфавит – алфавит десятичных цифр. Размер алфавита — 10 символов.

Применяется побуквенное кодирование по следующему правилу: буква кодируется ее номером в алфавите: код буквы А – 1; буквы Я – 33 и т.д.

Тогда код слова АББА – это 1221.

Внимание: Последовательность 1221 может означать не только АББА, но и КУ (К – 12-я буква в алфавите, а У – 21-я буква). Про такой код говорят, что он НЕ допускает однозначного декодирования

Неравномерное кодирование

Равномерное кодирование удобно для декодирования. Однако часто применяют и неравномерные коды, т.е. коды с различной длиной кодовых слов. Это полезно, когда в исходном тексте разные буквы встречаются с разной частотой. Тогда часто встречающиеся символы стоит кодировать более короткими словами, а редкие – более длинными. Из примера 1 видно, что (в отличие от равномерных кодов!) не все неравномерные коды допускают однозначное декодирование.

Есть простое условие, при выполнении которого неравномерный код допускает однозначное декодирование.

Код называется префиксным, если в нем нет ни одного кодового слова, которое было бы началом (по-научному, — префиксом) другого кодового слова.

Код из примера 1 – НЕ префиксный, так как, например, код буквы А (т.е. кодовое слово 1) – префикс кода буквы К (т.е. кодового слова 12, префикс выделен жирным шрифтом).

Код из примера 2 (и любой другой равномерный код) – префиксный: никакое слово не может быть началом слова той же длины.

Пример Пусть исходный алфавит включает 9 символов: А, Л, М, О, П, Р, У, Ы, -. Кодовый алфавит – двоичный. Кодовые слова:

А: 00

М: 01

-: 100

Л: 101

У: 1100

Ы: 1101

Р: 1110

О: 11110

П: 11111

Кодовые слова выписаны в алфавитном порядке. Видно, что ни одно из них не является началом другого. Это можно проиллюстрировать рисунком

На рисунке изображено бинарное дерево. Его корень расположен слева. Из каждого внутреннего узла выходит два ребра. Верхнее ребро имеет пометку 0, нижнее – пометку 1. Таким образом, каждому узлу соответствует слова в двоичном алфавите. Если слово X является началом (префиксом) слова Y, то узел, соответствующий слову X, находится на пути из корня в узел, соответствующий слову Y. Наши кодовые слова находятся в листьях дерева. Поэтому ни одно из них не является началом другого.

Теорема (условие Фано). Любой префиксный код (а не только равномерный) допускает однозначное декодирование.

Разбор примера (вместо доказательства). Рассмотрим закодированный текст, полученный с помощью кода из примера 3:

0100010010001110110100100111000011100

Будем его декодировать таким способом. Двигаемся слева направо, пока не обнаружим код какой-то буквы. 0 – не кодовое слово, а 01 – код буквы М.

0100010010001110110100100111000011100

Значит, исходный текст начинается с буквы М: код никакой другой буквы не начинается с 01! «Отложим» начальные 01 в сторону и продолжим.

01 00010010001110110100100111000011100

Далее таким же образом находим следующее кодовое слово 00 – код буквы А.

01 00010010001110110100100111000011100

М А

И т. д.

Замечание. В расшифрованном тексте 14 букв. Т.к. в алфавите 9 букв, то при равномерном двоичном кодировании пришлось бы использовать кодовые слова длины 4. Таким образом, при равномерном кодировании закодированный текст имел бы длину 56 символов – в полтора раза больше, чем в нашем примере (у нас 37 символов).

Учитывая статистические свойства источника сообщения, можно минимизировать среднее число двоичных символов, требующихся для выражения одной буквы сообщения, что при отсутствии шума позволяет уменьшить время передачи или объем запоминающего устройства.

Такое эффективное кодирование базируется на основной теореме Шеннона для каналов без шума.

Первая теорема Шеннона: если пропускная способность канала без помех превышает производительность источника сообщений, т.е. удовлетворяется условие Ck >Vu, то существует способ кодирования и декодирования сообщений источника, обеспечивающий сколь угодно высокую надежность передачи сообщений. В противном случае, т.е. если Ck <Vu Такого способа нет. Таким образом, идеальное кодирование по Шеннону по существу представляет собой экономное кодирование последовательности сообщений при безграничном укрупнении сообщений. Такой способ кодирования характеризуется задержкой сообщений поскольку кодирование очередной типичной последовательности может начаться только после получения последовательности источника длительностью T, а декодирование — только когда принята последовательность из канала той же длительности T. Поскольку требуется , то идеальное кодирование требует бесконечной задержки передачи информации. В этом причина технической нереализуемости идеального кодирования по Шеннону. Тем не менее, значение этого результата, устанавливающего предельные соотношения информационных характеристик источника и канала для безошибочной передачи сообщений, весьма велико. Исторически именно теорема Шеннона инициировала и определила развитие практических методов экономного кодирования.

1 / 61 2 3 4 5 6 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
16.09.2019128.39 Кб31 семинар.rtf
#
19.11.201981.91 Кб151 Этноним и его происхождение.docx
#
20.04.201982.07 Кб91, 4-14 ответы.docx
#
11.11.2019215.55 Кб71-2 Задачи диагн-проектир.doc
#
20.12.2018206.5 Кб71-34.docx
#
28.03.2015116.75 Кб811-4 вопросы ИНФОРМАТИКА.docx
#
03.05.2019109.57 Кб61. Концепция логистики.doc
#
21.11.201975.26 Кб71.2. История развития научной психологии.doc
#
12.03.2016138.75 Кб1141.doc
#
28.03.201540.36 Кб111.docx
#
28.03.201522.5 Кб151.docx