Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспекты лекций по информатике.doc
Скачиваний:
190
Добавлен:
13.02.2015
Размер:
377.86 Кб
Скачать

Лекция 2. Кодирование данных. Меры информации.

Кодирование

Для автоматизации работы с данными, относящимися к различным типам важно унифицировать форму их представления, то есть необходимо данные преобразовать из одного вида в другой, отобразить один алфавит на другой – для этого используется прием кодирования. Кодирование– это выражение данных одного типа через данные другого.

Алфавит– конечная последовательность символов, используемых для представления данных. В вычислительной технике используется двоичный алфавит.

Код– это алфавит + система правил, на основе которых производится запись звука, графики, числовых данных в двоичном коде. Двоичный алфавит состоит из двух знаков –0,1. Эти знаки называют двоичными числами (binarydigitилиbit). Количество значений, которое сожжет быть выражено в данной системе кодирования равно N=2n, гдеN– количество независимых кодируемых значений,n– разрядность двоичного кода (количество двоичных знаков в двоичном слове).

*Имеется в виду, что все слова одинаковой длины.

Кодирование чисел

Целые числа в двоичной системе счисления можно записать как:

A10=an2n + an-12n-1 + … + a020, здесь ai= (0 или 1).

Например, выразим десятичное число 13 в двоичной форме.

=2+4+0+1

Для записи числа в двоичном коде достаточно записать последовательность коэффициентов, то есть 1310=11012

Целые числа представляются в двоичном коде точно. Для кодирования чисел от 0 до 255 достаточно кодового слова (комбинации 0 и 1) длиной 8 двоичных разрядов. Если числа от 0 до 65535, то нужно уже 16 двоичных разрядов (2 кодовых слова) и т.д.

Вещественные числа имеют дробную часть. Перевод в двоичный код производится отдельно для целой и дробной части.

Кодирование символов

Если каждому символу алфавита поставить в соответствие целое число (порядковый номер), то можно с помощью двоичного кода кодировать любую текстовую информацию. Мы знаем уже, что 8 разрядов достаточно для кодирования 255 символов. Но пронумеровать символы можно по-разному, значит, для разных кодов необходимо применять различные стандарты.

На сегодняшний день наиболее часто используется система кодирования, разработанная институтом стандартизации США (ANSI–AmericanNationalStandardInstitute), которая называетсяASCII(AmericanStandardCodeforInformationInterchange). В этом стандарте две таблицы с номерами от 0 до 127 (базовая) и от 128 до 255 символов (расширенная). В базовой таблице – первые 32 кода – управляющие (не соответствующие никаким символам), затем с 32 по127 – символы английскому алфавита, знаков препинания и т.д.

По существу ASCII– международный стандарт, хотя в СССР действовала система кодирования КОИ – 7 (Код Обмена Информацией, семизначный). Во второй, расширенной части системы кодирования, находятся коды национальных систем кодирования. Отсутствие единого стандарта здесь привело к множественности одновременно действующих кодировок. Так, известна кодировка русского алфавита:

1) Windows-1251 (формаMicrosoft), которая используется для большинства локальных компьютеров;

2) КОИ-8 – используется в компьютерных сетях в российском секторе Интернета;

3) международный стандарт ISO– используется редко.

В перспективе, мы перейдем на систему 16-разрядного кодирования, которая получила название UNICODEи которая позволяет обеспечить универсальные коды для 65536 различных символов. В этом случае потребуется только одна таблица для кодирования большинства языков планеты.

Кодирование графических изображений

Изображение состоит из мельчайших точек. Линейные координаты и такие свойства точки, как яркость, цвет можно выразить с помощью целых чисел, а следовательно использовать двоичный код.

Кодирование звуковой информации

Это наиболее поздние методы и поэтому наиболее далеки от стандартизации.

Метод FM(более ранний) – основан на том, что звук раскладывается на последовательность простейших гармонических сигналов разных частот – синусоиды. Синусоида имеет параметрыA,f,φ, которые можно описать числами (кодом).

Метод таблично-волнового синтеза. Сущность этого метода состоит в том, что используются для представления звука реальные образцы, которые составляют заранее разработанные таблицы. Эти образы называютсясэмплами. Для звука можно устанавливать такие характеристики, как тип инструмента, высоту, продолжительность и интенсивность

Меры информации

Мера информации может быть: синтаксическая, семантическая, прагматическая.

Синтаксическаямера оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

Количество информации на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенного состояния системы (энтропии).

Семантическаямера определяет смысловое содержание информации. Семантическая мера связывает семантические свойства информации со способностью пользователя принимать поступившие сообщения. Для этого используется понятиетезаурусапользователя.

В зависимости от соотношения между смысловым содержанием информации Sи тезаурусом пользователяSp, изменяется и количество семантической информацииIc, воспринимаемой и включаемой в свой тезаурус. Максимально это количество, если информация понятна и несет ранее неизвестные пользователю (отсутствующие в его тезаурусе) сведения. Величина эта относительна.

Прагматическая мера определяет полезность информации и также является относительной.

ЭВМ оперирует с абстрактной информацией, поэтому в этом случае представляет интерес в основном синтаксическая мера.

Объем данных

Объем данных Vg– измеряется количеством символов, разрядов в сообщении. В различных системах счисления один разряд имеет различный вес и, соответственно, меняется единица измерения данных:

  • в десятичной системе счисления – дит;

  • в двоичной системе счисления – бит(bit–binarydigit).

В качестве единицы информации Клод Шеннон предложил принять  одинбит(англ.bitbinarydigit— двоичная цифра). Бит — наименьшая единица измерения информации. На практике чаще применяется более крупная единица —байт,  равнаявосьми битам.Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Широко используются также более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

Количество информации

Количество информации на синтаксическом уровне – мера снятой неопределенности.

Американский инженер Р. Хартлив 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N. Формула Хартли:  I = log2N

Американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

    Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN), где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

Практически, количество информации всегда меньше или равно объему данных.