Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции Информатика.doc
Скачиваний:
12
Добавлен:
19.12.2018
Размер:
452.61 Кб
Скачать

1.2 Кодирование данных

Для автоматизации работы с данными, относящимися к различным типам, необходимо унифицировать их форму представления. Для этого обычно используется прием кодирования, состоящий в выражении данных одного типа через данные другого типа.

Примеры кодирования:

  • естественный человеческий язык — как система кодирования понятий для выражения мыслей посредством речи;

  • азбука - система кодирования компонентов языка с помощью графических символов;

  • система записи математических выражений,

  • азбука Морзе.

Система кодирования в вычислительной технике — двоичное кодирование, основанное на представлении данных в виде последовательности двух знаков: 0 и 1. Эти знаки называются двоичными цифрами. Binary digit - сокращенно bit (бит).

Одним битом выражаются два понятия: 0 или 1 (да или нет, истина или ложь).

Двумя битами - четыре понятия или значения:

00 (0) 01 (1) 10 (2) 11 (3)

Тремя битами - восемь понятий или значений:

000 (0) 001 (1) 010 (2) 011 (3) 100 (4) 101 (5) 110 (6) 111 (7)

Увеличение на единицу количества разрядов в двоичной системе кодирования приводит к увеличению в два раза количества значений, которое может быть в ней выражено:

N=2m,

где N — количество независимых кодируемых значений; m — разрядность двоичного кодирования, принятая в данной системе.

Кодирование целых и действительных чисел

Алгоритм перевода целых десятичных чисел в двоичные числа:

  1. Разделить число на 2. Зафиксировать остаток (0 или 1) и частное.

  2. Если частное не равно 0, то разделить его на 2, и так далее пока частное не станет равно 0. Если частное 0, то записать все полученные остатки, начиная с первого, справа на лево.

Например, представим 23 в двоичной форме.

Получим: 10111.

Чтобы получить обратную операцию, необходимо просуммировать степени двойки, соответствующие ненулевым разрядам в записи числа.

Десятичные

Двоичные

0=0*20

1=1*20

2=1*21+0*20

3=1*21+1*20

4=1*22+0*21+0*20

5=1*22+0*21+1*20

6=1*22+1*21+0*20

7=1*22+1*21+1*20

8=1*23+0*22+0*21+0*20

9=1*23+0*22+0*21+1*20

10=1*23+0*22+1*21+0*20

0

1

10

11

100

101

110

111

1000

1001

1010

Для кодирования целых чисел:

- от 0 до 255 используются 8 бит (8 разрядов двоичного кода);

- от 0 до 65 535 - 16 бит;

- от 0 до 16,5 миллионов - 24 бита.

Для кодирования действительных чисел используется 80-разрядное кодирование. Число предварительно преобразуется в нормализованную форму:

3,1416=0,3146 • 101

0,000003 = 0,3 • 10-6

-12345 = -0,12345 • 105.

Большая часть из 80 бит отводится для хранения первой части числа (мантиссы) со знаком, а некоторое фиксированное количество разрядов — второй части (характеристики) со знаком.

Байт - группа из 8 битов.

Примеры выражения десятичных чисел в форме байтов:

Десятичное число Двоичное число Байт

1 1 0000 0001

2 10 00000010

255 11111111 1111 1111

Наименьшая единица измерения данных – байт. Как правило, байт соответствует одному символу текстовой информации (за исключением универсальной кодировки клавиатуры UNICODE).

1 Кбайт = 210байт = 1024 байт (½ страницы машинописного текста).

1 Мбайт (мега) = 1024 Кбайт = 1020 байт;

1 Гбайт (гига) = 1024 Мбайт = 1030 байт;

1 Тбайт (тера) = 1024 Гбайт = 1040 байт.

Кодирование текстовых данных

Для кодирования текстовой информации каждому символу алфавита ставится в соответствие определенное целое число. Одного байта (восьми двоичных разрядов) достаточно для кодирования 256 различных символов (символы английского и русского языков, как строчные, так и прописные, а также знаки препинания, символы основных арифметических действий и некоторые специальные символы).

Существует несколько стандартов кодировки текстов, предусматривающих таблицы, в которых каждому символу соответствует число от 0 до 255.

Основные системы кодировки текста:

- ASCII (стандартный код информационного обмена США). Используется для кодировки англоязычных тексов.

- КОИ-7 (код обмена информацией, семизначный) и КОИ-8 (код обмена информа­цией, восьмизнанный). Использовались в СССР для русскоязычных текстов. Сейчас в Российском секторе Интернета.

- UNICODE (универсальная) - 16-разрядная система, позволяет обеспечить коды для 65 536 различных символов. Используется, например, в Word’e.

Существуют соответствующие методы кодирования графической, звуковой, табличной и др.информации.