Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Dopolnitelno - tekstovie kodirovki.doc
Скачиваний:
9
Добавлен:
21.04.2019
Размер:
468.48 Кб
Скачать

Основное понятие – «таблица кодировки»

Повторим, что:

Таблица кодировки – это таблица, в которой устанавливается соответствие между символами и их порядковыми номерами в компьютерном алфавите.

Для записи текстовой информации в компьютерах, как правило, используется кодирование символов последовательностями из восьми бит (что соответствует, как вы помните, одному байту). Один байт - один символ. Иными словами, для записи одной буквы, цифры или заковыристого значка применяется последовательность из восьми нулей и единиц. Какой же конкретно символ соответствует той или иной последовательности? Эти данные распознаются из так называемой "таблицы символов", которая знакома каждой программе, умеющей отображать текст.

Таблица символов (еще она называется "кодовой страницей") может храниться либо в самой программе, либо в операционной системе и предоставляться при каждом запросе. Получив последовательность из восьми бит, программа "смотрит" в таблицу символов и определяет по ней, какому символу эта последовательность бит соответствует. Нетрудно понять, что таблица символов должна быть строжайшим стандартом – ведь, если текст был написан закодирован одной таблицей символов, а пользователь читает эту последовательность в соответствии с данными другой кодовой страницы, то прочитать такой текст сможет только человек, долгие годы прослуживший в шифровальном отделе контрразведки. И для английского алфавита (латиницы) это действительно так: во всех существующих таблицах символов, использующихся в компьютерных программах, каждая латинская буква кодируется одной и только одной, твердо и строго определенной международными стандартами последовательностью бит. Такое соответствие байт и отображаемых символов было разработано почти двадцать лет назад на основе последовательности букв в латинском алфавите.

Но с помощью восьми бит можно закодировать до 256 символов – в самом деле, каждый бит может иметь значение 0 или 1, то есть одно из двух, следовательно, всего различных восьмибитовых последовательностей может быть 28=256. Английских же букв – 26, плюс еще столько же заглавных, цифры и служебные символы займут еще мест 50. Поэтому, для возможности адаптации операционных систем к другим алфавитным системам, в качестве международного стандарта было принято строгое соответствие отображаемым символам лишь первых 128 последовательностей восьми бит (от 0 по 127) – то есть первой половины кодовой страницы. А вторую половину отдали "на откуп" производителям регионального программного обеспечения и информационных ресурсов – чтобы они размещали в ней свои алфавиты. 

Коды первых 128 символов кодовых страниц, которые должны быть едиными во всех таких страницах, получили название стандарта ASCII. Эти символы также могут кодироваться всего семью битами информации. Первые 32 кода (от 0 до 31) были назначены управляющим символам (например, символ с кодом 13 – это символ конца абзаца), остальные кодировали строчные и прописные латинские буквы, цифры, знаки препинания и математических операций. Коды второй половины этой 256-символьной кодовой страницы получили название "расширенного" стандарта ASCII. Ими кодировались, как уже было сказано выше, национальные алфавиты, а также символы псевдографики, математические и некоторые другие символы. Вы можете легко отобразить на экране символ с желаемым кодом, набрав, например, в Word его код (десятичный, на цифровой клавиатуре) при удерживаемой клавише Alt. 

Появились различные версии кодовых страниц, различающиеся именно своей второй половиной, которым были присвоены определенные номера для отличия их друг от друга. Чтобы пустое место в исходной английской кодовой странице не пропадало, на места, соответствующие кодам символов больше 127, были поставлены гласные буквы латиницы с надстрочными знаками, использующимися в разных европейских языках, а также символы, позволяющие в текстовом режиме создавать простейшие графические изображения – символы псевдографики. В региональных кодовых страницах на этих местах стали располагать символы отличных от английского алфавитов, таких, как русский, турецкий, вьетнамский, тайский и др. 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]