Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Dopolnitelno - tekstovie kodirovki.doc
Скачиваний:
9
Добавлен:
21.04.2019
Размер:
468.48 Кб
Скачать

Сравнительные таблицы

Сегодня в России используются 5 таблиц кодировок символов, в каждой из которых первые 128 символов совпадают со стандартной кодировкой ASCII (8-битовые кодировки, «знающие» русский язык).

  1. КОИ8,

  2. СР1251,

  3. СР866,

  4. Мас,

  5. ISO

Таблица 1. Сравнение стандартов.

Характеристика

Таблицы ASCII

Расширенные таблицы ASCII

Unicode

Сколько всего символов может закодировать?

128 символов

256 символов

65536 символов

Сколько бит (байт) отводится для одного символа?

1 символ = 1 байт

Можно: 1 символ = 7 бит

1 символ = 1 байт

1 символ = 2 байта

Какие символы содержит?

Первые 32 кода (от 0 до 31) – управляющие символы (например, символ с кодом 13 - это символ конца абзаца),

Остальные: строчные и прописные латинские буквы, цифры, знаки препинания и математических операций.

Первая половина (от 0 до 127):

Смотри «таблицы ASCII»

Вторая половина (от 128 до 255): национальные алфавиты, а также символы псевдографики, математические и некоторые другие символы.

Первые 256 символов соответствуют стандартной кодовой таблице.

На остальных местах можно разместить все необходимые символы всех языков.

«Знает» ли русские буквы?

нет

Если содержит нужный национальный алфавит, то да.

да

Особенности, примечание

Стандартная часть, которая совпадает для всех кодировок.

Альтернативная часть (вторая половина) изменяется в зависимости от страны, от настроек компьютера.

Стандарт UNICODE 4.0 представляет собой новую систему кодирования символов, выводимых на экран монитора или на принтер, позволяющую закодировать 1 114 112 символов (в стандарте из принято называть code points). Большинство символов, используемых в основных языках мира занимают 65 536 code points, образуя Basic Multilingual Plane (BMP) (Основной Многоязычный Уровень - мой перевод). Оставшиеся (более миллиона) code points вполне достаточно для кодирования всех известных символов, включая малораспространенные языки и исторические знаки. Стандарт UNICODE поддерживается тремя формами, 32-битной (UTF-32), 16-битной (UTF-16) и 8-битной (UTF-8). Восьмибитная форма UTF-8 была разработана для удобной совместимости с ASCII-ориентироваными системами кодирования. Стандарт UNICODE совместим с Международным стандартом International Standard ISO/IEC 10646.

Таблица 2. Области преимущественного применения.

Обозначение

Области преимущественного применения

K

KOI-8R (KOI-8, ISO-IR-111; ГОСТ 19768-74)

UNIX,

Internet, WWW, электронная почта в Интернет (E-Mail), Newsgroups

D

CP866 (DOS-альтернативная, DOS Cyrillic (IBM 866))

MS-DOS, OS/2, FidoNet, Windows (OEM-кодировка)

W

CP1251 (RFC1489, Windows-1251, Win-1251)

Windows (Ansi-кодировка)

M

MacCyrillic (Macintosh Cyrillic, Apple Standard Cyrillic)

Mac OS (Apple Macintosh)

(Mac OS X использует также Unicode)

ISO-8859-5 (ISO Cyrillic (8859-5))

UNIX

Таблица 3. Сравнение символов.

Таблица 4. Сравнение кодировок.

Характеристика

KOI-8R

(KOI-8)

Win1251 (CP1251)

Семейство кодировок 8859

(ISO)

MAC

(MacCyrillic)

CP866

Сколько всего символов может закодировать?

28 = 256 символов

28 = 256 символов

(для каждой кодировки в семействе)

28 = 256 символов

28 = 256 символов

Сколько бит (байт) отводится для одного символа?

8

8-битная кодовая страница из серии ISO-8859

8

8

Какие символы содержит?

31 прописная и 32 строчных букв русского алфавита, 26 прописных и 26 строчных букв латинского алфавита, 10 цифр, 32 служебных знака и специальные символы, предназначенные для управления устройствами и передачи данных.

наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения);

также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского.

стандарт ISO 8859-1 (так называемая Latin-1) стала стандартом для "расширенной" латиницы и содержит практически все символы западноевропейских языков. Так, многие шрифты для Windows соответствуют кодировке ISO 8859-1 начиная с позиции 160 до конца таблицы, а в диапазоне 128-159 содержат дополнительные символы (длинное тире или "торговая марка", например).

кодам символов, большим 127, соответствовали русские буквы. Так как их всего 33, а с заглавными - 66, то в кодовой странице осталось место для символов псевдографики.

отсутствию псевдографики и «верхних» управляющих символов эта кодировка включает довольно много полезных символов; кроме того, присутствуют все дополнительные буквы, необходимые для записи украинского, белорусского, македонского и сербского языков.

Нижняя часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII.

Содержит те же символы, что и ISO-8859-5.

Но

отличалается от ISO-8859-5 порядком следования русских букв до строчной "р", а символы псевдографики кодируются в ней теми же кодами, что и в исходной английской таблице символов.

«Знает» ли русские буквы?

да

да

да

да

да

Особенности, примечание

KOИ-8, Код Обмена Информацией,

Win1251 (CP1251, Code Page 1251, кодовая страница) – одна из наиболее распространенных в сети Интернет и персональных компьютерах (Windows). Все Windows приложения должны понимать эту кодировку без перевода.

не очень удобная кодировка, поскольку в ней отсутствуют многие нужные символы, такие как тире (—), кавычки-ёлочки («»), градус (°) и др. Нет также буквы Ґ, используемой иногда в украинской письменности.

Кириллическая кодировка этого семейства не получила широкого распространения

Кодировка MacCyrillic используется только на компьютерах «Макинтош»

CP866 (Code Page 866, кодовая страница) – MS DOS и OS/2. Её использует сеть ФИДО.

иначе называется "альтернативная" кодировка

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]