Сравнительные таблицы
Сегодня в России используются 5 таблиц кодировок символов, в каждой из которых первые 128 символов совпадают со стандартной кодировкой ASCII (8-битовые кодировки, «знающие» русский язык).
КОИ8,
СР1251,
СР866,
Мас,
ISO
Таблица 1. Сравнение стандартов.
Характеристика |
Таблицы ASCII |
Расширенные таблицы ASCII |
Unicode |
Сколько всего символов может закодировать? |
128 символов |
256 символов |
65536 символов |
Сколько бит (байт) отводится для одного символа? |
1 символ = 1 байт Можно: 1 символ = 7 бит |
1 символ = 1 байт |
1 символ = 2 байта |
Какие символы содержит? |
Первые 32 кода (от 0 до 31) – управляющие символы (например, символ с кодом 13 - это символ конца абзаца), Остальные: строчные и прописные латинские буквы, цифры, знаки препинания и математических операций. |
Первая половина (от 0 до 127): Смотри «таблицы ASCII»
Вторая половина (от 128 до 255): национальные алфавиты, а также символы псевдографики, математические и некоторые другие символы. |
Первые 256 символов соответствуют стандартной кодовой таблице.
На остальных местах можно разместить все необходимые символы всех языков. |
«Знает» ли русские буквы? |
нет |
Если содержит нужный национальный алфавит, то да. |
да |
Особенности, примечание |
Стандартная часть, которая совпадает для всех кодировок. |
Альтернативная часть (вторая половина) изменяется в зависимости от страны, от настроек компьютера. |
Стандарт UNICODE 4.0 представляет собой новую систему кодирования символов, выводимых на экран монитора или на принтер, позволяющую закодировать 1 114 112 символов (в стандарте из принято называть code points). Большинство символов, используемых в основных языках мира занимают 65 536 code points, образуя Basic Multilingual Plane (BMP) (Основной Многоязычный Уровень - мой перевод). Оставшиеся (более миллиона) code points вполне достаточно для кодирования всех известных символов, включая малораспространенные языки и исторические знаки. Стандарт UNICODE поддерживается тремя формами, 32-битной (UTF-32), 16-битной (UTF-16) и 8-битной (UTF-8). Восьмибитная форма UTF-8 была разработана для удобной совместимости с ASCII-ориентироваными системами кодирования. Стандарт UNICODE совместим с Международным стандартом International Standard ISO/IEC 10646. |
Таблица 2. Области преимущественного применения.
Обозначение |
Области преимущественного применения |
|
K |
KOI-8R (KOI-8, ISO-IR-111; ГОСТ 19768-74) |
UNIX, Internet, WWW, электронная почта в Интернет (E-Mail), Newsgroups
|
D |
CP866 (DOS-альтернативная, DOS Cyrillic (IBM 866)) |
MS-DOS, OS/2, FidoNet, Windows (OEM-кодировка)
|
W |
CP1251 (RFC1489, Windows-1251, Win-1251) |
Windows (Ansi-кодировка) |
M |
MacCyrillic (Macintosh Cyrillic, Apple Standard Cyrillic) |
Mac OS (Apple Macintosh) (Mac OS X использует также Unicode) |
|
ISO-8859-5 (ISO Cyrillic (8859-5)) |
UNIX |
Таблица 3. Сравнение символов.
Таблица 4. Сравнение кодировок.
Характеристика |
KOI-8R (KOI-8) |
Win1251 (CP1251) |
Семейство кодировок 8859 (ISO) |
MAC (MacCyrillic) |
CP866 |
Сколько всего символов может закодировать? |
28 = 256 символов |
|
28 = 256 символов (для каждой кодировки в семействе) |
28 = 256 символов |
28 = 256 символов |
Сколько бит (байт) отводится для одного символа? |
8 |
|
8-битная кодовая страница из серии ISO-8859 |
8 |
8 |
Какие символы содержит? |
31 прописная и 32 строчных букв русского алфавита, 26 прописных и 26 строчных букв латинского алфавита, 10 цифр, 32 служебных знака и специальные символы, предназначенные для управления устройствами и передачи данных. |
наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения); также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского. |
стандарт ISO 8859-1 (так называемая Latin-1) стала стандартом для "расширенной" латиницы и содержит практически все символы западноевропейских языков. Так, многие шрифты для Windows соответствуют кодировке ISO 8859-1 начиная с позиции 160 до конца таблицы, а в диапазоне 128-159 содержат дополнительные символы (длинное тире или "торговая марка", например). кодам символов, большим 127, соответствовали русские буквы. Так как их всего 33, а с заглавными - 66, то в кодовой странице осталось место для символов псевдографики. |
отсутствию псевдографики и «верхних» управляющих символов эта кодировка включает довольно много полезных символов; кроме того, присутствуют все дополнительные буквы, необходимые для записи украинского, белорусского, македонского и сербского языков. Нижняя часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII. |
Содержит те же символы, что и ISO-8859-5. Но отличалается от ISO-8859-5 порядком следования русских букв до строчной "р", а символы псевдографики кодируются в ней теми же кодами, что и в исходной английской таблице символов. |
«Знает» ли русские буквы? |
да |
да |
да |
да |
да |
Особенности, примечание |
KOИ-8, Код Обмена Информацией, |
Win1251 (CP1251, Code Page 1251, кодовая страница) – одна из наиболее распространенных в сети Интернет и персональных компьютерах (Windows). Все Windows приложения должны понимать эту кодировку без перевода. |
не очень удобная кодировка, поскольку в ней отсутствуют многие нужные символы, такие как тире (—), кавычки-ёлочки («»), градус (°) и др. Нет также буквы Ґ, используемой иногда в украинской письменности. Кириллическая кодировка этого семейства не получила широкого распространения |
Кодировка MacCyrillic используется только на компьютерах «Макинтош» |
CP866 (Code Page 866, кодовая страница) – MS DOS и OS/2. Её использует сеть ФИДО. иначе называется "альтернативная" кодировка |