Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция_1.docx
Скачиваний:
4
Добавлен:
16.11.2019
Размер:
44.93 Кб
Скачать

Отечественные схемы 8-разрядного кодирования текстов

При 8-разрядном кодировании на кодирование символа отводится байт, имеющий 256 различных состояний. Это позволяет кодировать двуязычные символьные наборы, например английский и русский. Англоязычную часть помещают в нижней части таблицы (коды от 0 до 127), а национальную часть – в верхней (коды от 128 до 256).

Схема кодирования ISO-8859

Схема утверждена Международным институтом стандартизации (ISO – International Standard Organization). В стандарте ISO-8859 кодированию символов кириллицы выделена «пятая кодовая таблица», поэтому стандарт именуют также ISO-8859-5. Схема встречается редко (на компьютерах фирмы Sun). Но она наиболее удобна для технических операций с текстовыми данными (поиск, преобразование и т.п.)

Схема кодирования CP 866

В 1974 году Государственный комитет по стандартизации утвердил стандарт двоичного кодирования ГОСТ 19768-74, согласно которому внедрялись сразу две схемы кодирова­ния. Фирма IBM использовала эту схему в качестве основной схемы кодирования в IBM-совместимых компьютерах. В корпоративном стандарте IBM она носит название CP 866. В настоящее время схема используется на устаревших компьютерах, работающих под управлением операционной системы MS-DOS. Поэтому схема кодировки иногда называют кодировкой MS-DOS.

Схема кодирования КОИ-8Р

Схема КОИ-8 была одной из двух, утвержденных в 1974 году. В те годы называлась ДКОИ (двоичный код обмена информацией). Она стала основой для сетевых ЭВМ, работающих под управлением операционной системы UNIX. Широко применялась в СЭВ (Совете экономической взаимопомощи). После распада СССР различают схемы кодирования для России и Украины: КОИ-8Р и КОИ 8У.

Схема кодирования Windows-1251

Схема кодирования Windows-1251 является примером корпоративного стандарта. Ее поддерживает только фирма Microsoft, тем не менее она основная для документов, созданных в программах Word, Excel, Access. Большинство русскоязычных страниц в Интернете используют эту кодировку.

Технология кодирования unicode

Использование 8-разрядных таблиц сдерживает возможности международного информационного обмена. Даже в одной стране могут действовать несколько стандартов, что приводит к необходимости создавать программы, способные работать с несколькими таблицами кодировок.

Для разработки универсальной системы кодирования в конце 80-х годов XX века был создан международный консорциум UNICODE, который классифицировал национальные письменности и изучил их особенности. В результате работы был разработан международный стандарт кодирования. В основе стандарта лежат следующие три положения.

  1. Каждый символ имеет уникальное имя. Символы могут совпадать по написанию, но не по имени.

  2. Каждый символ имеет уникальный номер в таблице кодирования.

  3. Номер каждого символа представим 16-разрядным двоичным кодом.

Значение стандарта unicode

Для удовлетворения потребностей информационного обмена человечеству в настоящее время требуется 200 тыс. различных символов. В таблице UNICODE каталогизировано и зарегистрировано более 60 тысяч символов. Они охватывают алфавиты европейских языков, арабских, индийских и др. слоговых систем, знаки иероглифических систем Японии, Китая и Кореи. Windows XP – первая ОС, полностью поддерживающая стандарт UNICODE. Шрифт Arial Unicode MS дает наиболее полный набор символов из существующих в мире.

Механизмы трансформации UNICODE'а

Стандарт не фиксирует кодировку символов в системе UNICODE, очевидно, что преобразовывать 16-битовые адреса в байты можно различными способами. Принципы, лежащие в основе таких преобразований называются механизмами трансформации UNICODE'а (Unicode Transformation Format). Они реализуются различными программами.

Механизм UTF-8

Механизм преобразования UTF-8 служит для обеспечения совместимости с устаревшими программами, не рассчитанными на работу с UNICODE'ом. Согласно этому механизму 16 бит кода представляются либо одним байтом, либо двумя, либо тремя байтами, когда нужно кодировать символы восточных языков.

Механизм UTF-16

Этот механизм рассчитан на современные программы, способные работать с символами в кодировке UNICODE. Согласно этому механизму все символы, независимо от языковой группы представляются парами байтов

Механизм UTF-7

Механизм UTF-7 рассчитан на задачи информационного обмена по электронной почте. Он учитывает технические особенности систем обработки электронной почты и делает их работу более эффективной.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]