Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
22 - 28.docx
Скачиваний:
5
Добавлен:
17.09.2019
Размер:
195.43 Кб
Скачать

23. Кодування текстової інформації.

Для кодування текстової інформації кожному символу ставиться у відповідність деяке ціле додатне число – його код. Так, одним байтом можна подати 256 різних символів. Цього достатньо для запису всіх символів англійського, російського (українського) алфавітів, цифр та спеціальних символів типу знаків арифметичних операцій, дужок, розділових знаків, тощо. Кодування символів визначається стандартом, яких на даний час існує досить багато. Це призвело до певних суперечностей – текст, поданий в одній кодовій таблиці, неправильно відтворювався в іншій. Для позбавлення цього недоліку в даний час використовується універсальна таблиця кодування UNICODE, яка основана на 16-бітному поданні символів. Цього достатньо для розміщення в одній кодовій таблиці символів більшості мов нашої планети.

Кодування символьної (текстової) інформації.

Основна операція, яка виробляється над окремими символами тексту - порівняння символів.

При порівнянні символів найбільш важливими аспектами є унікальність коду для кожного символу і довжина цього коду, а сам вибір принципу кодування практично не має значення.

Для кодування текстів використовуються різні таблиці перекодування. Важливо, щоб при кодуванні і декодуванні одного і того ж тексту використовувалася одна і та ж таблиця.

Таблиця перекодування - таблиця, що містить впорядкований певним чином перелік кодованих символів, відповідно до якої відбувається перетворення символу в його двійковий код і назад.

Найбільш популярні таблиці перекодування: ДКОІ-8, ASCII, CP1251, Unicode.

Історично склалося, що в якості довжини коду для кодування символів було обрано 8 біт або 1 байт. Тому найчастіше одному символу тексту, що зберігається в комп'ютері, відповідає один байт пам'яті.

Різних комбінацій з 0 і 1 при довжині коду 8 біт може бути 28 = 256, тому за допомогою однієї таблиці перекодування можна закодувати не більше 256 символів. При довжині коду в 2 байти (16 біт) можна закодувати 65536 символів.

Кодування текстової інформації

Нині, більша частина користувачів, за допомогою комп'ютера обробляє текстову інформацію, яка складається з символів: літер, цифр, знаків пунктуації та ін Підрахуємо, скільки всього символів і яка кількість біт нам потрібно.

10 цифр, 12 знаків пунктуації, 15 знаків арифметичних дій, літери російського і латинського алфавіту, ВСЬОГО: 155 символів, що відповідає 8 біт інформації.

Одиниці виміру інформації.

1 байт = 8 біт

1 Кбайт = 1024 байтам

1 Мбайт = 1024 Кбайт

1 Гбайт = 1024 Мбайт

1 Тбайт = 1024 Гбайтом

Суть кодування полягає в тому, що кожному символу ставлять у відповідність двійковий код від 00000000 до 11111111 або відповідний йому десятковий код від 0 до 255.

Необхідно пам'ятати, що в даний час для кодування російських букв використовують п'ять різних кодових таблиць (КОИ - 8, СР1251, СР866, Мас, ISO), причому тексти, закодовані за допомогою однієї таблиці не будуть правильно відображатися в інший

Основним відображенням кодування символів є код ASCII - American Standard Code for Information Interchange-американський стандартний код обміну інформацією, який представляє з себе таблицю 16 на 16, де символи закодовані в шістнадцятковій системі числення.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]