Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекции 140400

.pdf
Скачиваний:
20
Добавлен:
22.05.2015
Размер:
1.47 Mб
Скачать

Лекция 1 - 140400

Лекция 1

ПОНЯТИЯ ИНФОРМАЦИИ. ОБЩАЯ ХАРАКТЕРИСТИКА ПРОЦЕССОВ СБОРА, ПЕРЕДАЧИ, ОБРАБОТКИ И НАКОПЛЕНИЯ ИНФОРМАЦИИ

1.Что такое информация.

2.Свойства информации.

3.Количество информации.

4.Кодирование символьной информации в ЭВМ

5.Представление графической информации

6.Представление звуковой информации

7.Информационные ресурсы и информационные технологии

1. ЧТО ТАКОЕ ИНФОРМАЦИЯ

Термин информация происходит от латинского слова "informatio", что означает сведения, разъяснения, изложение. Понятие информации является одним из самых дискуссионных в науке:

-в обиходе информацией называют любые данные или сведения, которые кого-либо интересуют. "Информировать" в этом смысле означает "сообщить нечто, неизвестное раньше";

-в технике под информацией понимают сообщения, передаваемые в форме знаков или сигналов;

-в кибернетике под информацией понимает ту часть знаний, которая используется для ориентирования, активного действия, управления, т.е.

вцелях сохранения, совершенствования, развития системы (Н. Винер). Клод Шеннон, американский учёный, заложивший основы теории

информации — рассматривает информацию как снятую неопределенность наших знаний о чем-то.

Информация это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Применительно к компьютерной обработке данных под информацией понимают некоторую последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков и т.п.), несущую смысловую нагрузку и представленную в понятном компьютеру виде. Каждый новый символ в такой последовательности символов увеличивает информационный объем сообщения.

Сообщение — это форма представления информации в виде речи, текстов, жестов, взглядов, изображений, цифровых данных, графиков, таблиц, световых или звуковых сигналов; электрических и нервных импульсов; и т.п.

Одно и то же информационное сообщение может содержать разное количество информации для разных людей — в зависимости от их предшествующих знаний, от уровня понимания этого сообщения и интереса к нему.

Информация есть характеристика не сообщения, а соотношения между сообщением и его потребителем. Без наличия потребителя, хотя бы

1

Лекция 1 - 140400

потенциального, говорить об информации бессмысленно.

Информация не является ни материей, ни энергией. В отличие от них она может возникать и исчезать. Информация может исчезнуть, если исчезнет ее носитель.

Понятие «информация» обычно предполагает наличие двух объектов: «источника» информации и «приемника» информации.

Информация передается от источника к приемнику в материальноэнергетической форме в виде сигналов (например, электрических, световых, звуковых и т. д.), распространяющихся в определенной среде.

Сигнал — физический процесс (явление), несущий сообщение (информацию) о событии или состоянии объекта наблюдения.

Информация может поступать непрерывно или дискретно, т. е. в виде последовательности отдельных сигналов. Соответственно различают непрерывную и дискретную информацию.

Основными этапами (фазами) обращения информации в системах являются:

-сбор (восприятие) информации;

-подготовка (преобразование) информации;

-передача информации;

-обработка (преобразование) информации;

-хранение информации;

-отображение (воспроизведение) информации.

При взаимодействии сигналов с физическими телами, в последних возникают определенные изменения свойств – это явление называется регистрацией сигналов. Такие изменения можно наблюдать, измерять или фиксировать иными способами – при этом возникают и регистрируются новые сигналы, то есть, образуются данные.

Данные – это зарегистрированные сигналы.

Данные несут в себе информацию о событиях, происходящих в материальном мире, поскольку они являются регистрацией сигналов, возникающих в результате этих событий. Однако данные не тождественны информации.

Информация – это продукт взаимодействия данных и адекватных им методов.

Адекватность информации может выражаться в трех формах: синтаксической, семантической, прагматической.

Синтаксическая адекватность отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.п.

Семантическая (смысловая) адекватность определяет степень соответствия образа объекта и самого объекта. На этом уровне анализируются и рассматриваются смысловые связи. Эта форма служит для формирования

2

Лекция 1 - 140400

понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Эта форма адекватности непосредственно связана с практическим использованием информации.

2. СВОЙСТВА ИНФОРМАЦИИ

Свойства любых объектов можно разделить на два больших класса: внутренние – характеризующие свойства самого объекта; внешние – это свойства объекта, характеризующие его поведение при

взаимодействии с другими объектами. 2.1 Внешние свойства информации.

Объективность и субъективность информации. Более объективной принято считать ту информацию, в которую методы вносят меньший субъективный элемент.

Качество информации – обобщенная характеристика, отражающая степень полезности ее для пользователя. Она во многом характеризуется

-полнотой информации – способностью исчерпывающе описывать отображаемый объект или процесс. Как неполная, так и избыточная информация сдерживает принятие решений или может повлечь ошибки.

-точностью информации - степенью ее близости к реальному состоянию объекта, процесса, явления и т.п.

-релевантностью – способностью информации соответствовать нуждам потребителя;

-достоверностью – свойством информации не иметь ошибок; не все сигналы являются «полезными» – всегда присутствует какой-то уровень посторонних сигналов, в результате чего полезные данные сопровождаются определенным уровнем «информационного шума». Достоверная информация со временем может стать недостоверной, так как она обладает свойством устаревать, то есть перестаёт отражать истинное положение дел.

-понятностью – изложением на языке, на котором говорят те, кому предназначена эта информация. Если ценная и своевременная информация выражена непонятным образом, она может стать бесполезной.

-защищенностью – свойством информации, характеризующим невозможность несанкционированного использования или изменения ее.

Адекватность информации – это степень соответствия реальному объективному состоянию дела. Неадекватная информация может образовываться при создании новой информации на основе неполных или недостоверных данных или в случае применения к ним неадекватных методов.

3

Лекция 1 - 140400

Доступность информации – мера возможности получить ту или иную информацию. Отсутствие доступа к данным или отсутствие адекватных методов обработки данных приводят к одинаковому результату: информация оказывается недоступной. Информация должна преподноситься в доступной форме.

Актуальность информации – это степень соответствия информации текущему моменту времени. Поскольку информационные процессы растянуты во времени, то достоверная и адекватная, но устаревшая информация может приводить к ошибочным решениям. Одинаково нежелательны как преждевременная подача информации (когда она ещё не может быть усвоена),

так и её задержка. Только своевременно полученная информация может принести ожидаемую пользу.

Научность информации логическая закономерность однозначно соответствующая закономерностям природы, общества , мышлению.

2.2 Внутренние свойства информации

Рассмотрим некоторые внутренние свойства информации: Запоминаемость – одна из самых важных.

Передаваемость – способность информации к копированию, т.е. к тому, что она может быть «запомнена» другой системой и при этом останется тождественной самой себе, количество информации не должно возрастать при копировании.

Воспроизводимость характеризует неиссякаемость и неистощимость информации.

Преобразуемость означает, что информация может менять способ и форму своего существования. Копируемость есть разновидность преобразования информации, при котором ее количество не меняется.

Стираемость связана с таким преобразованием информации (передачей) при котором ее количество уменьшается и становится равным нулю.

3. КОЛИЧЕСТВО ИНФОРМАЦИИ

Вопределенных, весьма широких условиях можно пренебречь качественными особенностями информации и выразить ее количество числом,

атакже сравнить количество информации, содержащейся в различных группах данных.

Всовременной информатике приняты следующие характеристики измерения информации:

- энтропийный; - объемный;

- алгоритмический.

3.1 Энтропийная характеристика информации

Количество информации в сообщении определяется при энтропийном методе тем, насколько уменьшится неопределенность в появлении некоторых событий после получения сообщения и выражается математической зависимостью от совокупности вероятности этих событий.

4

Лекция 1 - 140400

H = log 2 N,

Данную формулу предложил в 1928 г Хартли, США.

Если исходов N, но их вероятности различны: p1, p2… pN, то применяют формулу Клода Шеннона, США, предлженную в середине 40-х

H= - (p1 log2 P1 + p2 log2 P2 + … + pN log2 PN).

Легко заметить, что если вероятности p1, … , pN равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

В вычислительной технике вся обрабатываемая информация не зависимо от ее природы (текст, число, изображение и т.д.) представляется в двоичной форме записи числа, т.е. состоящая из двух символов 0 и 1. Один такой символ называется битом.

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений, уменьшающее неопределенность знаний в 2 раза.

Битом в вычислительной технике называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Примеры:

«Орел–решетка» при бросании монеты. 2 исхода, исходы равновероятны. В сообщении: “Монета выпала орлом” – 1 бит информации. Было два возможных исхода, остался 1.

3.2 Объемный (символьный) метод определения количества информации

Объемный (символьный) метод определения количества информации представляет собой определение количества символов, содержащихся в конкретном сообщении.

Например, одно и тоже число можно записать разными способами: 1 – й способ – 20;

2–й способ – “двадцать”;

3–й способ – ХХ;

4–й способ – 011 000.

Символьный метод не связывает количество информации в сообщении с его содержанием.

Алфавит – все множество символов данного языка, включая цифры, знаки препинания и даже пробел.

Полное количество символов – мощность алфавита N. В русском языке N=54 (все буквы + пробел + цифры + знаки препинания). При этом (принимаем, что появление символов равновероятно)

I54 = log254 = 5,755.

Если количество символов в тексте равно М, то текст несет объем информации I54*М или 5,755 М (при любом содержании!)

Количество информации – функция от мощности алфавита и объема текста.

Одна страница текста на разных языках – разные объемы информации.

5

Лекция 1 - 140400

Достаточный алфавит содержит 256 символов – русский и латинский алфавиты, цифры, знаки препинания и др. символы, включая элементы псевдографики.

Бит слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт, равная восьми битам.

Именно восемь бит требуется для того, чтобы закодировать любой из 256 символов. Считая появление различных символов равновероятным, находим, что энтропия достаточного алфавита составляет

I256 = log2 256 = 8 бит = 1 байт.

Значит, любая книга, набранная на компьютере, имеет объем информации 8S байт, где S – число символов. При 40 строках по 60 символов 1 страница содержит 2400 байт информации.

При строгом подходе для определения объема информации на одной странице надо брать формулу Шеннона.

Широко используются также еще более крупные производные единицы

информации:

 

= 210 байт,

1

Килобайт (Кбайт) = 1024 байт

1

Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

1

Гигабайт (Гбайт)

= 1024 Мбайт = 230

байт,

1

Терабайт (Тбайт)

= 1024 Гбайт

= 240

байт,

1

Петабайт (Пбайт) = 1024 Тбайт

= 250 байт.

Скорость передачи информации измеряется в Кбайт/с, бит/с, байт/с. 3.3. Алгоритмический метод определения количества информации

Алгоритмический метод определения количества информации характеризуется сложностью (размером) программы, которая позволяет ее произвести.

При разных машинах и разных языках программирования (алгоритмах) это все разное. Поэтому задаются некоторой вычислительной машиной (чаще всего машиной Тьюринга), а предлагаемая количественная оценка информации определяется сложностью слова, как минимальное число внутренних состояний машины, требуемой для его воспроизведения.

4. КОДИРОВАНИЕ СИМВОЛЬНОЙ ИНФОРМАЦИИ В ЭВМ

Кодирование - это представление сведений в том или ином стандартном виде. Одна и та же информация может быть представлена (закодирована) в нескольких формах. C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом. Компьютер может работать только с такой информацией, которую можно превратить в сигналы. Если бы люди умели превращать в сигналы вкус или запах, то компьютер мог бы работать и с такой информацией.

Решать задачу кодирования информации человечество начало задолго до появления компьютеров. Грандиозные достижения человечества - письменность и арифметика - есть не что иное, как система кодирования речи и

6

Лекция 1 - 140400

числовой информации. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.

Символьная (алфавитно-цифровая) информация хранится и обрабатывается в ЭВМ в форме цифрового кода, т. е. каждому символу ставится в соответствие отдельное бинарное слово-код.

Необходимый набор символов, предусмотренный в конкретной ЭВМ, обычно включает в себя:

-буквенно-цифровые знаки алфавита (алфавитов);

-специальные знаки (пробел, скобки, знаки препинания и др.);

-знаки операций.

Кроме того, в состав набора входят управляющие символы, соответствующие определенным функциям.

Среди наборов символов наибольшее распространение получили знаки кода ASCII (ASCII American Standard Code for Information Interchange)

американский стандартный код обмена информацией. ASCII создана в 1963г. ASCII — это семиразрядный код. В своей первоначальной версии она

ограничивалось одним естественным алфавитом (английским), цифрами и набором различных символов, включая «символы пишущей машинки» и «управляющие символы».

Стандартный знакогенератор современного персонального компьютера IBM PC имеет 8-битную кодировку символов, состоящую из двух таблиц кодирования: базовой и расширенной. Базовая таблица построена по стандарту ASCII и одинакова для всех IBM-совместимых компьютеров. Расширенная таблица относится к символам с номерами от 128 до 255 и отдана под буквы некоторых европейских языков, математические символы (например, знак квадратного корня) и символы псевдографики.

Первые 33 кода (с 0 до 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы.

Для представления букв русского алфавита в рамках ASCII первоначально был разработан КОИ-7 (Код Обмена Информацией 7-битный). Расположение символов во второй половине таблицы этой кодировки резко отличается от принятого фирмой IBM, что затрудняет использование зарубежного программного обеспечения на отечественных ЭВМ. В связи с этим он практически не применяется, а на отечественных ПК введена так называемая

ГОСТ-альтернативная кодировка, главное достоинство которой — расположение символов псевдографики на тех же местах, что и в кодировке

IBM.

Другая распространенная кодировка носит название КОИ-8 — (двоичный восьмибитовый Код Обмена Информацией) является стандартной русской кодовой таблицей на компьютерах, работающих под управлением

7

Лекция 1 - 140400

операционной системы UNIX. Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в некоторых службах российского сектора Интернета. В частности, в России она де-факто является стандартной в сообщениях электронной почты и телеконференций.

Но даже 8-битная кодировка недостаточна для кодирования всех символов, которые хотелось бы иметь в расширенном алфавите. Все препятствия могут быть сняты при переходе на 16-битную кодировку Unicode, допускающую 65536 кодовых комбинаций— этого достаточно для размещения

водной таблице всех широкоупотребляемых языков.

5.ПРЕДСТАВЛЕНИЕ ГРАФИЧЕСКОЙ ИНФОРМАЦИИ

Наиболее распространенные из существующих методов представления изображений можно разделить на две большие категории: растровые методы и векторные методы.

При растровом методе изображение представляется как совокупность точек, называемых пикселями (pixel — сокращение от picture element — элемент изображения). Поскольку линейные координаты и индивидуальные свойства каждой точки (яркость) можно выразить с помощью целых чисел, то можно сказать, что растровое кодирование позволяет использовать двоичный код для представления графических данных.

Общепринятым на сегодняшний день считается представление чернобелых иллюстраций в виде комбинации точек с 256 градациями серого цвета, и, таким образом, для кодирования яркости любой точки обычно достаточно восьмиразрядного двоичного числа.

Для кодирования цветных графических изображений применяется принцип декомпозиции произвольного цвета на основные составляющие. В качестве таких составляющих используют три основных цвета: красный (Red, R), зеленый (Green, G) и синий (Blue, В). Такая система кодирования называется системой RGB (по первым буквам названий основных цветов).

Графические файлы, в которых применяется цветовая система RGB, представляют каждый пиксель в виде цветового триплета трех числовых величин (R, G, В), соответствующих интенсивностям красного, зеленого и синего цветов.

Если для кодирования яркости каждой из основных составляющих использовать по 256 значений (восемь двоичных разрядов), как это принято для полутоновых черно-белых изображений, то на кодирование цвета одной точки надо затратить 24 разряда.

При этом система кодирования обеспечивает однозначное определение 16,5 млн. различных цветов, что близко к чувствительности человеческого глаза.

Для 24-битового цвета триплетом (0, 0, 0) обычно представляется черный цвет, а триплетом (255, 255, 255) — белый. Если все три величины RGB имеют одинаковые значения, например (63, 63, 63), (127, 127, 127) или (191, 191, 191),

то результирующим будет один из оттенков серого цвета.

8

Лекция 1 - 140400

Кроме RGB, другими популярными системами кодирования цветных изображений являются СМY и HSB.

CMY (Cyan-Magenta-Yellow — голубой-пурпурный-желтый) — цветовая система, применяемая для получения цветных изображений на белой поверхности. Эта система используется в большинстве устройств вывода, таких как лазерные и струйные принтеры, когда для получения твердых копий краски наносятся на белую бумагу. При освещении каждый из трех основных цветов поглощает дополняющий его цвет: голубой цвет поглощает красный, пурпурный — зеленый, а желтый — синий.

На практике получить идеальный черный цвет без дорогостоящих красителей в системе CMY весьма сложно.

Существует более практичный вариант CMY — система CMYK, в которой символ K означает черный цвет. Введение в эту цветовую систему черного цвета в качестве независимой основной цветовой переменной позволяет использовать недорогие красители. Систему CMYK часто называют четырехцветной, а результат ее применения — четырехцветной печатью.

Как правило, четыре цветовые составляющие CMYK задаются в процентах в диапазоне от 0 до 100.

Режим, когда для кодирования цвета каждой точки используется 32 двоичных разряда, также называют полноцветным (True Color). Кодирование цветной графики 16-разрядными двоичными числами называют режимом High Color.

Одним из недостатков растровых методов является трудность пропорционального изменения размеров изображения до произвольно выбранного значения.

Векторные методы позволяют избежать проблем масштабирования, характерных для растровых методов. В этом случае изображение представляется в виде совокупности линий и кривых. Каждый элемент векторного изображения является объектом, который описывается с помощью специального языка (математических уравнения линий, дуг, окружностей и т.д.)

В векторном формате изображение разделяется на примитивы - прямые линии, многоугольники, окружности и сегменты окружностей, параметрические кривые, залитые определенным цветом или шаблоном, связные области, набранные определенным шрифтом отрывки текста и т. д. Для пересекающихся примитивов задается порядок, в котором один из них перекрывает другой.

Координаты примитивов бывают как двух-, так и трехмерными. Двухмерные векторные форматы очень хороши для представления

чертежей, диаграмм, шрифтов (или, если угодно, отдельных букв шрифта) и отформатированных текстов. Такие изображения удобно редактировать - изображения и их отдельные элементы легко поддаются масштабированию и другим преобразованиям. Трехмерные векторные форматы широко используются в системах автоматизированного проектирования и для генерации фотореалистичных изображений методами трассировки лучей и т. д.

9

Лекция 1 - 140400

Однако векторная технология не позволяет достичь фотографического качества изображений объектов как при использовании растровых методов.

Видеоизображение характеризуется теми же параметрами, что и графическое, а также дополнительно частотой смены кадров. Человек воспринимает последовательность кадров, сменяющихся с частотой 24 кадра в секунду, как плавное, динамически меняющееся изображение.

6. ПРЕДСТАВЛЕНИЕ ЗВУКОВОЙ ИНФОРМАЦИИ

Для кодирования звуковой информации сначала необходимо осуществить дискретизацию непрерывного звукового сигнала (фонограммы). Фонограмму можно упрощенно представить как акустическую волну с непрерывно меняющейся амплитудой и частотой. Амплитуда сигнала определяет его громкость, а частота — тон: чем больше частота сигнала, тем выше тон. Делается это, например, так – измеряется напряжение через равные промежутки времени и полученные значения записываются в память компьютера. Этот процесс называется дискретизацией (или оцифровкой), а устройство, выполняющее его – аналого-цифровым преобразователем (АЦП).

Чтобы воспроизвести закодированный таким образом звук, нужно сделать обратное преобразование (для этого служит цифро-аналоговый преобразователь – ЦАП), а затем сгладить получившийся ступенчатый сигнал.

Фонограмма дискретизируется по времени: при этом непрерывная зависимость амплитуды сигнала от времени A(t) заменяется ступенчатой.

Качество компьютерного звука определяется характеристиками аудиоадаптера: частотой дискретизации и разрядностью.

Частота дискретизации – это количество измерений входного сигнала за 1 секунду. Частота измеряется в герцах (Гц). Одно измерение за одну секунду соответствует частоте 1 Гц. 1000 измерений за 1 секунду – 1 килогерц (кГц).

Разрядность регистра – число бит в регистре аудиоадаптера. Разрядность определяет точность измерения входного сигнала. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического сигнала в число и обратно. Если разрядность равна 8 (16), то при измерении входного сигнала может быть получено 28= 256 (216=65536) различных значений.

Человек различает примерно 110 уровней громкости. Если для кодировки уровня громкости использовать один байт (глубина кодирования), то можно закодировать 28 = 256 уровней. В настоящее время для кодировки громкости используются равномерная дискретизация и коды длиной 16 бит.

При работе со стереозвуком это выполняется отдельно и независимо для левого и правого каналов и это число возрастет еще вдвое. Естественно, что для хранения звуковой информации также используются методы сжатия информации.

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]