Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции по информатике общий документ.doc
Скачиваний:
7
Добавлен:
21.04.2019
Размер:
2.63 Mб
Скачать

Введение

К началу XXI века объём знаний человечества увеличился в два раза, относительно начала XX века, поток информации увеличился в 30 раз. Информация стала главной ценностью земной цивилизации. В развитых странах формируются национальные информационные ресурсы, и происходит переход от индустриальной экономики к экономике, основанной на информации. Более половины трудового населения развитых стран в той или иной мере занято в информационной сфере.

Информация стала основным предметом труда.

Понятие «информационные ресурсы» (другими словами «информационный потенциал») охватывает широкий круг технических и организационных средств обработки и передачи данных, знания и навыки людей, и конечно сами данные. Можно выделить следующие группы информационных ресурсов:

- информация на физических носителях, а также средства её обработки,

- средства передачи и коммуникации, включая навыки и приемы их использования,

- средства обработки информации,

- ученые и специалисты – «производители» информации в разных сферах деятельности,

- органы и службы, занимающиеся сбором, обработкой и хранением информации.

Наблюдается резкий количественный рост и снижение уровня квалификации рядовых пользователей ЭВМ. Это приводит к необходимости упрощения интерфейса с ЭВМ вплоть до написания программ на естественном языке и речевого общения. Весьма перспективны нейросистемы способные к самообучению при распознавании образов.

Особое значение приобретает факт широкого распространения персональных компьютеров и всемирной сети Internet. Это многократно усиливает природные возможности человеческого разума.

Философам, социологам и психологам ещё предстоит осознать, глубоко исследовать идею компьютера, как духовного инструмента творческой деятельности, а также оценить все социальные последствия процесса внедрения компьютеров в социальную сферу.

До сих пор царило убеждение, что ЭВМ даёт только то, что в ней заложено. Но теперь ясно, что от ЭВМ можно получить нечто новое, а именно знания. Оперируя знаниями ЭВМ могут прийти к решениям, которые ускользают от человеческого разума.

Индустриальное общество развитых стран перерастает в информационное общество, основанное на индустрии услуг и информации. Суть информационного общества может быть охарактеризована следующими признаками:

1. Большинство населения в таком обществе занято в сфере услуг и информации.

2. Любой гражданин может получить любую информацию, кроме государственных тайн, коммерческих и личных секретов.

3. Наличие сети гигантских накопителей информации – общедоступных банков знаний и данных, а также необходимых технологических средств (компьютеров, программного обеспечения, сетей).

4. Информация становится товаром и вместе с информационными технологиями занимает ключевое место в экономике страны.

Информатизация общества – грандиозная научно-техническая проблема. Она имеет значительные социальные последствия, оказывает влияние на облик цивилизации в целом.

Научным фундаментом процесса информатизации общества является научная дисциплина — информатика. В широком смысле информатика — это наука об информационной деятельности, информационных процессах и их организации в человеко-машинных системах. Основными разделами информатики являются исследование и разработка информационных средств и технологий, программных средств и моделирование предметных областей.

Объектом информатики являются автоматизированные информационные системы (ИС), основанные на ЭВМ и телекоммуникационной технике. Информатика изучает все стороны их разработки, проектирования, создания, анализа и использования на практике. Информационные технологии – это основанные на ЭВМ способы обработки семантической информации – данных и знаний, которые реализуются посредством автоматизированных информационных систем.

Информационный ресурс и его составляющие

Один и тот же объект может изучаться разными науками. Объект познания – это некий фрагмент реального мира, а его предмет – это выбранная для исследования методами данной науки сторона, грань, аспект объекта.

ИТ выступили новым средством превращения знаний в информационный ресурс (ИР) общества. ИР стал основным ресурсом человечества, главной ценностью современной цивилизации Предметом информатики как новой фундаментальной науки выступает ИР – его сущность, законы функционирования, механизмы взаимодействия с другими ресурсами общества и воздействия на социальный прогресс.

ИР – это знание, ставшее информацией. Поэтому знание обладает всеми характеристиками ИР: достоверностью, надежностью, релевантностью (релевантность - нужность, существенность). ИР выступает в пассивной и активной формах. К пассивной относятся такие формы существования знаний, когда они не связаны или слабо связаны с конкретными предметными областями (книги, статьи, патенты, банки данных). Активные формы существования ИР: модель, алгоритм, программа, проект. Каждая из этих четырех активных форм ИР имеет разные степени общности, научно-технический уровень и завершенность (комплектность).

Теоретическая информатика рассматривает все аспекты разработки АИС: их проектирования, создания и использования с технической и содержательной стороны, а также комплекс экономического, политического и культурного воздействия на социальную динамику.

Теоретическая информатика занимается анализом и традиционных систем преобразования информации: СМИ, кино, театры, справочные службы и т.д. Но рассматривает их с позиций получения и использования ИР, возможной их технологизации.

Теоретическая информатика изучает общие свойства всех разновидностей ИТ, процессов и сред их протекания. Всем им характерны такие понятия, как носители информации, каналы связи, информационные контуры, сигналы, прямые и обратные связи, данные, сведения и т. д. Все они описываются такими характеристиками, как надежность, эффективность, релевантность, информационный шум, избыточность и др.

Все они делятся на различные фазы и процессы: прием, кодирование-декодирование, хранение, извлечение, отображение информации.

Прикладная информатика изучает конкретные разновидности ИТ, которые формируются с помощью специальных ИС (управленческих, медицинских, военных, обучающих, криминалистических и др.)

Информационные технологии (ИТ) включают два основных элемента – машинный и человеческий (социальный). Социальный элемент является главным. В отличие от производственных, энергопреобразующих технологий ИТ как объект информатики относятся к социальным, знание преобразующим технологиям.

Определение информационных технологий

Информационные технологии (ИТ, от англ. information technology, IT) — широкий класс дисциплин и областей деятельности, относящихся к технологиям управления и обработки данных, в том числе, с применением вычислительной техники.

Согласно определению, принятому ЮНЕСКО, Информационные Технологии (ИТ) — это комплекс взаимосвязанных научных, технологических, инженерных наук, изучающих методы эффективной организации труда людей, занятых обработкой и хранением информации с помощью вычислительной техники и методы организации и взаимодействия с людьми и производственным оборудованием, их практические применение, а также связанные со всем этим социальные, экономические и культурные проблемы.

В настоящее время, под информационными технологиями, чаще всего, понимают компьютерные технологии. В частности, ИТ имеют дело с использованием компьютеров и программного обеспечения для хранения, преобразования, защиты, обработки, передачи и получения информации. Специалистов по компьютерной технике и программированию часто называют ИТ-специалистами.

Основные черты современных ИТ:

-компьютерная обработка информации;

-хранение больших объёмов информации на машинных носителях;

-передача информации на любые расстояния в кратчайшие сроки.

Современное материальное производство и другие сферы деятельности все больше нуждаются в информационном обслуживании, переработке огромного количества информации. Универсальным техническим средством обработки любой информации является компьютер, который играет роль усилителя интеллектуальных возможностей человека и общества в целом, а коммуникационные средства, использующие компьютеры, служат для связи и передачи информации. Появление и развитие компьютеров — это необходимая составляющая процесса информатизации общества.

Информатизация на базе внедрения компьютерных и телекоммуникационных технологий является реакцией общества на потребность в существенном увеличении производительности труда в информационном секторе общественного производства, где сосредоточено более половины трудоспособного населения. Так, например, в информационной сфере США занято более 60% трудоспособного населения, в СНГ — около 40%.[1]

Современные информационные технологии

Современные информационные технологии с их стремительно растущим потенциалом и быстро снижающимися издержками открывают большие возможности для новых форм организации труда и занятости в рамках, как отдельных корпораций, так и общества в целом. Спектр таких возможностей значительно расширяется - нововведения воздействуют на все сферы жизни людей, семью, образование, работу, географические границы человеческих общностей и т. д. Сегодня информационные технологии могут внести решающий вклад в укрепление взаимосвязи между ростом производительности труда, объемов производства, инвестиций и занятости. Новые виды услуг, распространяющиеся по сетям, в состоянии создать немало рабочих мест, что подтверждает практика последних лет.

До начала 1980-х годов информационные технологии были представлены главным образом большими ЭВМ и использовались для нужд лишь половины корпоративной "пирамиды", поскольку из-за их высокой себестоимости было невозможно автоматизировать решение управленческих задач. Автоматизация повторяющихся процессов обработки информации была сравнима с автоматизацией ручного труда на основе применения машин, заменивших людей. Согласно оценкам, с 1960 по 1980 г. свыше 12 млн. существовавших или потенциальных рабочих мест, связанных с обработкой информации, были автоматизированы посредством использования традиционных ЭВМ. Автоматизация рабочих мест, находившихся на нижних уровнях административной иерархии, привела к уменьшению размеров предприятий, но в то же время не вызвала кардинальных изменений в общей модели организации труда. В то время казалось маловероятным, что информационные технологии могут способствовать стабильному социально-экономическому развитию; наоборот, факты свидетельствовали о том, что их роль в повышении производительности труда, формировании моделей потребительского поведения, ориентированных на новые товары и услуги, создании новых рабочих мест в отраслях информационные технологии по сравнению с выбытием рабочих мест в отраслях - потребителях их продукции была в целом незначительной.

Отрасль информационных технологий является одной из наиболее динамично развивающихся отраслей в мире. За последние 5 лет доходы отрасли росли в среднем на 10 процентов в год, при среднем темпе роста экономики 3-4 процента, что привело к увеличению доли отрасли в структуре ВВП как развитых, так и развивающихся стран. По прогнозам международных аналитических агентств, высокие темпы роста, около 9 процентов в год, сохранятся и в течение следующих пяти лет [4].

Особенности отрасли информационных технологий позволяют перенести в другие страны не только разработку программного обеспечения, но и поддержку продуктов, а также ряд вспомогательных процессов. Большое количество международных ИТ-компаний, начиная со второй половины 90-х годов, открыло свои подразделения в Индии и Китае и перенесло выполнение части функций или целые бизнес-процессы в эти подразделения. Параллельно ИТ-компании развивающихся стран оказывают услуги клиентам в развитых странах с помощью удаленного доступа. Бесспорным лидером во всех сегментах офшора пока является Индия, с общим объемом ИТ-экспорта около 15 млрд. долларов в 2003 году[4]. В последнее время на рынок вышли страны Восточной Европы, ориентированные на рынок ЕС, а также Китай, который в основном ориентирован на близлежащие страны (Японию, Южную Корею, Гонкнг, Филиппины).

Развитие телекоммуникаций и многократное снижение стоимости передачи данных стало критическим фактором, обеспечивающим рост рынка экспортируемых услуг. Наличие хорошей телекоммуникационной инфраструктуры по конкурентным ценам является необходимым фактором для того, чтобы страна могла претендовать на лидерские позиции на этом рынке.

Этапы развития ИТ (информационных технологий)

Важнейшим и историческими этапами развития ИТ является письменность, изобретение книгопечатания, использование почты, телефона, телеграфа, телевидения. Особое место в развитии ИТ занимают компьютеры, электронная почта и широкое использование компьютерных сетей (локальных и глобальных), которые обеспечивают не только содержательную обработку информации, но и передачу текстовых, мультимедийных (графика, видео и звук) и других материалов практически на любые расстояния в реальном масштабе времени.

ИТ (Информационные технологии) являются наиболее важной составляющей процесса использования информационных ресурсов общества. К настоящему времени она прошла несколько эволюционных этапов, смена которых определялась главным образом развитием научно-технического прогресса, появлением новых технических средств переработки информации.

Существует несколько точек зрения на развитие информационных технологий, в том числе с использованием компьютеров, которые определяются различными признаками деления. Общим для всех изложенных ниже подходов является то, что с появлением ПК (персональных компьютеров) начался новый этап развития ИТ. Основной целью становится удовлетворение персональных информационных потребностей человека, как для профессиональной, так и для бытовой сферы.

Может быть рассмотрена классификация развития ИТ по признакам. Рассмотрим общую классификацию развития систем по применяемому инструментарию ИТ:

1-й этап (до второй половины XIX в.) — "ручная" ИТ, инструментарий которой составляли: перо, чернильница, книга. Коммуникации осуществлялись ручным способом путем переправки через почту писем, пакетов, депеш. Основная цель технологии — представление информации в нужной форме.

2-й этап (с конца XIX в.) — "механическая" технология, инструментарий которой составляли: пишущая машинка, телефон, диктофон, оснащенная более совершенными средствами доставки почта. Основная цель технологии — представление информации в нужной форме более удобными средствами.

3-й этап (40 — 60-е гг. XX в.) — "электрическая" технология, инструментарий которой составляли: большие ЭВМ и соответствующее программное обеспечение, электрические пишущие машинки, ксероксы, портативные диктофоны. Изменяется цель технологии. Акцент в информационной технологии начинает перемещаться с формы представления информации на формирование ее содержания.

4-й этап (с начала 70-х гг.) — "электронная" технология, основным инструментарием которой становятся большие ЭВМ и создаваемые на их базе ИС, оснащенные широким спектром базовых и специализированных программных комплексов. Центр тяжести технологии еще более смещается на формирование содержательной стороны информации для различных сфер использования, особенно на организацию аналитической работы. Был приобретен опыт формирования содержательной стороны информации и подготовлена профессиональная, психологическая и социальная база для перехода на новый этап развития технологии.

5-й этап (с середины 80-х гг.) — "компьютерная" ("новая") технология, основным инструментарием которой является персональный компьютер с широким спектром стандартных программных продуктов разного назначения. На этом этапе происходит процесс персонализации ИС, которая проявляется в создании систем поддержки принятия решений. Начинают широко использоваться в различных областях глобальные и локальные компьютерные сети.

Может быть рассмотрена классифмкация развития ИТ с применением ПК по следующим признакам.

По виду задач и по виду процессов обработки информации.

1-й этап (60 - 70-е гг.) — обработка данных в вычислительных центрах в режиме коллективного пользования.

2-й этап (с 80-х гг.) — создание ИТ, направленных на решение стратегических задач.

По используемому техническому обеспечению

1-й этап (до конца 60-х гг.) – решение проблемы обработки больших объемов данных в условиях ограниченных возможностей аппаратных средств.

2-и этап (до конца 70-х гг.) -распространение ЭВМ серии IBM/360

3-й этап (с начала 80-х гг.) — компьютер становится инструментом непрофессионального пользователя, а ИТ — средством поддержки принятия его решений

4-йэтап (с начала 90-х гг.) — создание современной технологии межорганизационных связей и ИС.

По преимуществам, которые приносит компьютерная технология:

1-й этап (с начала 60-х гг.)-обеспечение эффективной обработкой информации при выполнении рутинных операций с ориентацией на централизованное коллективное использование ресурсов вычислительных центров. Основным критерием оценки эффективности создаваемых ИС была разница между затраченными на разработку и сэкономленными в результате внедрения средствами. Основной проблемой на этом этапе была психологическая — плохое взаимодействие пользователей, для которых создавались ИТ, и разработчиков из-за различия их взглядов и понимания решаемых проблем. Как следствие этой проблемы, создавались системы, которые пользователи плохо воспринимали и, несмотря на их достаточно большие возможности, не использовали в полной мере.

2-й этап (с середины 70-х гг.) связан с появлением персональных компьютеров. Изменился подход к созданию ИС — ориентация смещается в сторону индивидуального пользователя для поддержки принимаемых им решений. Пользователь заинтересован в проводимой разработке, налаживается контакт с разработчиком, возникает взаимопонимание обеих групп специалистов. На этом этапе используется как централизованная обработка данных, характерная для первого этапа, так и децентрализованная, базирующаяся на решении локальных задач и работе с локальными базами данных на рабочем месте пользователя.

3-й этап (с начала 90-х гг.) связан с понятием анализа стратегических преимуществ в бизнесе и основан на достижениях телекоммуникационной технологии распределенной обработки информации.

По методологии использования ИТ

1-й этап (до конца 80-х гг.) - централизованная обработка информации на ЭВМ вычислительных центров. Создавались крупные вычислительные центры коллективного пользования, оснащенные большими ЭВМ. Применение таких ЭВМ позволяло обрабатывать большие массивы входной информации и получать на этой основе различные виды информационной продукции, которая затем передавалась пользователям.

2-й этап (до конца 90-х гг.) - децентрализованная обработка информации связанная с появлением ПК и развитием средств телекоммуникаций.

3-й этап - рациональная обработка информации. Достоинства и недостатки централизованной и децентрализованной ИТ привели к необходимости разумного сочетания того, и другого подхода.

В наше время большое внимание в области ИТ уделяется электронному моделированию, которое становится неотъемлемой частью интеллектуальной деятельности человечества. Сопоставление «электронного мозга» с человеческим привело к идее создания нейрокомпьютера, как ЭВМ, которые могут обучаться. Нейрокомпьютер поступает так же, как человек, т.е. многократно просматривает информацию, делает множество ошибок учится на них, исправляет их и, наконец, успешно справляется с задачей. Нейрокомпьютеры применяются для распознавания образов, восприятия человеческой речи, рукописного текста и т.д.

ИНФОРМАЦИОННЫЕ ПРОДУКТЫ И УСЛУГИ

Информационные ресурсы являются базой для создания информационных продуктов.

Информационный продукт — совокупность данных, сформированная производителем для распространения в вещественной или невещественной форме.

Информационный продукт может распространяться такими же способами, как и любой другой материальный продукт, с помощью услуг.

Услуга — результат непроизводственной деятельности предприятия или лица, направленный на удовлетворение потребности человека или органи­зации в использовании различных продуктов.

Информационная услуга — получение и предоставление в распоряжение пользователя информационных продуктов.

В узком смысле информационная услуга часто воспринимается как услуга, получаемая с помощью компьютеров, хотя на самом деле это понятие намного шире.

Информационные услуги возникают только при наличии баз данных в компьютерном или некомпьютерном варианте.

База данных — совокупность связанных данных, правила организации которых основаны на общих принципах описания, хранения и манипулирования данными.

Базы данных являются источником и своего рода полуфабрикатом при подготовке информационных услуг соответствующими службами. Базы данных, хотя они так и не называ­лись, существовали и до компьютерного периода в библиотеках, архивах, фондах, справочных бюро и других подобных организациях. В них содержатся всевозможные сведе­ния о событиях, явлениях, объектах, процессах, публикациях и т.п.

С появлением компьютеров существенно увеличиваются объемы хранимых баз данных и соответственно расширяется круг информационных услуг.

Исходя из возможных видов информационных продуктов, баз данных и ресурсов классификация информационных услуг представлена на рис. 1.1.

Выпуск информационных изданий означает подготовку печатной продукции: библиографических и других указателей; реферативных сборников; обзорных изданий; справочных изданий.

Информационные издания подготавливаются практически всеми видами информационных служб, органов и систем. Эти издания содержат вторичную информацию, которая создается на основе работы с базами данных, предоставление работы с которыми также является услугой.

Ретроспективный поиск информации — это целенаправленный по заявке пользователя поиск информации в базе данных и пересылка результатов либо по почте в виде распечаток, либо по электронной почте в виде файла;

Рис. 1.1. Основные виды информационных услуг

Предоставление первоисточника является традиционной услугой библиотечных служб. Эта услуга предусматривает не только выдачу первоисточников, но и их копий, полученных с помощью устройств различного принципа действия.

Традиционные услуги научно-технической информации осуществляются по предварительному заказу и включают в себя:

  • подготовку обзоров в виде рукописей;

  • подготовку переводов текстов.

Дистанционный доступ к удаленным базам данных организуется в компьютерной сети в диалоговом режиме. Популярность услуг дистанционного доступа к базам данных нарастает быстрыми темпами и опережает все виды других услуг благодаря:

  • все большему числу пользователей, овладевших информационной технологией работы в коммуникационной среде компьютерных сетей;

  • высокой оперативности предоставления услуг;

  • возможности отказа от собственных информационных систем.

Традиционно основными пользователями услуг дистанционного доступа к базам данных являются организации. Однако за последние годы наметилась тенденция к существен­ному увеличению числа индивидуальных пользователей.

В основном эти услуги предоставляются специальными организациями, называемыми вычислительными центрами коллективного пользования, располагающими мощными ЭВМ с внешней памятью более сотен гигабайт и лазерными принтерами. Дистанционный доступ к базам данных может быть предоставлен по подписке на основе абонементной платы или по договорам. Схема оплаты может быть разная, но в основном это почасовая оплата, зависящая от объема получаемой информации.

Подготовка и оказание информационных услуг:

  • связь (телефонная, телекоммуникационная) для предоставления осуществляемых в форме передачи данных информационных услуг;

  • обработка данных в вычислительных центрах;

  • программное обеспечение;

  • разработка информационных систем;

  • разработка информационных технологий.

ИНФОРМАЦИЯ И ЕЕ СВОЙСТВА

ИНФОРМАЦИЯ И ДАННЫЕ

Термин информация происходит от латинского informatio, что означает разъяснение, осведомление, изложение. С позиции материалистической философии информация есть от­ражение реального мира с помощью сведений (сообщений). Сообщение — это форма пред­ставления информации в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т.п. В широком смысле информация — это общенаучное понятие, включающее в себя обмен сведениями между людьми, обмен сигналами между живой и неживой приро­дой, людьми и устройствами.

Информация — сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний. Информатика рассматривает информацию как концептуально связанные между собой сведения, данные, понятия, изменяющие наши представления о явлении или объекте окру­жающего мира. Наряду с информацией в информатике часто употребляется понятие данные. Покажем, в чем их отличие. Данные могут рассматриваться как признаки или записанные наблюдения, которые по каким-то причинам не используются, а только хранятся. В том случае, если появляется воз­можность использовать эти данные для уменьшения неопределенности о чем-либо, данные превращаются в информацию. Поэтому можно утверждать, что информацией являются используемые данные.

Пример 2.1. Напишите на листе десять номеров телефонов в виде последовательности десяти чисел и покажите их вашему другу. Он воспримет эти цифры как данные, так как они не предоставляют ему никаких сведений. Затем против каждого номера укажите название фирмы и род деятельности. Для ва­шего друга непонятные цифры обретут определенность и превратятся из данных в ин­формацию, которую он в дальнейшем мог бы использовать.

Одной из важнейших разновидностей информации является информация экономи­ческая. Ее отличительная черта — связь с процессами управления коллективами людей, организацией. Экономическая информация сопровождает процессы производства, распре­деления, обмена и потребления материальных благ и услуг. Значительная часть ее связана с общественным производством и может быть названа производственной информацией.

------------------

Какие типы или виды информации можно выделить?

Во-первых, по способу восприятия информации.

У человека пять органов чувств:

  • зрение; с помощью глаз люди различают цвета, воспринимают зрительную информацию, к которой относятся и текстовая, и числовая, и графическая;

  • слух; уши помогают воспринимать звуковую информацию – речь, музыку, звуковые сигналы, шум;

  • обоняние; с помощью носа люди получают информацию о запахах окружающего мира;

  • вкус; вкусовые рецепторы языка дают возможность получить информацию о том, каков предмет на вкус – горький, кислый, сладкий, соленый;

  • осязание; кончиками пальцев (или просто кожей), наощупь можно получить информацию о температуре предмета – горячий он или холодный, о качестве его поверхности – гладкий или шершавый.

Человек получает информацию о внешнем мире с помощью своих органов чувств. Практически около 90% информации человек получает при помощи органов зрения (визуальный), примерно 9% – при помощи органов слуха (аудиальный) и только 1% при помощи остальных органов чувств (обоняния, вкуса, осязания). Следует отметить, что органы чувств человека получили название анализаторов, поскольку именно через эти органы информация попадает в головной мозг. А вот, например, для лисы, собаки и многих других животных основная информация та, которая поступает через нос. У них хорошо развито обоняние. Для летучих мышей главная информация – звуковая, они воспринимают ее своими большими, чуткими ушами.

Компьютер, помогающий человеку хранить и обрабатывать информацию, приспособлен в первую очередь для обработки текстовой, числовой, графической информации.

Во-вторых, по форме представления информации.

Рассмотрим только те виды информации, которые “понимают” технические устройства (в частности, компьютер).

Текстовая информация, например текст в учебнике, сочинение в тетради, реплика актера в спектакле, прогноз погоды, переданный по радио. Заметим, что в устном общении (личная беседа, разговор по телефону, радиопостановка спектакля) информация может быть представлена только в словесной, текстовой форме. Числовая информация, например таблица умножения, арифметический пример, счет в хоккейном матче, время прибытия поезда и др. В чистом виде числовая информация встречается редко, разве что на контрольных по математике. Чаще всего используется комбинированная форма представления информации.

  • Рассмотрим пример. Вы получили телеграмму: “Встречайте двенадцатого. Поезд прибывает в восемь вечера”. В данном тексте слова “двенадцатого” и “восемь” мы понимаем как числа, хотя они и выражены словами.

Графическая информация: рисунки, схемы, чертежи, фотографии. Такая форма представления информации наиболее доступна, так как сразу передает необходимый образ (модель), а словесная и числовая требуют мысленного воссоздания образа. В то же время графическая форма представления не дает исчерпывающих разъяснений о передаваемой информации. Поэтому наиболее эффективно сочетание текста, числа и графики.

  • Например, при решении задач по геометрии мы используем чертеж (графика) + пояснительный текст (текст) + числовые расчеты (числа).

Музыкальная (звуковая) информация.

В настоящее время мультимедийная (многосредовая, комбинированная) форма представления информации в вычислительной техники становится основной. Цветная графика сочетается в этих системах со звуком и текстом, с движущимися видеоизображением и трехмерными образами.

В-третьих, по общественному значению информации.

Информация может быть:

    • личной – это знания, опыт, интуиция, умения, эмоции, наследственность конкретного человека;

    • общественной – общественно-политическая, научно-популярная, т. е. то, что мы получаем из средств массовой информации. Кроме того, это опыт всего человечества, исторические, культурные и национальные традиции и др.;

    • обыденная – та, которой мы обмениваемся в процессе общения;

    • эстетическая – изобразительное искусство, музыка, театр и др.;

    • специальная – научная, производственная, техническая, управленческая.

Опорный конспект для ученика: (материал для запоминания)

Говорить об информации вообще, а не применительно к какому-то ее конкретному виду (роду, типу, классу) беспредметно.

Виды классификации информации

По способам восприятия

По форме представления

По общественному значению

Визуальная Аудиальная Тактильная Обонятельная Вкусовая

Текстовая Числовая Графическая Музыкальная Комбинированная

Массовая: Обыденная; Общественно-политическая; Эстетическая Социальная: Научная; Производственная; Техническая; Управленческая; Личная: Знания; Умения; Интуиция

Задание для закрепления:

Укажите, в каком виде представлена информация в следующих примерах:

Обычно в подобных задачах наиболее трудным для учащихся является определить носитель информации, особенно если им является не материальный предмет, а волна (электромагнитная, акустическая, гравитационная) либо состояние вещества. Как правило, называется только один из возможных носителей, хотя, поставив себя на место получателя информации, учащиеся называют несколько различных способов передачи информации.

Пример решения задачи:

Пример

Вид информации

Носители

По способу восприятия

По форме представления

Задача по алгебре

Зрительный или аудиальный

Комбинированный '

Бумага, классная доска, звуковые волны

Письмо

Зрительный или аудиальный

Текстовый

Бумага, магнитная лента

Картина

Зрительный

Графический

Холст

Опера

Аудиальный

Музыкальный

Акустические волны

Радиопередача

Аудиальный

Текстовый

Акустические волны

Телевизионная передача

Зрительный+ аудиальный

Комбинированный

Электромагнитные волны

Аромат сирени

Обонятельный

Воздух

Вкус лимона

Вкусовой

Лимон

Желтый цвет

Зрительный

Графический

Бумага, световые волны

Глава для любознательных

Некоторое представление о разнообразии видов информации может дать следующее определение информации, приведенное в Советском энциклопедическом словаре: “Информация – это общенаучное понятие, включающее обмен сведениями между людьми, человеком и автоматом, автоматом и автоматом, обмен сигналами в животном и растительном мире; передачу признаков от клетки к клетке, от организма к организму”.

В приведенном определении выделены четыре вида информации:

  • социальная (человек – человек);

  • техническая (человек – автомат, автомат – автомат);

  • биологическая (информация в животном и растительном мире);

  • генетическая (передача признаков от клетки к клетке, от организма к организму).

Можно предложить и другие варианты классификации информации:

  • по способам и формам получения (восприятия) информации;

  • по характеру носителя информации;

  • по характеру источников информации;

  • по сфере применения информации;

  • по общественному значению.

Конкретный исследователь выбирает для себя ту или иную классификацию в зависимости от стоящей перед ним проблемы, от тех взаимосвязей, которые он изучает.

Интересный факт.

Все знания об окружающем мире мы получаем с помощью наших органов чувств. Насколько мы им можем доверять? За долгие годы ученые придумали и построили много обманчивых картинок, наглядно демонстрирующих, сколь ограниченны возможности нашего глаза.

При взгляде на рис. 1 кажется, что вертикальная линия длиннее горизонтальной, хотя в действительности обе они имеют равную длину. На рис. 2 обе горизонтальные линии имеют одинаковую длину. Точкой А на рис. 3 помечена середина горизонтального отрезка. Иллюзия неравенства его правой и левой частей создается стрелками на концах. Как ни трудно в это поверить диагональ АВ на рис. 4 равна диагонали АС, равны также и окружности в центре левой фигур, представленные на рис. 5.

Вкусовые, слуховые и тактильные ощущения также могут порождать иллюзии: сладкий напиток, пока его пьешь, начинает казаться менее сладким; если опустить руку сначала в ледяную воду, а потом сразу в теплую, то она покажется горячее, чем на самом деле: если в течение нескольких минут подержать в руках тяжелый предмет, то после этого другой, более легкий предмет покажется нам почти невесомым.

Свойства информации

Информация нам нужна для того, чтобы принимать правильные решения.

Рассмотрим свойства информации, т.е. качественные признаки.

  1. Объективность информации. Информация – это отражение внешнего мира, а он существует независимо от нашего сознания и желания. Поэтому в качестве свойства информации можно выделить ее объективность. Информация объективна, если она не зависит от чьего либо мнения, суждения.

    • Пример. Сообщение “На улице тепло” несет субъективную информацию, а сообщение “На улице 220С” - объективную (если термометр исправен). Объективную информацию можно получить с помощью исправных датчиков, измерительных приборов. Но, отражаясь в сознании конкретного человека, информация перестает быть объективной, т.к. преобразовывается (в большей или меньшей степени) в зависимости от мнения, суждения, опыта, знания или “вредности” конкретного субъекта.

  2. Достоверность информации. Информация достоверна, если она отражает истинное положение дел. Объективная информация всегда достоверна, но достоверная информация может быть как объективной, так и субъективной. Достоверная информация помогает принять нам правильное решение. Недостоверной информация может быть по следующим причинам:

    • Преднамеренное искажение (дезинформация);

    • Искажение в результате воздействия помех (“испорченный телефон”);

    • Когда значение реального факта преуменьшается или преувеличивается (слухи, рыбацкие истории).

  3. Полнота информации. Информацию можно назвать полной, если ее достаточно для понимания и принятия решения.

    • Например, мечта историка – иметь полную информацию о минувших эпохах. Но историческая информация никогда не бывает полной, и полнота информации уменьшается по мере удаленности от нас исторической эпохи. Даже события происходившие на наших глазах, не полностью документируются, многое забывается, и воспоминания подвергаются искажению.

Неполная информация может привести к ошибочному выводу или решению. Не зря русская пословица гласит: “Недоученный хуже неученого”.

  1. Актуальность (своевременность) информации – важность, существенность для настоящего времени. Только вовремя полученная информация может принести необходимую пользу. Неактуальной информация может быть по двум причинам: она может быть устаревшей (прошлогодняя газета) либо незначимой, ненужной (например, сообщение о том, что в Италии снижены цены на 5%).

  2. Полезность или бесполезность (ценность) информации.

Так как границы между этими понятиями нет, то следует говорить о степени полезности применительно к нуждам конкретных людей. Полезность информации оценивается по тем задачам, которые мы можем решить с ее помощью.

Самая ценная для нас информация – достаточно полезная, полная, объективная, достоверная и новая. При этом примем во внимание, что небольшой процент бесполезной информации даже помогает, позволяя отдохнуть на неинформативных участках текста. А самая полная, самая достоверная информация не может быть новой.

С точки зрения техники свойство полезности рассматривать бессмысленно, так как задачи машине ставит человек.

----------------------------

Экономическая информация — совокупность сведений, отражающих со­циально-экономические процессы и служащих для управления этими про­цессами и коллективами людей в производственной и непроизводственной сфере.

При работе с информацией всегда имеется ее источник и потребитель (получатель). Пути и процессы, обеспечивающие передачу сообщений от источника информации к ее потребителю, называются информационными коммуникациями.

Для потребителя информации очень важной характеристикой является ее адекватность.

Адекватность информации — это определенный уровень соответствия создаваемого с помощью полученной информации образа реальному объекту, процессу, явлению и т.п.

В реальной жизни вряд ли возможна ситуация, когда вы сможете рассчитывать на полную адекватность информации. Всегда присутствует некоторая степень неопределенности. От степени адекватности информации реальному состоянию объекта или процесса зависит правильность принятия решений человеком.

Пример 2.2. Вы успешно закончили школу и хотите продолжить образование по эко­номическому направлению. Поговорив с друзьями, вы узнаете, что подобную подго­товку можно получить в разных вузах. В результате таких бесед вы получаете весьма разноречивые сведения, которые не позволяют вам принять решение в пользу того или иного варианта, т.е. полученная информация неадекватна реальному состоянию дел. Для того чтобы получить более достоверные сведения, вы покупаете справочник для поступающих в вузы, из которого получаете исчерпывающую информацию. В этом случае можно говорить, что информация, полученная вами из справочника, аде­кватно отражает направления обучения в вузах и помогает вам определиться в окон­чательном выборе.

Свойства информации

  1. Свойства информации.

Субъективное восприятие информации осуществляется через набор ее свойств:

- важность,

- достоверность,

- своевременность,

- доступность и т.д.

Одно и то же сообщение может передавать информацию в разной степени.

Объективные свойства информации - количество информации, кроме того информация имеет след свойства:

  • адекватность,

  • запоминаемость,

  • передаваемость,

  • преобразуемосьть,

  • воспроизводимость,

  • стираемость.

Высшей формой информации являются знания.

ФОРМЫ АДЕКВАТНОСТИ ИНФОРМАЦИИ

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения смысловая сторона. Эта форма способствует восприятию внешних структурных характеристик, т.е. синтаксической стороны информации.

Семантическая (смысловая) адекватность. Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность. Она отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Проявляются прагматические свойства информации только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются по­требительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

МЕРЫ ИНФОРМАЦИИ

Классификация мер

Для измерения информации вводятся два параметра: количество информации I и объем дан­ных VД.

Эти параметры имеют разные выражения и интерпретацию в зависимости от рассмат­риваемой формы адекватности. Каждой форме адекватности соответствует своя мера коли­чества информации и объема данных (рис. 2.1).

Рис. 2.1. Меры информации

Синтаксическая мера информации

Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

Объем данных VД в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соот­ветственно меняется единица измерения данных:

в двоичной системе счисления единица измерения — бит (bit binary digit — двоич­ный разряд);

Примечание. В современных ЭВМ наряду с минимальной единицей измерения данных "бит" широко используется укрупненная единица измерения "байт", равная 8 бит.

в десятичной системе счисления единица измерения — дат (десятичный разряд).

Пример 2.3. Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных VД = 8 бит.

Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных VД = 6 дит.

Количество информации I на синтаксическом уровне невозможно опреде­лить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.

Пусть до получения информации потребитель имеет некоторые предварительные (ап­риорные) сведения о системе α. Мерой его неосведомленности о системе является функция H(α), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения β получатель приобрел некотор ую дополни­тельную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения β) неопределенность состояния системы стала Hβ(α).

Тогда количество информации Iβ(α) о системе, полученной в сообщении β, опреде­лится как

Iβ(α) = H(α) - Hβ(α),

т.е. количество информации измеряется изменением (уменьшением) неопределенности со­стояния системы.

Если конечная неопределенность Hβ(α) обратится в нуль, то первоначальное непол­ное знание заменится полным знанием и количество информации Iβ(α) = H(α). Иными сло­вами, энтропия системы H(α) может рассматриваться как мера недостающей информации.

Энтропия системы H(α), имеющая N возможных состояний, согласно формуле Шенно­на, равна:

где pi — вероятность того, что система находится в i-м состоянии.

Дня случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi = , ее энтропия определяется соотношением

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

N=mn,

где N — число всевозможных отображаемых состояний;

т — основание системы счисления (разнообразие символов, применяемых в алфавите); п — число разрядов (символов) в сообщении.

Пример 2.4. По каналу связи передается n-разрядное сообщение, использующее т различных символов. Так как количество всевозможных кодовых комбинаций будет N=mn, то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет I = log N = п log т — формула Хартли.

Если в качестве основания логарифма принять т, то I = п. В данном случае количест­во информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = VД, полученных по каналу связи. Для неравновероятных состояний системы всегда I < VД = n.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измере­ния в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообще­ния определяется отношением количества информации к объему данных, т.е.

, причем 0<Y<1.

С увеличением Y уменьшаются объемы работы по преобразованию информации (дан­ных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатыва­ются специальные методы оптимального кодирования информации.

Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантичес­кие свойства информации со способностью пользователя принимать поступившее сообще­ние. Для этого используется понятие тезаурус пользователя.

Тезаурус — это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2.2. Рассмотрим два предельных случая, когда количество се­мантической информации Ic равно 0:

  • при Sp0 пользователь не воспринимает, не понимает поступающую информацию;

  • при Sp →∞ пользователь все знает, и поступающая информация ему не нужна.

Рис. 2.2. Зависимость

Количества семантической

информации, воспринимаемой

потребителем, от его тезауруса

Ic=f(Sp)

Максимальное количество семантической информации 1c потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Spopt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутст­вующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стре­миться к согласованию величин S и Sp.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему:

.

Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем по­ставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесооб­разно измерять в тех же самых единицах (или близких к ним), в которых измеряется целе­вая функция.

Пример 2.5. В экономической системе прагматические свойства (ценность) информа­ции можно определить приростом экономического эффекта функционирования, до­стигнутым благодаря использованию этой информации для управления системой:

I(γ)=П(γ/β) – П(γ),

где I(γ) — ценность информационного сообщения β для системы

управления γ,

П(γ) — априорный ожидаемый экономический эффект

функционирования системы управления γ,

П(γ/β) — ожидаемый эффект функционирования системы γ при условии,

что для управления будет использована информация, содержащаяся в

сообщении γ.

Для сопоставления введенные меры информации представим в табл. 2.1. Таблица 2.1. Единицы измерения информации и примеры

КАЧЕСТВО ИНФОРМАЦИИ

Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость.

Репрезентативность информации связана с правильностью ее отбора и фор­мирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют:

  • правильность концепции, на базе которой сформулировано исходное понятие;

  • обоснованность отбора существенных признаков и связей отображаемого явления. Нарушение репрезентативности информации приводит нередко к существенным ее

погрешностям.

Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т.е.

С увеличением содержательности информации растет семантическая пропускная спо­собность информационной системы, так как для получения одних и тех же сведений требу­ется преобразовать меньший объем данных.

Наряду с коэффициентом содержательности С, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации (по Шеннону) к объему данных

Достаточность (полнота) информации означает, что она содержит мини­мальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и праг­матикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избы­точная информация снижает эффективность принимаемых пользователем решений.

Доступность информации восприятию пользователя обеспечивается выполнени­ем соответствующих процедур ее получения и преобразования. Например, в информацион­ной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.

Актуальность информации определяется степенью сохранения ценности инфор­мации для управления в момент ее использования и зависит от динамики изменения ее ха­рактеристик и от интервала времени, прошедшего с момента возникновения данной информации.

Своевременность информации означает ее поступление не позже заранее на­значенного момента времени, согласованного с временем решения поставленной задачи.

Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:

  • формальная точность, измеряемая значением единицы младшего разряда числа;

  • реальная точность, определяемая значением единицы последнего разряда числа, вер­ность которого гарантируется;

  • максимальная точность, которую можно получить в конкретных условиях функциони­рования системы;

  • необходимая точность, определяемая функциональным назначением показателя.

Достоверность информации определяется ее свойством отражать реально суще­ствующие объекты с необходимой точностью. Измеряется достоверность информации дове­рительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пре­делах необходимой точности.

Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.

В заключение следует отметить, что такие параметры качества информации, как реп­резентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем. Параметры ак­туальности, своевременности, точности и достоверности обусловливаются в большей степе­ни также на методическом уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность. При этом параметры акту­альности и точности жестко связаны соответственно с параметрами своевременности и до­стоверности.

КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ ИНФОРМАЦИИ

СИСТЕМА КЛАССИФИКАЦИИ

Общие сведения

Важным понятием при работе с информацией является классификация объектов.

Классификация — система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.

Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и вы­делить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов — это процедура группировки на качественном уровне, направ­ленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

Пример 2.6. Всю информацию об университете можно классифицировать по много­численным информационным объектам, которые будут характеризоваться общими свойствами:

  • информация о студентах — в виде информационного объекта "Студент";

  • информация о преподавателях — в виде информационного объекта "Преподава­тель";

  • информация о факультетах — в виде информационного объекта "Факультет" и т.п.

Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, напри­мер вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия.

Реквизит — логически неделимый информационный элемент, описывающий [определяющий ]свойство объекта, процесса, явления и т.п.

Пример 2.7. Информация о каждом студенте в отделе кадров университета система­тизирована и представлена посредством одинаковых реквизитов:

фамилия, имя, отчество;

пол;

год рождения;

место рождения;

адрес проживания;

факультет, где проходит обучение студент, и т.д.

Все перечисленные реквизиты характеризуют свойства информационного объекта "Студент".

Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной сово­купностью реквизитов.

Пример 2.8. Алгоритм обработки информационных объектов библиотечного фонда позволяет получить информацию о всех книгах по определенной тематике, об авто­рах, абонентах и т.д.

Алгоритм обработки информационных объектов фирмы позволяет получить инфор­мацию об объемах продаж, о прибыли, заказчиках, видах производимой продукции и т.д.

Алгоритмы обработки в том и другом случае преследуют разные цели, обрабатывают разную информацию, реализуются разными способами.

При любой классификации желательно, чтобы соблюдались следующие требования:

  • полнота охвата объектов рассматриваемой области;

  • однозначность реквизитов;

  • возможность включения новых объектов.

В любой стране разработаны и применяются государственные, отраслевые, региональ­ные классификаторы. Например, классифицированы: отрасли промышленности, оборудова­ние, профессии, единицы измерения, статьи затрат и т.д.

Классификатор — систематизированный свод наименований и кодов клас­сификационных группировок.

При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объеди­нением этих двух понятий в одно, названное как признак классификации. Признак класси­фикации имеет также синоним основание деления.

Пример 2.9. В качестве признака классификации выбирается возраст, который состо­ит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет.

Можно в качестве признаков классификации использовать: возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет.

Разработаны три метода классификации объектов: иерархический, фасетный, дескрип-торный. Эти методы различаются разной стратегией применения классификационных при­знаков. Рассмотрим основные идеи этих методов для создания систем классификации.

Иерархическая система классификации

Иерархическая система классификации (рис. 2.3) строится следующим об­разом:

  • исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень;

  • каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень;

  • каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т.д.

Рис. 2.3. Иерархическая система классификации

Учитывая достаточно жесткую процедуру построения структуры классификации, не­обходимо перед началом работы определить ее цель, т.е. какими свойствами должны обла­дать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации.

Запомните! В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.

В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранно­го классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии.

Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.

Достоинства иерархической системы классификации:

  • простота построения;

  • использование независимых- классификационных признаков в различных ветвях иерархической структуры.

Недостатки иерархической системы классификации:

  • жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;

  • невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.

Пример 2.10. Поставлена задача — создать иерархическую систему классификации для информационного объекта "Факультет", которая позволит классифицировать ин­формацию обо всех студентах по следующим классификационным признакам: фа­культет, на котором он учится, возрастной состав студентов, пол студента, для женщин — наличие детей.

Система классификации представлена на рис.2.4 и будет иметь следующие уровни:

0-й уровень. Информационный объект "Факультет";

1-й уровень. Выбирается классификационный признак — название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах.

2-й уровень. Выбирается классификационный признак — возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому факультету выделяют­ся три возрастных подкласса студентов.

3-й уровень. Выбирается классификационный признак — пол. Каждый подкласс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы — мужчин и женщин.

4-й уровень. Выбирается классификационный признак — наличие детей у женщин: есть, нет.

Созданная иерархическая система классификации имеет глубину классификации, рав­ную четырем.

Рис. 2.4. Пример иерархической системы классификации для информационного объекта "Факультет"

Фасетная система классификации

Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасета-м и (facet — рамка). Каждый фасет (Фi) содержит совокупность однородных значений дан­ного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Пример 2.11. Фасет цвет содержит значения: красный, белый, зеленый, черный, желтый.

Фасет специальность содержит названия специальностей.

Фасет образование содержит значения: среднее, среднее специальное, высшее.

Схема построения фасетной системы классификации в виде таблицы отображена на рис. 2.5. Названия столбцов соответствуют выделенным классификационным признакам(фасетам), обозначенным Ф\, Ф2, ..., Ф\, ..., Фп- Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное зна­чение фасета. Например, фасет цвет, обозначенный Ф2, содержит значения: красный, белый, зеленый, черный, желтый.

Рис. 2.5. Фасетная система классификации

Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объ­екта задается конкретная группировка фасетов структурной формулой, в которой отражает­ся их порядок следования:

КS = (Ф12,..., Фi,..., Фn),

где Фit i-й фасет;

п — количество фасетов.

При построении фасетной системы классификации необходимо, чтобы значения, ис­пользуемые в различных фасетах, не повторялись. Фасетную систему легко можно модифи­цировать, внося изменения в конкретные значения любого фасета.

Достоинства фасетной системы классификации:

  • возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;

  • возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.

Пример 2.12. Обратитесь к содержанию примера 2.10, где показано построение иерархической системы классификации. Для сопоставления разработаем фасетную систему классификации.

Сгруппируем и представим в виде таблицы (рис. 2.6) все классификационные признаки по фасетам:

  • фасет название факультета с пятью названиями факультетов;

  • фасет возраст с тремя возрастными группами;

  • фасет пол с двумя градациями;

  • фасет дети с двумя градациями.

Структурную формулу любого класса можно представить в виде:

Ks = (Факультет, Возраст, Пол, Дети)

Присваивая конкретные значения каждому фасету, получим следующие классы:

  • K1 = (Радиотехнический факультет, возраст до 20 лет, мужчина, есть дети);

  • k2= (Коммерческий факультет, возраст от 20 до 30 лет, мужчина, детей нет);

  • К3 = (Математический факультет, возраст до 20 лет, женщина, детей нет) и т.д.

Рис. 2.6. Пример фасетной системы классификации для информационного объекта "Факультет"

Дескрипторная система классификации

Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.

Суть дескрипторного метода классификации заключается в следующем:

  • отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;

  • выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;

  • создается словарь дескрипторов, т. е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Пример 2.13. В качестве объекта классификации рассматривается успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, до­цент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:

  • синонимические, указывающие некоторую совокупность ключевых слов как синонимы;

  • родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;

  • ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.

Пример 2.14. Синонимическая связь: студент — учащийся — обучаемый.

Родо-видовая связь: университет — факультет — кафедра. Ассоциативная связь: студент — экзамен — профессор — аудитория.

СИСТЕМА КОДИРОВАНИЯ

Общие понятия

Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.

Система кодирования — совокупность правил кодового обозначения объектов.

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:

  • длиной — число позиций в коде;

  • структурой — порядок расположения в коде символов, используемых для обозначения классификационного признака.

  • Процедура присвоения объекту кодового обозначения называется кодированием. Можно выделить две группы методов, используемых в системе кодирования (рис.2.7), которые образуют:

  • классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической сис­темы, либо на основе фасетной системы;

  • регистрационную систему кодирования, не требующую предваритель­ной классификации объектов.

Рассмотрим представленную на рис. 2.7 систему кодирования.

Рис. 2.7. Система кодирования, использующая разные методы

Классификационное кодирование

Классификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование.

Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и не­достатками, что и иерархическая система классификации.

Пример 2.15. Проведем кодирование информации, классифицированной с помощью иерархической схемы (см. рис. 2.4). Количество кодовых группировок будет определяться глубиной классификации и равно 4. Прежде чем начать кодирование, необходимо определиться с алфавитом, т.е. какие будут использоваться символы. Для большей наглядности выберем десятичную систему счисления — 10 арабских цифр. Анализ схемы на рис. 2.4 показывает, что длина кода определяется 4 десятичными разрядами, а кодирование группировки на каждом уровне можно делать путем последовательной нумерации слева направо. В общем виде код можно записать как ХХХХ, где X — значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:

1-й (старший) разряд выделен для классификационного признака "название факультета" и имеет следующие значения: 1 — коммерческий; 2 — информационные системы; 3 — для следующего названия факультета и т.д.;

2-й разряд выделен для классификационного признака "возраст" и имеет следующие значения: 1 — до 20 лет; 2 — от 20 до 30 лет; 3 — свыше 30 лет; 3-й разряд выделен для классификационного признака "пол" и имеет следующие зна­чения: 1 — мужчины; 2 — женщины;

4-й разряд выделен для классификационного признака "наличие детей у женщин" и имеет следующие значения: 1 — есть дети; 2 — нет детей, 0 — для мужчин, так как подобной информации не требуется.

Принятая система кодирования позволяет легко расшифровать любой код группировки, например:

1310 — студенты коммерческого факультета, свыше 30 лет, мужчины;

2221 — студенты факультета информационных систем, от 20 до 30 лет, женщины, имеющие детей.

Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в Следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Парал­лельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.

Пример 2.16. Проведем кодирование информации, классифицированной с помощью фасетной схемы (см. рис. 2.6). Количество кодовых группировок определяется количеством фасетов и равно 4. Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4. В отличие от последовательного кодирования для иерархической системы классификации в данном методе не имеет значения порядок кодировки фасетов. В общем виде код можно записать как ХХХХ, где X — значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:

1-й (старший) разряд выделен для фасета "пол" и имеет следующие значения: 1 — мужчины; 2 — женщины;

2-й разряд выделен для фасета "наличие детей у женщин" и имеет следующие значе­ния: 1 — есть дети; 2 — нет детей, 0 — для мужчин, так как подобной информации не требуется;

3-й разряд выделен для фасета "возраст" и имеет следующие значения: 1 — до 20 лет; 2 — от 20 до 30 лет; 3 — свыше 30 лет;

4-й разряд выделен для фасета "название факультета" и имеет следующие значения: 1 — радиотехнический, 2 — машиностроительный, 3 — коммерческий; 4 — инфор­мационные системы; 5 — математический и т.д.

Принятая система кодирования позволяет легко расшифровать любой код группировки, например:

2135 — женщины в возрасте свыше 30 лет, имеющие детей и являющиеся студентами математического факультета;

1021 — мужчины возраста от 20 до 30 лет, являющиеся студентами радиотехнического факультета.

Регистрационное кодирование

Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-по­рядковую систему.

Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определять­ся после предварительного упорядочения объектов, например по алфавиту. Этот метод при­меняется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.

Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производит­ся порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумера­цию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.

Пример 2.17. Все студенты одного факультета разбиваются на учебные группы (в данной терминологии — серии), для которых используется порядковая нумерация. Внутри каждой группы производится упорядочение фамилий студентов по алфавиту и каждому студенту присваивается номер.

КЛАССИФИКАЦИЯ ИНФОРМАЦИИ ПО РАЗНЫМ ПРИЗНАКАМ

Любая классификация всегда относительна. Один и тот же объект может быть классифицирован по разным признакам или критериям. Часто встречаются ситуации, когда в зависимости от условий внешней среды объект может быть отнесен к разным классификационным группировкам. Эти рассуждения особенно актуальны при классификации видов информа­ции без учета ее предметной ориентации, так как она часто может быть использована в раз­ных условиях, разными потребителями, для разных целей.

На рис. 2.8 приведена одна из схем классификации циркулирующей в организации (фирме) информации. В основу классификации положено пять наиболее общих признаков: место возникновения, стадия обработки, способ отображения, стабильность, функция уп­равления.

Рис. 2.8. Классификация информации, циркулирующей в организации

Место возникновения. По этому признаку информацию можно разделить на входную выходную, внутреннюю, внешнюю.

Входная информация — это информация, поступающая в фирму или ее подразделения.

Выходная информация — это информация, поступающая из фирмы в другую фирму, организацию (подразделение).

Одна и та же информация может являться входной для одной фирмы, а для другой, ее вырабатывающей, выходной. По отношению к объекту управления (фирма или ее подразделение: цех, отдел, лаборатория) информация может быть определена как внутренняя, так и внешняя.

Внутренняя информация возникает внутри объекта, внешняя информация — за пределами объекта.

Пример 2.18. Содержание указа правительства об изменении уровня взимаемых налогов для фирмы является, с одной стороны, внешней информацией, с другой стороны — входной. Сведения фирмы в налоговую инспекцию о размере отчислений в госбюджет являются, с одной стороны, выходной информацией, с другой стороны — внешней по отношению к налоговой инспекции.

Стадия обработки. По стадии обработки информация может быть первичной, вторичной, промежуточной, результатной.

Первичная информация — это информация, которая возникает непосредственно в процессе деятельности объекта и регистрируется на начальной стадии.

Вторичная информация — это информация, которая получается в результате обработки первичной информации и может быть промежуточной и результатной.

Промежуточная информация используется в качестве исходных данных для последующих расчетов.

Результатная информация получается в процессе обработки первичной и промежуточной информации и используется для выработки управленческих решений.

Пример 2.19. В художественном цехе, где производится роспись чашек, в конце каждой смены регистрируется общее количество произведенной продукции и количество расписанных чашек каждым работником. Это первичная информация. В конце каждо­го месяца мастер подводит итоги первичной информации. Это будет, с одной сторо­ны, вторичная промежуточная информация, а с другой стороны — результатная. Итоговые данные поступают в бухгалтерию, где производится расчет заработной платы каждого работника в зависимости от его выработки. Полученные расчетные данные — результатная информация.

Способ отображения. По способу отображения информация подразделяется на текстовую и графическую.

Текстовая информация — это совокупность алфавитных, цифровых и специальных символов, с помощью которых представляется информация на физическом носителе (бумага, изображение на экране дисплея).

Графическая информация — это различного рода графики, диаграммы, схемы, рисунки и т.д.

Стабильность. По стабильности информация может быть переменной (текущей) и постоянной (условно-постоянной).

Переменная информация отражает фактические количественные и качественные характеристики производственно-хозяйственной деятельности фирмы. Она может меняться для каждого случая как по назначению, так и по количеству. Например, количество произ­веденной продукции за смену, еженедельные затраты на доставку сырья, количество ис­правных станков и т.п.

Постоянная (условно-постоянная) информация — это неизменная и многократно используемая в течение длительного периода времени информация Постоянная информа­ция может быть справочной, нормативной, плановой:

  • постоянная справочная информация включает описание постоянных свойств объекта в виде устойчивых длительное время признаков. Например, табельный номер служаще­го, профессия работника, номер цеха и т.п.;

  • постоянная нормативная информация содержит местные, отраслевые и общегосударственные нормативы. Например, размер налога на прибыль, стандарт на качество продуктов определенного вида, размер минимальной оплаты труда, тарифная сетка оплаты государственным служащим;

  • постоянная плановая информация содержит многократно используемые в фирме плановые показатели. Например, план выпуска телевизоров, план подготовки специалистов определенной квалификации.

Функция управления. По функциям управления обычно классифицируют экономическую информацию. При этом выделяют следующие группы: плановую, нормативно-справочную, учетную и оперативную (текущую).

Плановая информация — информация о параметрах объекта управления на будущий период. На эту информацию идет ориентация всей деятельности фирмы.

Пример 2.20. Плановой информацией фирмы могут быть такие показатели, как план выпуска продукции, планируемая прибыль от реализации, ожидаемый спрос на продукцию и т.д.

Нормативно-справочная информация содержит различные нормативные и справочные данные. Ее обновление происходит достаточно редко.

Пример 2.21. Нормативно-справочной информацией на предприятии являются:

  • время, предназначенное для изготовления типовой детали (нормы трудоемкости);

  • среднедневная оплата рабочего по разряду;

  • оклад служащего;

  • адрес поставщика или покупателя и т.д.

Учетная информация — это информация, которая характеризует деятельность фирмы за определенный прошлый период времени. На основании этой информации могут быть проведены следующие действия: скорректирована плановая информация, сделан анализ хозяйственной деятельности фирмы, приняты решения по более эффективному управ­лению работами и пр. На практике в качестве учетной информации может выступать информация бухгалтерского учета, статистическая информация и информация оперативного учета.

Пример 2.22. Учетной информацией являются: количество проданной продукции за определенный период времени; среднесуточная загрузка или простой станков и т.п.

Оперативная (текущая) информация — это информация, используемая в оперативном управлении и характеризующая производственные процессы в текущий (дан­ный) период времени. К оперативной информации предъявляются серьезные требования по скорости поступления и обработки, а также по степени ее достоверности. От того, насколь­ко быстро и качественно проводится ее обработка, во многом зависит успех фирмы на рынке.

Пример 2.23. Оперативной информацией являются:

количество изготовленных деталей за час, смену, день;

  • количество проданной продукции за день или определенный час;

  • объем сырья от поставщика на начало рабочего дня и т.д.

Свойства информации

Будучи объектом преобразования и использования, информация характеризуется следующими свойствами:

  • синтаксис – свойство, определяющее способ представления информации на носителе (в сигнале). Так, данная информация представлена на электронном носителе с помощью определенного шрифта. Здесь же можно рассматривать такие параметры представления информации, как стиль и цвет шрифта, его размеры, междустрочный интервал и т.д. Выделение нужных параметров как синтаксических свойств, очевидно, определяется предполагаемым способом преобразования. Например, для плохо видящего человека существенным является размер и цвет шрифта. Если предполагается вводить данный текст в компьютер через сканер, важен формат бумаги;

  • семантика – свойство, определяющее смысл информации как соответствие сигнала реальному миру. Так, семантика сигнала “информатика” заключается в данном ранее определении. Семантика может рассматриваться как некоторое соглашение, известное потребителю информации, о том, что означает каждый сигнал (так называемое правило интерпретации). Например, именно семантику сигналов изучает начинающий автомобилист, штудирующий правила дорожного движения, познавая дорожные знаки (в этом случае сигналами выступают сами знаки). Семантику слов (сигналов) познаёт обучаемый какому-либо иностранному языку. Можно сказать, что смысл  обучения информатике заключается в изучении семантики различных сигналов – суть ключевых понятий этой дисциплины;

  • прагматика – свойство, определяющее влияние информации на поведение потребителя. Так прагматика информации, получаемой читателем настоящего учебного пособия, заключается, по меньшей мере, в успешной сдаче экзамена по информатике. Хочется верить, что этим прагматика данного труда не ограничится, и он послужит для дальнейшего обучения и профессиональной деятельности читателя.

Следует отметить, что различные по синтаксису сигналы могут иметь одинаковую семантику. Например, сигналы “ЭВМ” и “компьютер” означают электронное устройство для преобразования информации. В этом случае обычно говорят о синонимии сигналов. С другой стороны, один сигнал (т.е., информация с одним синтаксическим свойством) может иметь разную прагматику для потребителей и разную семантику. Так, дорожный знак, известный под названием “кирпич” и имеющий вполне определенную семантику (“въезд запрещен”), означает для автомобилиста запрет на въезд, а на пешехода никак не влияет. В то же время, сигнал “ключ” может иметь разную семантику: скрипичный ключ, родниковый ключ, ключ для открытия замка, ключ, используемый в информатике для кодирования сигнала с целью его защиты от несанкционированного доступа (в этом случае говорят об омонимии сигнала). Есть сигналы - антонимы, имеющие противоположную семантику. Например, "холодный" и "горячий", "быстрый" и "медленный" и т.д.

Измерение информации

В информатике, как правило, измерению подвергается информация, представленная дискретным сигналом. При этом различают следующие подходы:

  1. структурный. Измеряет количество информации простым подсчетом  информационных элементов, составляющих сообщение. Применяется для оценки возможностей запоминающих устройств, объемов передаваемых сообщений, инструментов кодирования без учета статистических характеристик их эксплуатации.

  1. статистический. Учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось. Применяется при оценке значимости получаемой информации.

  1. семантический. Учитывает целесообразность и полезность информации. Применяется при оценке эффективности получаемой информации и ее соответствия реальности.

Геометрическая мера

Определяет максимально возможное количество информации в заданных объемах.

Единица измерения – информационный элемент, который может быть разным для разных задач.

Пример 1 : Определение информационной емкости памяти компьютера.

Информационный элемент - минимальная единица хранения – бит.

Более крупные единицы:

8 бит = 1 байт (сокращенно б или Б),

1024 Б = 1 килобайт (сокращенно Кб или К),

1024 К = 1 мегабайт (сокращенно Мб или М),

1024 М = 1 гигабайт (сокращенно Гб или Г).

Тогда, например, объем винчестера – 3 Гб, объем ОП – 32 Мб.

Пример 2. Пусть сообщение   5555 6666 888888 закодировано одним из специальных методов эффективного кодирования – кодирование повторений – и имеет вид: 5(4)6(4)8(6).        

Требуется измерить информацию в исходном и закодированном сообщениях геометрической мерой и оценить эффективность кодирования.

Информационный элемент - символ сообщения.

I(исх.) = L(исх.) = 14 символов;

I(закод.) = L(закод.) = 12 символов,

Эффект кодирования определяется как разница между I(исх.) и I(закод.) и составляет 2 символа.

Очевидно, геометрическая мера не учитывает, какими символами заполнено сообщение.

Комбинаторная мера

Оценивает возможность представления информации при помощи различных комбинаций информационных элементов в заданном объеме.

Пример 1: Пусть, например, есть автомат, формирующий двузначные десятичные целые положительные числа (исходное множество информационных элементов {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}).

Автомат генерирует размещения :

Числа 34 , 43 - из 10 элементов (используются 10 цифр) по 2

с повторениями - 33, 66 из одинаковых цифр.

Можно оценить, сколько различных сообщений (двузначных чисел) может сформировать автомат,

иначе говоря, можно оценить информационную емкость данного устройства: Рп(102) = 102 = 100.

Комбинаторная мера используется для определения возможностей кодирующих систем, которые широко используются в информационной технике.

Пример 2. Определить емкость ASCII-кода, представленного в двоичной или шестнадцатеричной системе счисления.

ASCII-код – это сообщение, которое формируется как размещение с повторениями:

- для двоичного представления – из информационных элементов {0, 1}, сообщение длиной (объемом) 8 символов;

- для шестнадцатеричного представления – из информационных элементов {0, 1, 2, …., А, В, С, …. F}, сообщение длиной (объемом) 2 символа.

Тогда в соответствии с положениями комбинаторики:

I(двоичное) = РП(28) = 28 = 256;

I(шестнадцатеричное) = РП(162) = 162 = 256,

где I(двоичное), I(шестнадцатеричное) – количества информации.

 Таким образом, емкость ASCII-кода для двоичного и шестнадцатеричного представления одинакова и равна 256

Комбинаторика – раздел дискретной математики, изучающий способы формирования подмножеств из элементов исходных множеств: в соответствии с положениями комбинаторики, из конечного счетного множества элементов мощности h можно сформировать следующие простейшие виды комбинаций элементов:

1. сочетания С, когда элементы исходного множества группируются в подмножества одинаковой мощности l такие, что элементы в них различаются составом, а порядок элементов безразличен. Например, пусть исходное множество имеет вид - {a,b,c} (h=3). Можно сформировать следующие подмножества мощности 2 по правилу сочетаний: {a,b}, {a,c},  {b,c}. В соответствии с определением сочетания множества {a,b} и {b,a} являются идентичными и не формируются.

2. перестановки П, когда элементы исходного множества группируются в подмножества одинаковой мощности l (l = h) такие, что элементы в них различаются только порядком. Например, из исходного множества {a,b,c} (h=3) можно сформировать подмножества по правилу перестановок: {a,b,c}, {b,c,a}, {a,c,b}, {b,a,c}, {c,a,b}, {c,b,a}.

3. размещения Р, когда элементы исходного множества группируются в подмножества одинаковой мощности l, такие, что элементы в них различаются и составом, и порядком. Например, из исходного множества {a,b,c} (h=3) можно сформировать следующие подмножества по правилу размещения: {a,b}, {b,a}, {a,c}, {c,a}, {b,c}, {c,b}.

Аддитивная мера

предложена в 1928 году американским ученым Хартли, второе название – мера Хартли.

Хартли впервые ввел специальное обозначение для количества информации – I и предложил следующую логарифмическую зависимость между количеством информации и мощностью исходного алфавита:

I = Llog h,

где I – количество информации, содержащейся в сообщении;

L– длина сообщения;

h – мощность исходного алфавита.

При исходном алфавите {0,1}; L = 1; h = 2 и основании логарифма, равном 2, имеем

I = 1*log22 = 1.

формула даёт аналитическое определение бита (BIT - BInary digiT) по Хартли: это количество информации, которое содержится в двоичной цифре.

Единицей измерения информации в аддитивной мере является бит.

Статистический подход к измерению информации

В 30-х годах ХХ века  американский ученый Клод Шеннон предложил связать количество информации, которое несет в себе некоторое сообщение, с вероятностью получения этого сообщения.

Вероятность p – количественная априорная (т.е. известная до проведения опыта) характеристика одного из исходов (событий) некоторого опыта.

Измеряется в пределах от 0 до 1.

Если заранее известны все исходы опыта, сумма их вероятностей равна 1, а сами исходы составляют полную группу событий.

Если все исходы могут свершиться с одинаковой долей вероятности, они называются равновероятными.

Пусть можно получить n сообщений по результатам некоторого опыта (т.е. у опыта есть n исходов), причем известны вероятности получения каждого сообщения (исхода) - pi. Тогда в соответствии с идеей Шеннона, количество информации I в сообщении i определяется по формуле:

I = -log2 pi,

где pi – вероятность i-го сообщения (исхода).

Пример 1. Определить количество информации, содержащейся в сообщении о результате сдачи экзамена для студента-хорошиста.

Пусть I(j) – количество информации в сообщении о получении оценки j. В соответствии с формулой Шеннона имеем:

I(5) = -log2 0,5 = 1,

I(4) = -log2 0,3 = 1,74,

I(3) = -log2 0,1 = 3,32,

I(2) = -log2 0,1 = 3,32.

Таким образом, количество получаемой с сообщением информации тем больше, чем неожиданнее данное сообщение.

Формула Шеннона позволяет определять также размер двоичного эффективного кода, требуемого для представления того или иного сообщения, имеющего определенную вероятность появления.

Пример 2. Есть 4 сообщения: a, b, c, d с вероятностями, соответственно, р(a) = 0,5; р(b) = 0,25; р(c) = 0,125; р(d) = 0,125. Определить число двоичных разрядов, требуемых для кодирования каждого их четырех сообщений.

В соответствии с формулой Шеннона имеем:

I(a) = -log20,5 = 2=L,

I(b) = -log20,25 = 2=L,

I(c) = -log20,125 = 3=L,

I(d) = -log20,125 = 3=L.

Помимо информационной оценки одного сообщения, Шеннон предложил количественную информационную оценку всех сообщений, которые можно получить по результатам проведения некоторого опыта. Так, среднее количество информации Iср, получаемой со всеми n сообщениями, определяется по формуле:

где pi – вероятность i-го сообщения.

Пример 3. Определить среднее количество информации, получаемое студентом-хорошистом, по всем результатам сдачи экзамена.

В соответствии с приведенной формулой имеем:

Iср = - (0,5*log20,5 + 0,3*log20,3 + 0,1*log20,1 + 0,1*log20,1) = 1,67.

Пример 4. Определить среднее количество информации, получаемое нерадивым студентом, по всем результатам сдачи экзамена.

В соответствии с приведенной формулой имеем:

Iср = - (0,1*log20,1 + 0,2*log20,2 + 0,4*log20,4 + 0,3*log20,3) = 1,73.

Большее количество информации, получаемое во втором случае, объясняется большей непредсказуемостью результатов: в самом деле, у хорошиста два исхода равновероятны.

Пусть у опыта два равновероятных исхода, составляющих полную группу событий, т.е. p1 = p2 = 0,5. Тогда имеем в соответствии с формулой для расчета I ср:

I ср = -(0,5*log20,5 + 0,5*log20,5) = 1.

Эта формула есть аналитическое определение бита по Шеннону: это среднее количество информации, которое содержится в двух равновероятных исходах некоторого опыта, составляющих полную группу событий.

Пример 5: Пусть, например, есть автомат, формирующий двузначные десятичные целые положительные числа (исходное множество информационных элементов {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}).

Автомат генерирует размещения :

Числа 34 , 43 - из 10 элементов (используются 10 цифр) по 2

с повторениями - 33, 66 из одинаковых цифр.

Можно оценить, сколько различных сообщений (двузначных чисел) может сформировать автомат,

иначе говоря, можно оценить информационную емкость данного устройства: Рп(102) = 102 = 100.

Комбинаторная мера используется для определения возможностей кодирующих систем в информационной технике

Кодирование сигнала

Кодирование сигнала – это его представление в определенной форме, удобной или пригодной для последующего использования сигнала. Говоря строже, это правило, описывающее отображение одного набора знаков в другой набор знаков. Тогда отображаемый набор знаков называется исходным алфавитом, а набор знаков, который используется для  отображения, - кодовым алфавитом, или алфавитом для кодирования. При этом кодированию подлежат как отдельные символы исходного алфавита, так и их комбинации. Аналогично для построения кода используются как отдельные символы кодового алфавита, так и их комбинации. Например, дана таблица соответствия между натуральными числами трех систем счисления, аналогичная рассмотренной ранее. Эту таблицу можно рассматривать как некоторое правило, описывающее отображение набора знаков десятичной системы счисления в двоичную и шестнадцатеричную. Тогда исходный алфавит - десятичные цифры от 0 до 9, а кодовые алфавиты - это 0 и 1 для двоичной системы; цифры от 0 до 9 и символы {A, B, C, D, E, F} - для шестнадцатеричной.

Кодовой комбинацией, или, короче, кодом называется совокупность символов кодового алфавита, применяемых для кодирования одного символа (или одной комбинации символов) исходного алфавита. При этом кодовая комбинация может содержать один символ кодового алфавита. Исходным символом называется символ (или комбинация символов) исходного алфавита, которому соответствует кодовая комбинация. Например, поскольку 8 = 10002 и 8 является исходным символом, 1000 - это кодовая комбинация, или код, для числа 8. В то же время 8 - это исходный символ. Совокупность кодовых комбинаций называется кодом. Взаимосвязь символов (или комбинаций символов, если кодируются не отдельные символы) исходного алфавита с их кодовыми комбинациями составляет таблицу соответствия (или таблицу кодов).

Следует отметить, что понятие “код” омонимично: оно может употребляться и в смысле кодовой комбинации, и в приведенном выше смысле. Аналогично, понятие “кодовая комбинация” синонимично понятию “код”.

Обратная процедура получения исходных символов по кодам символов называется декодированием. Очевидно, для выполнения правильного декодирования код должен быть однозначным, т.е. одному исходному символу должен соответствовать точно один код и наоборот.

В зависимости от целей кодирования, различают следующие его виды:

  1. кодирование по образцу - используется всякий раз при вводе информации в компьютер для ее внутреннего представления;

  1. криптографическое кодирование, или шифрование, – используется, когда нужно защитить информацию от несанкционированного доступа;

  1. эффективное, или оптимальное, кодирование – используется для устранения избыточности информации, т.е. снижения ее объема, например, в архиваторах;

  1. помехозащитное, или помехоустойчивое, кодирование – используется для обеспечения заданной достоверности в случае, когда на сигнал накладывается помеха, например, при передаче информации по каналам связи.

Таким образом, количество получаемой с сообщением информации тем больше, чем неожиданнее данное сообщение. Этот тезис использован при эффективном кодировании кодами переменной длины (т.е. имеющими разную геометрическую меру): исходные символы, имеющие большую частоту (или вероятность), имеют код меньшей длины, т.е. несут меньше информации в геометрической мере, и наоборот.

Формула Шеннона позволяет определять также размер двоичного эффективного кода, требуемого для представления того или иного сообщения, имеющего определенную вероятность появления.

Пример 6. Есть 4 сообщения: a, b, c, d с вероятностями, соответственно, р(a) = 0,5; р(b) = 0,25; р(c) = 0,125; р(d) = 0,125. Определить число двоичных разрядов, требуемых для кодирования каждого их четырех сообщений.

В соответствии с формулой Шеннона имеем:

I(a) = -log20,5 = 2,

I(b) = -log20,25 = 2,

I(c) = -log20,125 = 3,

I(d) = -log20,125 = 3.

Пример 7. Определить размеры кодовых комбинаций для эффективного кодирования сообщений из примера 6.

Для вещественных значений объемов информации (что произошло в примере 1) в целях определения требуемого числа двоичных разрядов полученные значения округляются до целых по традиционным правилам арифметики. Тогда имеем требуемое число двоичных разрядов:

для сообщения об оценке 5 – 1,

для сообщения об оценке 4 – 2,

для сообщения об оценке 3 – 3,

для сообщения об оценке 2 – 3.

Проверим результат, построив эффективный код для сообщений об исходах экзамена методом Шеннона-Фано. Исходные данные – из примера 1. Имеем:

Исходные символы

Вероятности

Коды

Сообщение об оценке 5

0,5

1

Сообщение об оценке 4

0,25

01

Сообщение об оценке 3

0,125

001

Сообщение об оценке 2

0,125

000

Таким образом, задача решена верно.

Помимо информационной оценки одного сообщения, Шеннон предложил количественную информационную оценку всех сообщений, которые можно получить по результатам проведения некоторого опыта. Так, среднее количество информации Iср, получаемой со всеми n сообщениями, определяется по формуле:

где pi – вероятность i-го сообщения.

Пример 8. Определить среднее количество информации, получаемое студентом-хорошистом, по всем результатам сдачи экзамена.

В соответствии с приведенной формулой имеем:

Iср = - (0,5*log20,5 + 0,3*log20,3 + 0,1*log20,1 + 0,1*log20,1) = 1,67.

Пример 9. Определить среднее количество информации, получаемое нерадивым студентом, по всем результатам сдачи экзамена.

В соответствии с приведенной формулой имеем:

Iср = - (0,1*log20,1 + 0,2*log20,2 + 0,4*log20,4 + 0,3*log20,3) = 1,73.

Большее количество информации, получаемое во втором случае, объясняется большей непредсказуемостью результатов: в самом деле, у хорошиста два исхода равновероятны.

Пусть у опыта два равновероятных исхода, составляющих полную группу событий, т.е. p1 = p2 = 0,5. Тогда имеем в соответствии с формулой для расчета I ср:

I ср = -(0,5*log20,5 + 0,5*log20,5) = 1.

Эта формула есть аналитическое определение бита по Шеннону: это среднее количество информации, которое содержится в двух равновероятных исходах некоторого опыта, составляющих полную группу событий.

Единица измерения информации при статистическом подходе – бит.

На практике часто вместо вероятностей используются частоты исходов. Это возможно, если опыты проводились ранее и существует определенная статистика их исходов. Так, строго говоря, в построении эффективных кодов участвуют не частоты символов, а их вероятности.

Семантический подход к измерению информации

Учитывает целесообразность и полезность информации. Применяется при оценке эффективности получаемой информации и ее соответствия реальности.

В рамках этого подхода рассмотрим такие меры, как целесообразность, полезность (учитывают прагматику информации) и истинность информации (учитывает семантику информации).

Целесообразность информации

Количество I получаемой вместе с сообщением информации с позиций ее целесообразности определяется по формуле:

где p1, p2 – вероятности достижения цели после и до получения сообщения, соответственно.

Пример 1. Пусть вероятность p2 сдачи экзамена по информатике до получения сообщения (подсказки от соседа) оценивается студентом со значением 0,2. После того, как ему удалось получить подсказку, вероятность сдачи увеличилась: p1 = 0,8. Определить количество информации, содержащейся в подсказке, с точки зрения ее целесообразности.

В соответствии с приведенной формулой  имеем: I = log2(0,8/0,2) = log24 = 2.

Пример 2. Пусть положение студента до получения подсказки оценивается аналогично предыдущему примеру. После получения подсказки, вопреки ожиданиям, вероятность сдачи еще уменьшилась, поскольку  подсказка содержала неверную информацию: p1 = 0,1. Определить количество информации, содержащейся в подсказке, с точки зрения ее целесообразности.

В соответствии с приведенной формулой имеем: I = log2(0,1/0,2) = log20,5 = -1.

Таким образом, полученная информация является дезинформацией, поскольку имеет отрицательный знак при измерении.

Полезность информации

Количество усваиваемой потребителем информации Iусв тесно связано с теми знаниями, которые имеет потребитель к моменту получения информации – с тезаурусом (ТЗ) потребителя. Этим определяется полезность информации. В самом деле, для усвоения тех знаний, которые получаются в  ВУЗе, требуется среднее образование - иначе студент ничего не поймет. С другой стороны, любая учебная дисциплина ориентируется на знания, которые учащийся должен приобрести в предыдущих курсах. Этим объясняется последовательность учебных дисциплин по годам обучения.

Зависимость усваиваемой потребителем информации от его тезауруса выражается графически следующей кривой:

Как видно из графика, при тезаурусе, равном нулю и максимальному значению в точке max, информация не усваивается: в первом случае, потребителю непонятна принимаемая информация, во втором – она ему уже известна. Максимально усваивается информация (т.е. она наиболее полезна) в точке opt, когда потребитель обладает достаточным (но не максимально возможным) тезаурусом для понимания получаемой информации. При значении тезауруса i-го потребителя ТЗi количество усваиваемой им информации определяется как Iусв = f(ТЗi). Сам тезаурус ТЗi может быть практически определен как результат  интеллектуального тестирования, которое проводится, например, в некоторых западных странах. При таком тестировании человеку выставляется некоторый балл, который и может расцениваться как его ТЗi.

Истинность информации

Эта мера оценивает информацию с позиций ее соответствия отображаемому источнику информации, т.е. реальному миру.

Пусть r(mess) – функция, оценивающая истинность сообщения mess как соответствие его реальному положению вещей: 0 ≤ r(mess) ≤ 1, причем при r(mess) = 1 сообщение истинно, а при r(mess) = 0 сообщение ложно.

Например, r(«данное пособие посвящено информатике») = 1, r(«данное пособие имеет объем 5 страниц») = 0.

Оценить истинность сложного сообщения  можно, разбив его на простые. Например, сообщение mess: 

«данное пособие посвящено информатике и имеет объем 5 страниц»        

можно представить как два простых сообщения mess1 и mess2:

mess1 - «данное пособие посвящено информатике»        ,

mess2 -  «данное пособие имеет объем 5 страниц».        

Тогда можно предложить рассчитывать истинность сложного сообщения как среднее арифметическое значение истинностей сообщений, его составляющих (что называют - «истинно лишь наполовину»). В таком случае имеем:

r(mess) = Ѕ (r(mess1) + r(mess2)) = Ѕ (1 + 0) = 0,5.

Качество информации

Качество информации является одним из важнейших параметров для потребителя информации. Оно определяется следующими характеристиками:

  1. репрезентативность – правильность отбора информации в целях адекватного отражения источника информации. Например, в целях большей репрезентативности данных о себе абитуриенты стремятся представить в приемную комиссию как можно больше свидетельств, дипломов, удостоверений и другой информации, подтверждающей их высокий уровень подготовки, что учитывается при зачислении в ВУЗ;

  1. содержательность – семантическая емкость информации. Рассчитывается как отношение количества семантической информации к ее количеству в геометрической мере. Это характеристика сигнала, про который говорят, что «мыслям в нем тесно, а словам просторно». В целях увеличения содержательности сигнала, например, используют для характеристики успеваемости абитуриента не полный перечень его аттестационных оценок, а средний балл по аттестату;

  1. достаточность  (полнота) – минимальный, но достаточный состав данных для достижения целей, которые преследует потребитель информации. Эта характеристика похожа на репрезентативность, однако разница состоит в том, что в данном случае учитывается минимальный состав информации, который не мешает принятию решения. Например, абитуриент – золотой медалист может не представлять в приемную комиссию свой аттестат: диплом, подтверждающий получение золотой медали, свидетельствует о полном наборе отличных оценок в аттестате;

  1. доступность – простота (или возможность) выполнения процедур получения и преобразования информации. Эта характеристика применима не ко всей  информации, а лишь к той, которая не является закрытой. Для обеспечения доступности бумажных документов используются различные средства оргтехники для их хранения, а для облегчения их обработки используются средства вычислительной техники;

  1. актуальность – зависит от динамики изменения характеристик информации и определяется сохранением ценности информации для пользователя в момент ее использования. Очевидно, что касается информации, которая используется при зачислении, она актуальна, так как само обучение уже закончилось, и его результаты изменены быть не могут, а, значит, остаются актуальными;

  1. своевременность – поступление не позже заранее назначенного срока. Этот параметр также очевиден недавним абитуриентам: опоздание с представлением позитивной информации о себе при поступлении может быть чревато незачислением;

  1. точность – степень близости информации к реальному состоянию источника информации. Например, неточной информацией является медицинская справка, в которой отсутствуют данные о перенесенных абитуриентом заболеваниях;

  1. достоверность – свойство информации отражать источник информации с необходимой точностью. Эта характеристика вторична относительно точности. В предыдущем примере получаемая информация недостоверна;

  1. устойчивость – способность информации реагировать на изменения исходных данных без нарушения необходимой точности.

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

  1. В чем различие информации и данных?

  2. Что такое адекватность и в каких формах она проявляется?

  3. Какие существуют меры информации и когда ими надо пользоваться?

  4. Расскажите о синтаксической, семантической, прагматической мерах информации.

  5. Какие существуют показатели качества информации?

  1. Что такое система классификации информации?

  1. Основные идеи иерархического, фасетного, дескрипторного методов классификации. Примеры.

  2. Что такое система кодирования информации? Классификация методов.

  3. Что такое классификационное, регистрационное кодирование? Примеры.

  4. Сопоставьте назначения системы классификации и системы кодирования.

  5. Расскажите о классификации информации, циркулирующей в организации.