- •1. Понятие информации и знания. Мера информации.
- •7. Гипертекстовые технологии организации и поиска данных: понятие, сущность, область применения.
- •8. Форматы данных.
- •9. Форматы графических файлов
- •14. Сущность электронного правительства.
- •15. Понятие информационного пространства. Цели формирования единого информационного пространства России.
- •16. Классификация информационных технологий управления.
- •17. Информационные технологии автоматизации офисной деятельности.
- •18. Информационные ресурсы (ир) России. Проблемы управления ир.
- •19. Классификация информационных ресурсов. Уровни управления информационными ресурсами.
- •20. Определение информационной системы (ис).
- •21. Состав и структура информационной системы.
- •22. Информационное обеспечение ис.
- •23. Системный подход к изучению сложных экономических систем.
- •24. Основные задачи системного анализа.
- •25. Методы системного анализа.
- •35. Системы классификации и кодирования информации
- •36. Система индексирования. Понятия о процедуре индексирования.
- •37. Типы систем индексирования.
- •38. Информационно-поисковые языки. Классификация ипя.
- •39. Корпоративные информационные системы (кис).
- •40. Корпоративные системы класса erp
- •41. Корпоративные системы класса есм
- •42. Корпоративные системы класса врм
- •43. Front Office и Back Office – системы (общие сведения).
- •44. Документационное обеспечение управления.
- •45. Виды документации в управлении.
- •46. Электронный документооборот в управлении.
- •47. Понятие бизнес-процесса?
- •3.Реляционная модель данных.
- •59. Информационная безопасность.
- •60. Основные характеристики векторной и растровой графики
35. Системы классификации и кодирования информации
1
Процесс классифицирования представляет собой процесс распределения объектов классификации в соответствии с выбранной системой классификации.
Классификация – упорядочение некоторого множества объектов (материалов, изделий, балансовых счетов, видов операций и т.д.) в соответствии с установленными признаками их сходства и различия. Признак, позволяющий распределять множество объектов на подмножества, называют основанием классификации. Процесс классифицирования представляет собой процесс распределения объектов классификации в соответствии с выбранной системой классификации.
Необходимость классификации связана:
С выявлением общих свойств информационного объекта;
Разработкой правил и процедур обработки информации:
Сокращением объема и времени поиска необходимой информации:
Упрощением обработки информации.
Система классификации – совокупность правил распределения объектов множества на основании классификационных признаков и зависимости внутри признаков.
При проектировании ОИ к системам классификации объектов предъявляется ряд требований:
Полнота охвата объектов рассматриваемой области;
Однозначность реквизитов;
Возможность включения новых объектов.
2
Каждая система классификации имеет такие основные характеристики, как гибкость, емкость, глубина и заполненность (таблица 1.1).
В настоящее время известны и наиболее применяемы иерархическая и фасетная системы классификации объектов.
Кодирование – это процесс присвоения условных обозначений объектам классификации (материалам, изделиям, видам операций, счетам и т.д.) и классификационным группировкам. Цель кодирования: представление информации в более компактной и удобной для использования в ИС форме; подготовка информации к обработке в системе и передаче ее по каналам связи; упрощение логической обработки информации с использованием специальных методов; установление единообразия представления всех признаков.
Уникальное условное обозначение, присвоенное конкретному объекту (например, счету), называется кодом. Код может состоять из одного знака или системы знаков, образованной по определенным правилам. В качестве знаков могут выступать цифры, буквы или буквенно-цифровые символы. Однако чаще используются только цифры.
Код характеризуется длиной (числом позиций в коде), структурой (порядком расположения символов в коде) и емкостью (максимально допустимым числом элементов кода). Совокупность правил, по которым строится кодовое обозначение объекта, называется системой кодирования.
При кодировании элементов экономических объектов используются порядковая, серийная, позиционная (поразрядная), повторения и комбинированная системы кодирования, которые сгруппированы в два класса - классификационные и регистрационные (рис. 2.1).
36. Система индексирования. Понятия о процедуре индексирования.
Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ.
Рассмотрим классификацию систем индексирования.
1. Но степени автоматизации процесса индексирования выделяют
системы:
• ручного индексирования;
• автоматического индексирования;
• автоматизированного индексирования.
2. По степени контролируемости различают системы:
• без словаря;
• с жестким словарем;
• со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
• с последовательным просмотром текста (отбираются все полнозначные слова);
• с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):
• со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).
4. По характеру лексикографического контроля различают системы:
• без лексикографического контроля;
• с полным контролем;
• с промежуточным контролем.
Лексикографический контроль предусматривает:
• устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
• нормализацию слов на основе морфологических нормативных словарей.
5. По характеру морфологического анализа слов различают системы:
• с использованием морфологических словарей;
• с использованием основных лексических словарей;
• с использованием морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.
Процесс полусвободного индексирования аналогичен вышеописанному, но слова для подберутся только из словаря.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.
Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.
Инвертированный тип индекса строится по обратной схеме — «термин-документы». Поисковое пространство соответственно предетав-лено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в ЭТОМ случае являются столбцы матрицы.
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).