Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпоры по информатике.doc
Скачиваний:
6
Добавлен:
23.09.2019
Размер:
728.58 Кб
Скачать

35. Системы классификации и кодирования информации

1

Процесс классифицирования представляет собой процесс распределения объектов классификации в соответствии с выбранной системой классификации.

Классификация – упорядочение некоторого множества объектов (материалов, изделий, балансовых счетов, видов операций и т.д.) в соответствии с установленными признаками их сходства и различия. Признак, позволяющий распределять множество объектов на подмножества, называют основанием классификации. Процесс классифицирования представляет собой процесс распределения объектов классификации в соответствии с выбранной системой классификации.

Необходимость классификации связана:

С выявлением общих свойств информационного объекта;

Разработкой правил и процедур обработки информации:

Сокращением объема и времени поиска необходимой информации:

Упрощением обработки информации.

Система классификации – совокупность правил распределения объектов множества на основании классификационных признаков и зависимости внутри признаков.

При проектировании ОИ к системам классификации объектов предъявляется ряд требований:

Полнота охвата объектов рассматриваемой области;

Однозначность реквизитов;

Возможность включения новых объектов.

2

Каждая система классификации имеет такие основные характеристики, как гибкость, емкость, глубина и заполненность (таблица 1.1).

В настоящее время известны и наиболее применяемы иерархическая и фасетная системы классификации объектов.

Кодирование – это процесс присвоения условных обозначений объектам классификации (материалам, изделиям, видам операций, счетам и т.д.) и классификационным группировкам. Цель кодирования: представление информации в более компактной и удобной для использования в ИС форме; подготовка информации к обработке в системе и передаче ее по каналам связи; упрощение логической обработки информации с использованием специальных методов; установление единообразия представления всех признаков.

Уникальное условное обозначение, присвоенное конкретному объекту (например, счету), называется кодом. Код может состоять из одного знака или системы знаков, образованной по определенным правилам. В качестве знаков могут выступать цифры, буквы или буквенно-цифровые символы. Однако чаще используются только цифры.

Код характеризуется длиной (числом позиций в коде), структурой (порядком расположения символов в коде) и емкостью (максимально допустимым числом элементов кода). Совокупность правил, по которым строится кодовое обозначение объекта, называется системой кодирования.

При кодировании элементов экономических объектов используются порядковая, серийная, позиционная (поразрядная), повторения и комбинированная системы кодирования, которые сгруппированы в два класса - классификационные и регистрационные (рис. 2.1).

36. Система индексирования. Понятия о процедуре индексирования.

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ.

Рассмотрим классификацию систем индексирования.

1. Но степени автоматизации процесса индексирования выделяют

системы:

• ручного индексирования;

• автоматического индексирования;

• автоматизированного индексирования.

2. По степени контролируемости различают системы:

• без словаря;

• с жестким словарем;

• со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

• с последовательным просмотром текста (отбираются все полнозначные слова);

• с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):

• со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

• без лексикографического контроля;

• с полным контролем;

• с промежуточным контролем.

Лексикографический контроль предусматривает:

• устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

• нормализацию слов на основе морфологических нормативных словарей.

5. По характеру морфологического анализа слов различают системы:

• с использованием морфологических словарей;

• с использованием основных лексических словарей;

• с использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для подберутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме — «термин-документы». Поисковое пространство соответственно предетав-лено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в ЭТОМ случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).