Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Автоматизация индексирования документов.docx
Скачиваний:
2
Добавлен:
13.09.2019
Размер:
23.8 Кб
Скачать

Автоматизация индексирования документов

Важным в практическом плане аспектом информационно-поисковых систем являются технологии, принципы и механизмы индексирования документов применительно к той или иной классификационной схеме.

Развитие теории информационного поиска документов, создание первых механизированных информационно-поисковых систем поначалу не предполагали какой-либо автоматизации (механизации) индексирования документов. Индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области ИПС, которые могли осуществлять многоаспектный и глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. Такой подход обусловливал высокие накладные расходы на создание и ведение документальных информационно-поисковых систем, так как требовал наличия в организационном штате высококвалифицированных специалистов-индексаторов. Кроме того, в процесс индексирования при этом вносился человеческий фактор (субъективность поисковых образов одного документа, проиндексированного разными специалистами и т. п.).

С применением и все более широким использованием вычислительной техники в информационно-поисковых документальных системах эти подходы трансформировались в задачи и технологии автоматического, т.е. без участия специалистов, индексирования документов.

Сформировалось два, хотя и близких, но различных по содержанию подхода автоматическому индексированию. Первый подход основан на использовании словаря ключевых слов (терминов) и применяется в системах на основе информационно-поисковых тезаурусов. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа каждого ключевого термина. На этой основе строится и поддерживается индекс системы, собственно и реализующий поисковое пространство документов.

Применяется два типа образования индекса - прямой и инвертированный.

  • Прямой тип индекса строится по схеме «Документ-термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью NxM (N - количество документов, М -количество ключевых терминов). Строки этой матрицы представляют поисковые образы документов.

  • Инвертированный тип индекса строится по обратной схеме - «Термин -документы». Поисковое пространство соответственно представлено аналогичной матрицей только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

На основе автоматического индексирования документов по ключевым терминам могут решаться также и задачи автоматической классификации документов, т. е. автоматического отнесения документов к тем или иным классификационным рубрикам. Такие задачи особенно актуализировались в связи с интенсивным развитием в 90-х годах глобальных информационных сетей, появлением «электронной» периодики, книг и огромных массивов прочей неструктурированной текстовой информации в компьютерной форме. Автоматическое распознавание в больших объемах текстовой информации документов по определенной тематике позволяет существенно снизить затраты на предварительный отбор информации из внешних источников для пополнения базы документов ИПС по соответствующей предметной области. Принцип решения таких задач аналогичен решению задач информационного оповещения - razgovorodele.ru. Для конкретного класса документов (рубрики) строится поисковый образ, который в системах на основе индексирования по ключевым терминам может быть представлен набором определенных терминов или их сочетаний. Поисковые образы документов из внешних источников сравниваются по определенному критерию с поисковым образом pyбpики, и на этой основе принимается решение о внесении документов в базу, т. е. об отнесении содержания документа к предметной области ИПС.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования «на учет», т. е. в индекс заносится информация обо всех словах текста документа (отсюда, как уже отмечалось, и название «полнотекстовые»).