- •19. Назначение и состав лск. Характеристика основных составляющих лск.
- •20. Предкоординированные и посткоординированные ипя
- •21.Метод координатного индексирования и поиска.
- •22.Дескрипторные ипя, их состав и структура.
- •23.Словари дескрипторных ипя, их состав и структура.
- •24.Системы индексирования, понятие качества индексирования, типология. Примеры ис основанных на индексировании.
- •25. Морфологический анализ и нормализация понятий при индексировании.
- •26.Сущность процесса кодирования и системы кодирования.
23.Словари дескрипторных ипя, их состав и структура.
Нормативный словарь дескрипторов и ключевых слов с зафиксированными парадигматическими отношениями, предназначенный для координатного индексирования документов и запросов, называется информационно-поисковым тезаурусом (ИПТ),
Основными целями разработки традиционных ИПТ являются следующие:
обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;
обеспечение последовательного использования единиц индексирования;
описание отношений между терминами;
использование как поискового средства при поиске документов.
Разработка ИПТ включает следующие этапы:
— определение тематического охвата ИПТ;
— сбор массива лексических единиц;
— формирование словника;
— построение словарных статей и указателей;
— оформление ИПТ;
— экспертиза и регистрация ИПТ.
Тематический охват ИПТ определяется на основе анализа информационных потребностей абонентов, обслуживаемых соответствующей информационной службой.
Словник тезауруса формируется на основе выделения лексических единиц в массиве документов или запросов того фонда, для которого разрабатывается ИПТ.
Лексические единицы в ИПТ делятся на дескрипторы и аскрипторы.
Дескриптор — лексическая единица ИПТ, предназначенная для использования в поисковых образах документов (запросов).
Аскриптор (недескриптор) — лексическая единица ИПТ, которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.
Проблема выбора словосочетаний для включения в ИПТ является одной из самых трудных, так как родственные по тематическому охвату тезаурусы имеют иногда существенные расхождения в связи с разным подходом к выделению словосочетаний. В стандарте формулируются правила выделения словосочетаний, включаемых в тезаурус.
Основными типами отношений, обычно отражаемых в ИПТ, являются следующие:
род — вид;
часть — целое;
причина — следствие;
сырье — продукт;
административная иерархия;
процесс — объект;
функциональное сходство;
процесс — субъект;
свойство — носитель свойства;
антонимия.
24.Системы индексирования, понятие качества индексирования, типология. Примеры ис основанных на индексировании.
Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ.
Рассмотрим классификацию систем индексирования.
1.По степени автоматизации процесса индексирования выделяют
системы:
ручного индексирования;
автоматического индексирования;
автоматизированного индексирования.
2.По степени контролируемости различают системы:
без словаря;
с жестким словарем;
со свободным словарем.
3.По характеру алгоритма отбора слов текста выделяют системы:
с последовательным просмотром текста (отбираются все полнозначные слова);
с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):
со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).
4.По характеру лексикографического контроля различают системы:
без лексикографического контроля;
с полным контролем;
с промежуточным контролем.
Лексикографический контроль предусматривает: устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними; нормализацию слов на основе морфологических нормативных словарей.
5.По характеру морфологического анализа слов различают системы:
с использованием морфологических словарей;
с использованием основных лексических словарей;
с использованием морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.
Процесс полусвободного индексирования аналогичен вышеописанному, но слова для подберутся только из словаря.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.
Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.
Инвертированный тип индекса строится по обратной схеме — «термин-документы». Поисковое пространство соответственно предетав-лено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в ЭТОМ случае являются столбцы матрицы.
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).
Качество определяется:
1.Полнотой индексирования. Характеризует степень раскрытия содержания документа средствами ИПЯ. Определяется отношением количества ключевых слов, включенных в ПОД, к общему числу ключевых слов в документе.
2.Точностью индексирования. Характеризует степень содержания документа в ПОД. Определяется отношением количества КС, включенных в ПОД и соответствующих документу, к общему числу КС, включенных в ПОД.
3.Аспектностью. Отношение количества отраженных в ПОД аспектов к общему количеству аспектов, рассматриваемых в документе.
Чем полнее, точнее и многоаспектнее раскрывается содержание документа, тем эффективнее информационный поиск.