Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лысый 19-26.doc
Скачиваний:
1
Добавлен:
18.04.2019
Размер:
75.26 Кб
Скачать

23.Словари дескрипторных ипя, их состав и структура.

Нормативный словарь дескрипторов и ключевых слов с зафиксированными парадигматическими отношениями, предназначенный для координатного индексирования до­кументов и запросов, называется информационно-поиско­вым тезаурусом (ИПТ),

Основными целями разработки традиционных ИПТ являются следующие:

  • обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;

  • обеспечение последовательного использования единиц индексирования;

  • описание отношений между терминами;

  • использование как поискового средства при поиске документов.

Разработка ИПТ включает следующие этапы:

— определение тематического охвата ИПТ;

— сбор массива лексических единиц;

— формирование словника;

— построение словарных статей и указателей;

— оформление ИПТ;

— экспертиза и регистрация ИПТ.

Тематический охват ИПТ определяется на основе анализа информационных потребностей абонентов, об­служиваемых соответствующей информационной служ­бой.

Словник тезауруса формируется на основе выделе­ния лексических единиц в массиве документов или запро­сов того фонда, для которого разрабатывается ИПТ.

Лексические единицы в ИПТ делятся на дескрипторы и аскрипторы.

Дескриптор — лексическая единица ИПТ, предназна­ченная для использования в поисковых образах докумен­тов (запросов).

Аскриптор (недескриптор) — лексическая единица ИПТ, которая в поисковых образах документов (запро­сов) подлежит замене на дескриптор при поиске или об­работке информации.

Проблема выбора словосочетаний для включения в ИПТ является одной из самых трудных, так как родст­венные по тематическому охвату тезаурусы имеют иног­да существенные расхождения в связи с разным подхо­дом к выделению словосочетаний. В стандарте формули­руются правила выделения словосочетаний, включаемых в тезаурус.

Основными типами отношений, обычно отражаемых в ИПТ, являются следующие:

  • род — вид;

  • часть — целое;

  • причина — следствие;

  • сырье — продукт;

  • административная иерархия;

  • процесс — объект;

  • функциональное сходство;

  • процесс — субъект;

  • свойство — носитель свойства;

  • антонимия.

24.Системы индексирования, понятие качества индексирования, типология. Примеры ис основанных на индексировании.

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ.

Рассмотрим классификацию систем индексирования.

1.По степени автоматизации процесса индексирования выделяют

системы:

  • ручного индексирования;

  • автоматического индексирования;

  • автоматизированного индексирования.

2.По степени контролируемости различают системы:

  • без словаря;

  • с жестким словарем;

  • со свободным словарем.

3.По характеру алгоритма отбора слов текста выделяют системы:

  • с последовательным просмотром текста (отбираются все полнозначные слова);

  • с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):

  • со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4.По характеру лексикографического контроля различают системы:

  • без лексикографического контроля;

  • с полным контролем;

  • с промежуточным контролем.

Лексикографический контроль предусматривает: устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними; нормализацию слов на основе морфологических нормативных словарей.

5.По характеру морфологического анализа слов различают системы:

  • с использованием морфологических словарей;

  • с использованием основных лексических словарей;

  • с использованием морфологического анализа с усечением слов.

  • Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для подберутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме — «термин-документы». Поисковое пространство соответственно предетав-лено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в ЭТОМ случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Качество определяется:

1.Полнотой индексирования. Характеризует степень раскрытия содержания документа средствами ИПЯ. Определяется отношением количества ключевых слов, включенных в ПОД, к общему числу ключевых слов в документе.

2.Точностью индексирования. Характеризует степень содержания документа в ПОД. Определяется отношением количества КС, включенных в ПОД и соответствующих документу, к общему числу КС, включенных в ПОД.

3.Аспектностью. Отношение количества отраженных в ПОД аспектов к общему количеству аспектов, рассматриваемых в документе.

Чем полнее, точнее и многоаспектнее раскрывается содержание документа, тем эффективнее информационный поиск.