Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Томский Государственный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лысый 19-26.doc

Скачиваний:

Добавлен:

18.04.2019

Размер:

75.26 Кб

Скачать

☆

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

23.Словари дескрипторных ипя, их состав и структура.

Нормативный словарь дескрипторов и ключевых слов с зафиксированными парадигматическими отношениями, предназначенный для координатного индексирования документов и запросов, называется информационно-поисковым тезаурусом (ИПТ),

Основными целями разработки традиционных ИПТ являются следующие:

обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;
обеспечение последовательного использования единиц индексирования;
описание отношений между терминами;
использование как поискового средства при поиске документов.

Разработка ИПТ включает следующие этапы:

— определение тематического охвата ИПТ;

— сбор массива лексических единиц;

— формирование словника;

— построение словарных статей и указателей;

— оформление ИПТ;

— экспертиза и регистрация ИПТ.

Тематический охват ИПТ определяется на основе анализа информационных потребностей абонентов, обслуживаемых соответствующей информационной службой.

Словник тезауруса формируется на основе выделения лексических единиц в массиве документов или запросов того фонда, для которого разрабатывается ИПТ.

Лексические единицы в ИПТ делятся на дескрипторы и аскрипторы.

Дескриптор — лексическая единица ИПТ, предназначенная для использования в поисковых образах документов (запросов).

Аскриптор (недескриптор) — лексическая единица ИПТ, которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.

Проблема выбора словосочетаний для включения в ИПТ является одной из самых трудных, так как родственные по тематическому охвату тезаурусы имеют иногда существенные расхождения в связи с разным подходом к выделению словосочетаний. В стандарте формулируются правила выделения словосочетаний, включаемых в тезаурус.

Основными типами отношений, обычно отражаемых в ИПТ, являются следующие:

род — вид;
часть — целое;
причина — следствие;
сырье — продукт;
административная иерархия;
процесс — объект;
функциональное сходство;
процесс — субъект;
свойство — носитель свойства;
антонимия.

24.Системы индексирования, понятие качества индексирования, типология. Примеры ис основанных на индексировании.

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ.

Рассмотрим классификацию систем индексирования.

1.По степени автоматизации процесса индексирования выделяют

системы:

ручного индексирования;
автоматического индексирования;
автоматизированного индексирования.

2.По степени контролируемости различают системы:

без словаря;
с жестким словарем;
со свободным словарем.

3.По характеру алгоритма отбора слов текста выделяют системы:

с последовательным просмотром текста (отбираются все полнозначные слова);
с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):
со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4.По характеру лексикографического контроля различают системы:

без лексикографического контроля;
с полным контролем;
с промежуточным контролем.

Лексикографический контроль предусматривает: устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними; нормализацию слов на основе морфологических нормативных словарей.

5.По характеру морфологического анализа слов различают системы:

с использованием морфологических словарей;
с использованием основных лексических словарей;
с использованием морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для подберутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме — «термин-документы». Поисковое пространство соответственно предетав-лено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в ЭТОМ случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Качество определяется:

1.Полнотой индексирования. Характеризует степень раскрытия содержания документа средствами ИПЯ. Определяется отношением количества ключевых слов, включенных в ПОД, к общему числу ключевых слов в документе.

2.Точностью индексирования. Характеризует степень содержания документа в ПОД. Определяется отношением количества КС, включенных в ПОД и соответствующих документу, к общему числу КС, включенных в ПОД.

3.Аспектностью. Отношение количества отраженных в ПОД аспектов к общему количеству аспектов, рассматриваемых в документе.

Чем полнее, точнее и многоаспектнее раскрывается содержание документа, тем эффективнее информационный поиск.

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.09.201939.8 Кб4Логика.docx
#
30.05.2015931.03 Кб121Логистика.docx
#
30.05.2015645.63 Кб73Лонь "Где ты учишься и как лучше учиться".doc
#
30.05.20152.71 Mб144Лонь "ПО".2005 (ЧИТАТЬ С ЗАКОНАМИ).doc
#
30.05.20152.7 Mб380Лонь-изд-4-е_2011.pdf
#
18.04.201975.26 Кб1Лысый 19-26.doc
#
19.11.2019514.56 Кб8Лычагина бух.1часть.doc
#
30.05.20151.35 Mб34Магика Маат.pdf
#
30.05.2015897.29 Кб17Магистер.диссертация. 2013. Рекомендации.pdf
#
30.05.201526.48 Mб89Магистерская диссертация.docx
#
27.08.20192.79 Mб3Майбурд Введение в историю экономической мысли.doc