21.Метод координатного индексирования и поиска.

Индексирование документа состоит из следующих этапов: определение главной его темы или предмета; выражение главной темы или пердмета на ИПЯ системы, т.е. формирование ПОД. В качестве ПОД могут выступать предметные заголовки, индексы любой классификации (УДК, например) или ключевые слова (дискрипторы).

При координатном индексировании в ПОД может включаться любое количество ключевых слов, что способствует сокращению потерь информации, обеспечивает большую гибкость и увеличение совпадений терминов при поиске.

Два метода координатного индексирования:

1. С контролем лексики входных документов по словарю (тезаурусу).

Выписанные из текста ключевые слова сравниваются с тезаурусом и заменяются на дескрипторы. Если в словаре отсутствуют синонимы ключевых слов, возможна потеря некоторой части информации. Иногда в ПОД включаются лексические единицы используемого ИПЯ, отсутствующие в тексте, но добавляемые на основании знаний, опыта или использования тезауруса.

2. Свободное индексирование, без контроля лексики.

ПОД формируется из ключевых слов и словосочетаний, извлеченных из текста документа с сохранением авторской терминологии. Приобретают все большее значение из-за удобства использования и доступности.

22.Дескрипторные ипя, их состав и структура.

Начали разрабатываться в начале 50-х гг в США (от англ. to describe - описывать). В основе - алфавитный перечень слов или словосочетаний. Содержание запросов и документов выражается в виде некоторого множества слов и словосочетаний естественного языка.

Лексические единицы - значимые информативные слова, выбираемые из индексируемых текстов (их называют ключевые слова и словосочетания - КС).

В простейшем ИПЯ словарь задан алфавитным перечнем КС без учета синонимии и различных отношений между словами.

Одной из первых ИПС, в которой использовался такой ИПЯ, была система «Унитерм», разработанная в 1952 г. известным американским логиком и документалистом Мортимером Таубе. В этой системе реализован предложенный им принцип координатного индексирования.

В системе «Унитерм» в качестве индексов, описывающих содержание документов и запросов и координируемых при поиске, использовались ключевые слова, выбранные из их текстов, названные унитермами. Ключевыми словами предлагалось считать отдельные слова и простые словосочетания. Слово «унитерм» (uniterm) означает в переводе «единичный термин». Выбранные из текста унитермы располагались в алфавитном порядке в специальной картотеке.

Однако унитермные ИПЯ не устраняли основные; недостатки естественных языков (неоднозначность слов и неформализованность связей), и в связи с этим возникла необходимость применения лексикографического контроля за используемыми ключевыми словами (унитермами). Этот контроль заключается в приведении всех используемых для индексирования ключевых слов к нормальному виду (единое написание, единая морфологическая форма), в полном устранении синонимии, полисемии и омонимии ключевых слов.

Лексикографический контроль осуществляется при помощи специального нормативного словаря, в котором перечислены все ключевые слова и словосочетания, встречающиеся в индексируемых текстах. Из нескольких ключевых слов, которые в пределах данного дескрипторного ИПЯ считаются синонимами, выбирается одно, наиболее часто употребляемое и стилистически нейтральное. Это ключевое слово становится дескриптором, т.е. лексической единицей данного дескрипторного ИПЯ, и остальные ключевые слова — его синонимами и не являются лексическими единицами дескрипторного ИПЯ.

Совокупность дескриптора и ключевых слов, близких по смыслу, представляет собой некоторый класс, названный классом условной эквивалентности.

Дескриптор — это нормализованное слово или словосочетание, выбранное из группы синонимичных или близких по значению, ключевых слов (класса условной эквивалентности) и предназначенное для индексирования документов и запросов.

Полисемия и омонимия ключевых слов устраняется при помощи специальных ограничительных или пояснительных помет, приводимых в нормативном словаре ключевых слов и дескрипторов. Например: лук (растение), лук (оружие).

<<< < Предыдущая 1 23 / 53 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.09.201939.8 Кб4Логика.docx
#
30.05.2015931.03 Кб121Логистика.docx
#
30.05.2015645.63 Кб73Лонь "Где ты учишься и как лучше учиться".doc
#
30.05.20152.71 Mб144Лонь "ПО".2005 (ЧИТАТЬ С ЗАКОНАМИ).doc
#
30.05.20152.7 Mб380Лонь-изд-4-е_2011.pdf
#
18.04.201975.26 Кб1Лысый 19-26.doc
#
19.11.2019514.56 Кб8Лычагина бух.1часть.doc
#
30.05.20151.35 Mб34Магика Маат.pdf
#
30.05.2015897.29 Кб17Магистер.диссертация. 2013. Рекомендации.pdf
#
30.05.201526.48 Mб89Магистерская диссертация.docx
#
27.08.20192.79 Mб3Майбурд Введение в историю экономической мысли.doc