- •19. Назначение и состав лск. Характеристика основных составляющих лск.
- •20. Предкоординированные и посткоординированные ипя
- •21.Метод координатного индексирования и поиска.
- •22.Дескрипторные ипя, их состав и структура.
- •23.Словари дескрипторных ипя, их состав и структура.
- •24.Системы индексирования, понятие качества индексирования, типология. Примеры ис основанных на индексировании.
- •25. Морфологический анализ и нормализация понятий при индексировании.
- •26.Сущность процесса кодирования и системы кодирования.
21.Метод координатного индексирования и поиска.
Индексирование документа состоит из следующих этапов: определение главной его темы или предмета; выражение главной темы или пердмета на ИПЯ системы, т.е. формирование ПОД. В качестве ПОД могут выступать предметные заголовки, индексы любой классификации (УДК, например) или ключевые слова (дискрипторы).
При координатном индексировании в ПОД может включаться любое количество ключевых слов, что способствует сокращению потерь информации, обеспечивает большую гибкость и увеличение совпадений терминов при поиске.
Два метода координатного индексирования:
1. С контролем лексики входных документов по словарю (тезаурусу).
Выписанные из текста ключевые слова сравниваются с тезаурусом и заменяются на дескрипторы. Если в словаре отсутствуют синонимы ключевых слов, возможна потеря некоторой части информации. Иногда в ПОД включаются лексические единицы используемого ИПЯ, отсутствующие в тексте, но добавляемые на основании знаний, опыта или использования тезауруса.
2. Свободное индексирование, без контроля лексики.
ПОД формируется из ключевых слов и словосочетаний, извлеченных из текста документа с сохранением авторской терминологии. Приобретают все большее значение из-за удобства использования и доступности.
22.Дескрипторные ипя, их состав и структура.
Начали разрабатываться в начале 50-х гг в США (от англ. to describe - описывать). В основе - алфавитный перечень слов или словосочетаний. Содержание запросов и документов выражается в виде некоторого множества слов и словосочетаний естественного языка.
Лексические единицы - значимые информативные слова, выбираемые из индексируемых текстов (их называют ключевые слова и словосочетания - КС).
В простейшем ИПЯ словарь задан алфавитным перечнем КС без учета синонимии и различных отношений между словами.
Одной из первых ИПС, в которой использовался такой ИПЯ, была система «Унитерм», разработанная в 1952 г. известным американским логиком и документалистом Мортимером Таубе. В этой системе реализован предложенный им принцип координатного индексирования.
В системе «Унитерм» в качестве индексов, описывающих содержание документов и запросов и координируемых при поиске, использовались ключевые слова, выбранные из их текстов, названные унитермами. Ключевыми словами предлагалось считать отдельные слова и простые словосочетания. Слово «унитерм» (uniterm) означает в переводе «единичный термин». Выбранные из текста унитермы располагались в алфавитном порядке в специальной картотеке.
Однако унитермные ИПЯ не устраняли основные; недостатки естественных языков (неоднозначность слов и неформализованность связей), и в связи с этим возникла необходимость применения лексикографического контроля за используемыми ключевыми словами (унитермами). Этот контроль заключается в приведении всех используемых для индексирования ключевых слов к нормальному виду (единое написание, единая морфологическая форма), в полном устранении синонимии, полисемии и омонимии ключевых слов.
Лексикографический контроль осуществляется при помощи специального нормативного словаря, в котором перечислены все ключевые слова и словосочетания, встречающиеся в индексируемых текстах. Из нескольких ключевых слов, которые в пределах данного дескрипторного ИПЯ считаются синонимами, выбирается одно, наиболее часто употребляемое и стилистически нейтральное. Это ключевое слово становится дескриптором, т.е. лексической единицей данного дескрипторного ИПЯ, и остальные ключевые слова — его синонимами и не являются лексическими единицами дескрипторного ИПЯ.
Совокупность дескриптора и ключевых слов, близких по смыслу, представляет собой некоторый класс, названный классом условной эквивалентности.
Дескриптор — это нормализованное слово или словосочетание, выбранное из группы синонимичных или близких по значению, ключевых слов (класса условной эквивалентности) и предназначенное для индексирования документов и запросов.
Полисемия и омонимия ключевых слов устраняется при помощи специальных ограничительных или пояснительных помет, приводимых в нормативном словаре ключевых слов и дескрипторов. Например: лук (растение), лук (оружие).