- •19. Назначение и состав лск. Характеристика основных составляющих лск.
- •20. Предкоординированные и посткоординированные ипя
- •21.Метод координатного индексирования и поиска.
- •22.Дескрипторные ипя, их состав и структура.
- •23.Словари дескрипторных ипя, их состав и структура.
- •24.Системы индексирования, понятие качества индексирования, типология. Примеры ис основанных на индексировании.
- •25. Морфологический анализ и нормализация понятий при индексировании.
- •26.Сущность процесса кодирования и системы кодирования.
20. Предкоординированные и посткоординированные ипя
Информационно-поисковый язык (ИПЯ) — это специально созданный искусственный язык, предназначенный для выражения содержания документов и запросов или описания фактов с целью их последующего поиска.
ИПЯ является основным элементом логико-семантического аппарата ИПС, от качества которого в значительной степени зависит эффективность информационного поиска.
Необходимость создания искусственного языка для выражения смыслового содержания документов, запросов и фактов с целью их поиска обусловлена тем, что естественный язык, т. е. язык, на котором пишут и разговаривают, обладает рядом свойств, препятствующих его использованию для записи и поиска информации. К таким свойствам главным образом относятся неоднозначность и многозначность слов естественного языка. Точное значение многих слов можно определить только из контекста, в; котором они употреблены.
Основными требованиями, предъявляемыми к ИПЯ являются следующие:
— однозначность (каждая запись на ИПЯ должна иметь только один смысл, одно толкование, а любое понятие, смысл должны получить единообразную запись средствами ИПЯ);
— достаточная семантическая сила (способность отражать с необходимой полнотой и точностью смысловое содержание документов и запросов определенной предметной области);
— открытость (обеспечение возможности корректировки языка).
В качестве лексических единиц в ИПЯ используются Лексика естественных языков (слова, словосочетания, рубрики) или цифровые коды, шифры слов и словосочетаний естественного языка, обозначающие соответствующие классы понятий. Совокупность всех лексических единиц языка называется его словарным составом.
В ИПЯ лексические единицы связываются так называемой координатной (соподчинительной) связью либо до его использования при индексировании документов и запросов, либо в процессе индексирования и поиска.
ИПЯ, в которых лексические единицы связаны предварительно до индексирования, называются предкоординированными ИПЯ. При их использовании содержание документа (запроса) соотносится с уже имеющейся рубрикой, которую можно рассматривать как заранее построенную фразу.
При помощи предкоординированных ИПЯ производится классификация документов, т. е. их отнесение к классам, обозначенным лексическими единицами этого языка. Семантическая сила такого ИПЯ определяется главным образом тем, насколько полно разработана его лексика. В связи с предварительной фиксированностью лексики предкоординированных ИПЯ им в целом присуща небольшая семантическая сила.
К предкоординированным ИПЯ относятся иерархические, алфавитно-предметные и фасетные классификации.
Иерархические классификации являются традиционными ИПЯ. Иерархические классификации используются для систематизации литературы и для ее поиска по систематическим каталогам в библиотеках или в книгохранилищах при систематической расстановке книг. Эти классификации с точки зрения их структуры являются наиболее несовершенными из всех ИПЯ классификационного типа и менее других пригодны для механизированного и автоматизированного поиска информации. Однако несмотря на это иерархические классификации являются необходимой составной частью почти любого комплексного ИПЯ, так как они формализуют смысловые связи.
Менее традиционными видами классификаций являются алфавитно-предметные и фасетные классификации. В основу фасеткой классификации положен принцип разделения одного и того же множества предметов и явлений по разным основаниям, т. е. выделение нескольких иерархических «деревьев» для одного и того же множества (категорий, фасетов); образование сложных индексов путем соединения простых индексов, фиксируемых в иерархических «деревьях».
В отличие от иерархических, в фасетных классификациях кроме основного деления на ряд классов осуществляется второе разбиение всего множества предметов и явлений по категориям или фасетам. Фасет — это признак (или аспект) одной категории, на основе которого группируются понятия в определенной отрасли знания. Внутри фасета устанавливаются иерархические отношения.
Фасетные классификации позволяют производить многоаспектное и достаточно глубокое индексирование содержания документов; они легче, чем иерархические, поддаются исправлению и дополнению; индексы фасетных классификаций короче, чем перечислительных иерархических классификаций.
Наиболее распространенной классификацией фасетного типа является Универсальная десятичная классификация (УДК), которая принята в СССР в качестве государственной системы классификации публикаций по естественным и техническим наукам. Она включает 130 тыс. рубрик.
В алфавитно-предметной классификации классы понятий (предметов, фактов, сведений) расположены в алфавитном порядке их имен. Алфавитно-предметные классификации являются классификациями перечислительного типа, со всеми присущими им недостатками.
Алфавитно-предметные классификации предназначены для узкопредметного поиска документов и фактов (сведений), главная тема или предмет которых обозначаются соответствующим предметным заголовком (рубрикой).
При помощи алфавитно-предметных классификаций можно выполнять информационный поиск эффективно и экономично без применения каких-либо средств механизации и автоматизации. Однако они не позволяют производить информационный поиск по любым сочетаниям признаков, выраженных предметными заголовками.
Алфавитно-предметные классификации применяются в основном для индексирования книг и периодических изданий, а также для составления каталогов к библиотечным фондам и указателей к систематическим каталогам.
ИПЯ с лексическими единицами, заданными только перечнем слов и словосочетаний, из которых по определенным правилам в процессе индексирования или поиска строятся поисковые образы документов, называются посткоординируемыми.
При их использовании содержание документа описывается ключевыми словами, взятыми из текста, а затем они контролируются по словарю и включаются в поисковый образ документа. Точность отражения содержания документов при использовании посткоординируемых ИПЯ значительно выше, чем при использовании пред-коордпнированных.
К посткоординнруемым ИПЯ относятся языки дескрипторного типа. Это ИПЯ нетрадиционного типа, ориентированные на использование их в машинном поиске.