Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лысый 19-26.doc
Скачиваний:
1
Добавлен:
18.04.2019
Размер:
75.26 Кб
Скачать

20. Предкоординированные и посткоординированные ипя

Информационно-поисковый язык (ИПЯ) — это специально созданный искусственный язык, предназначенный для выражения содержания документов и запросов или опи­сания фактов с целью их последующего поиска.

ИПЯ является основным элементом логико-семантического аппарата ИПС, от ка­чества которого в значительной степени зависит эффек­тивность информационного поиска.

Необходимость создания искусственного языка для выражения смыслового содержания документов, запро­сов и фактов с целью их поиска обусловлена тем, что естественный язык, т. е. язык, на котором пишут и разго­варивают, обладает рядом свойств, препятствующих его использованию для записи и поиска информации. К таким свойствам главным образом относятся неод­нозначность и многозначность слов естественного языка. Точное значение многих слов можно определить только из контекста, в; котором они употреблены.

Основными требованиями, предъявляемыми к ИПЯ являются следующие:

— однозначность (каждая запись на ИПЯ должна иметь только один смысл, одно толкование, а любое по­нятие, смысл должны получить единообразную запись средствами ИПЯ);

— достаточная семантическая сила (способность от­ражать с необходимой полнотой и точностью смысловое содержание документов и запросов определенной пред­метной области);

— открытость (обеспечение возможности корректировки языка).

В качестве лексических единиц в ИПЯ используются Лексика естественных языков (слова, словосочетания, рубрики) или цифровые коды, шифры слов и словосоче­таний естественного языка, обозначающие соответствую­щие классы понятий. Совокупность всех лексических единиц языка называется его словарным составом.

В ИПЯ лексические единицы связываются так называемой координат­ной (соподчинительной) связью либо до его использова­ния при индексировании документов и запросов, либо в процессе индексирования и поиска.

ИПЯ, в которых лексические единицы связаны пред­варительно до индексирования, называются предкоординированными ИПЯ. При их использовании содержание документа (запроса) соотносится с уже имеющейся руб­рикой, которую можно рассматривать как заранее по­строенную фразу.

При помощи предкоординированных ИПЯ произво­дится классификация документов, т. е. их отнесение к классам, обозначенным лексическими единицами этого языка. Семантическая сила такого ИПЯ определяется главным образом тем, насколько полно разработана его лексика. В связи с предварительной фиксированностью лексики предкоординированных ИПЯ им в целом прису­ща небольшая семантическая сила.

К предкоординированным ИПЯ относятся иерархические, алфавитно-предметные и фасетные классификации.

Иерархические классификации являются традицион­ными ИПЯ. Иерархические классификации используются для си­стематизации литературы и для ее поиска по системати­ческим каталогам в библиотеках или в книгохранилищах при систематической расстановке книг. Эти классификации с точки зрения их структуры яв­ляются наиболее несовершенными из всех ИПЯ класси­фикационного типа и менее других пригодны для меха­низированного и автоматизированного поиска информа­ции. Однако несмотря на это иерархические классифика­ции являются необходимой составной частью почти любого комплексного ИПЯ, так как они формализуют смыс­ловые связи.

Менее традиционными видами классифика­ций являются алфавитно-предметные и фасетные клас­сификации. В основу фасеткой классификации положен принцип разделения одного и того же множества пред­метов и явлений по разным основаниям, т. е. выделение нескольких иерархических «деревьев» для одного и того же множества (категорий, фасетов); образование слож­ных индексов путем соединения простых индексов, фик­сируемых в иерархических «деревьях».

В отличие от иерархических, в фасетных классифика­циях кроме основного деления на ряд классов осущест­вляется второе разбиение всего множества предметов и явлений по категориям или фасетам. Фасет — это приз­нак (или аспект) одной категории, на основе которого группируются понятия в определенной отрасли знания. Внутри фасета устанавливаются иерархические отноше­ния.

Фасетные классификации позволяют производить многоаспектное и достаточно глубокое индексирование содержания документов; они легче, чем иерархические, поддаются исправлению и дополнению; индексы фасетных классификаций короче, чем перечислительных иерархических классификаций.

Наиболее распространенной классификацией фасетного типа является Универсальная десятичная клас­сификация (УДК), которая принята в СССР в качестве государственной системы классификации публикаций по естественным и техническим наукам. Она включает 130 тыс. рубрик.

В алфавитно-предметной классификации классы понятий (предметов, фактов, сведе­ний) расположены в алфавитном порядке их имен. Ал­фавитно-предметные классификации являются класси­фикациями перечислительного типа, со всеми присущими им недостатками.

Алфавитно-предметные классификации предназначе­ны для узкопредметного поиска документов и фактов (сведений), главная тема или предмет которых обозна­чаются соответствующим предметным заголовком (руб­рикой).

При помощи алфавитно-предметных классификаций можно выполнять информационный поиск эффективно и экономично без применения каких-либо средств механи­зации и автоматизации. Однако они не позволяют произ­водить информационный поиск по любым сочетаниям признаков, выраженных предметными заголовками.

Алфавитно-предметные классификации применяются в основном для индексирования книг и периодических изданий, а также для составления каталогов к библио­течным фондам и указателей к систематическим катало­гам.

ИПЯ с лексическими единицами, заданными только перечнем слов и словосочетаний, из которых по опреде­ленным правилам в процессе индексирования или поис­ка строятся поисковые образы документов, называются посткоординируемыми.

При их использовании содержание документа описы­вается ключевыми словами, взятыми из текста, а затем они контролируются по словарю и включаются в поиско­вый образ документа. Точность отражения содержания документов при использовании посткоординируемых ИПЯ значительно выше, чем при использовании пред-коордпнированных.

К посткоординнруемым ИПЯ относятся языки дес­крипторного типа. Это ИПЯ нетрадици­онного типа, ориентированные на использование их в ма­шинном поиске.