Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3280.pdf
Скачиваний:
28
Добавлен:
15.11.2022
Размер:
17.07 Mб
Скачать

фиксированы парадигматические отношения. Тезаурус обычно ис­ пользуется для индексирования документов и запросов (точнее — для перевода поисковых образов с языка ключевых слов на дескрипторный язык), для выполнения операции избыточного индексирования и со­ ставления стратегии поиска по запросу. Основной частью тезауруса, кроме предисловия, где приводятся характеристика тезауруса и мето­ дика пользования, является его лексико-семантический раздел, в кото­ ром в общем алфавитном ряду перечислены все ключевые слова и дескригггорпые статьи. От каждого ключевого слова к дескриптору сделана отсылка типа «см.», т. е. каждое ключевое слово «замкнуто» на свой де­ скриптор.

Дескрипторные статьи оформляются но формуле:

Д (Мс, Мн, Мв, Ма), где Д —заглавный дескриптор; Мс —множество ключевых слов, входящих в класс эквивалентности данного дескрипто­ ра (следует за индексом «с» —синоним); Мн —множество дескрипто­ ров, непосредственно подчиненных заглавному дескриптору (следует за индексом «н» — ниже); Мв —множество дескрипторов, непосредст­ венно подчиняющих заглавный дескриптор (следует за индексом «в» — выше); Ма — множество дескрипторов, связанных с заглавным слабы­ ми парадигматическими отношениями (следует за индексом «а» —ас­ социация).

Пример дескрипторной статьи:

Заглавный дескриптор

Реферат

Эквивалентность

с. Резюме

Сильные парадигматические отношения

в. Документы вторичные

 

н. Реферат авторский

 

Реферат индикативный

Слабые парадигматические отношения

Реферат машинный

а. Аннотация

 

Реферирование

Далеко не обязательно, чтобы каждая дескрипторпая статья вклю­ чала бы в себя полный набор множеств. Иногда встречаются дескрипто­ ры, которые не имеют элементов дескрипторной статьи.

2.1.4.1. Избыточное индексирование

В дескринторных И ПС поисковые образы документов и запросов получают путем пословного перевода ключевых слов текста с естест­ венного языка па ИПЯ. Однако поскольку, как уже говорилось, текстам па естественном языке присуща недостаточность, в частности, логико­

психологическая эллипспость, заключающаяся в том, что не все слова, характеризующие данную (описываемую в тексте) ситуацию, употреб­ ляются автором текста, поскольку эллипспость имплицитно (внутрен­ не) присуща тексту документа, то она при его индексировании «автома­ тически переходит» и в поисковый образ, который можно рассматри­ вать как текст, переведенный на дескринторный ИПЯ. Средством компенсации логико-психологических эллипсов в дескрипторных по­ исковых образах и служит операция избыточного индексирования, для осуществления которой используется «сильная ветвь» парадигмы де­ скрипторов. Сама процедура избыточного индексирования заключает­ ся в дополнении исходного ПО (документа или запроса), полученного в результате пословного перевода с языка ключевых слов на дескрипторпый язык, производными дескрипторами, связанными с исходными сильными парадигматическими отношениями.

Источником дескрипторов, использующихся при избыточном ин­ дексировании, и является информационно-поисковый тезаурус: в слу­ чае восходящего избыточного индексирования исходные дескрипторы ПОД дополняются производными дескрипторами, стоящими в данной дескрииториой статье за индексом «в» — выше, в случае нисходящего — дескрипторами, стоящими за индексом «и» —ниже.

2.1.4.2.Критерии выдачи и стратегия поиска по запросу

Следующим назначением тезауруса, как говорилось выше, является составление стратегии поиска по запросу. Эта операция также предус­ матривает компенсацию логико-психологической эллинсности и про­ изводится с учетом критерия выдачи (критерия соответствия).

Кр и т е р и й в ы д а ч и —это формальное правило, в соответствии

скоторым в информационном массиве определяются документы, под­ лежащие выдаче в ответ на запрос. Различают три критерия выдачи, формулируемых в терминах теории множеств (теоретико-множествен­ ные критерии).

Критерий «на совпадение» — для выдачи требуется, чтобы лексиче­ ские единицы ПОД и ПОЗ совпадали. Например: djg, dg, d^j = d ^ , d^g, d8.*

Критерий «на включение» (или «на вхождение») —выдаются в ответ на запрос те документы, ПОД которых включают целиком поисковое предписание запроса. Если ПОД представить в виде множества Mg, а

поисковое предписание —Mq, то сообщение выдается, когда Mq с Md

* d с цифрой —номер Дескриптора в списке (тезаурусе).

(это наиболее распространенный критерий выдачи в практике функци­ онирования ИПС).

Например: ПП = d6, d38> d 17 с ПОД = d2, d6, d36, d38, d17.

Критерий «на пересечение» — требует не полного, а частичного сов­ падения лексических единиц ПОД и ПОЗ, т. е. пересечения поисковых образов. Математически этот критерий записывается в виде формулы Mq n Md.

Например: ПП = 65, 637,643 п ПОД = d ^ , 624, 637, 643. Отличительной особенностью систем координатного индексирова­

ния является возможность осуществления различных логических опе­ раций над лексическими единицами поискового предписания. Реализо­ вать эту возможность важно, так как по смыслу запроса часто требуется ввести в поисковое предписание логические операторы. С точки зрения логических операций, выполняемых при поиске, различают следующие

логические критерии выдачи:

а) логическая сумма: нужно найти документы, в ПОД которых со­ держится либо лексическая единица Л, либо В, либо С и т. д. В этом слу­ чае поисковое предписание имеет вид: ПП = (AvBvCv...vZ). Или: анно­ тирование, реферирование, конспектирование, т. е. дизъюнкция лекси­ ческих единиц.

б) логическое умножение — нужны документы, в поисковом образе которых содержатся одновременно лексическая единица Л, и лексичес­ кая единица В, и лексическая единица С. В этом случае поисковое пред­ писание имеет вид: ПП = (AABA CA ...AZ). Или: эксплуатация асинхрон­ ных электродвигателей, т. е. конъюнкция лексических единиц.

в) логическое отрицание: нужны, допустим, документы (патенты) по лазерной сварке только па зарубежных языках (на русском автору за­ проса известны). ПП = (АлВлС)—iD. Или: патенты, лазерный, сварка, без русский язык.

г) логическое сложение и логическое умножение — случай, объеди­ няющий а) и б). Символическая запись имеет вид:

ПП = (AVB)A(CVD)A(EVF)...

Как правило, для извлечения из хранилища ИПС необходимого числа релевантных документов поиск производится не один, а несколь­ ко раз. Сначала обращаются в систему на основе исходного образа за­ проса, а затем последовательно с учетом упомянутых критериев выдачи на основе различных модификаций этого поискового образа. В резуль­ тате составляют стратегию поиска, включающую серию поисковых предписаний. Обращаясь в систему последовательно па основе состав­ ленной стратегии, пользователь получает на выходе порции (эшелоны)

документов. В каждом последующем эшелоне выдачи число релевант­ ных документов уменьшается и соответственно возрастает количество нерелевантных документов (информационный шум), однако на эти «неудобства» идут сознательно, если ставят перед собой задачу извлечь из хранилища максимально возможное число релевантных документов. Если такой цели не преследуют, то ограничиваются небольшим (а то и вообще одним) числом обращений в систему.

Выработка стратегии поиска —процесс творческий, не поддающий­ ся алгоритмизации и в значительной степени зависит от характера за­ проса, тем не менее руководствуются определенной схемой: вначале производят поиск но исходному ПОЗ (это поиск «на точность»; число нерелевантных (шумовых) документов в этом эшелоне выдачи обычно минимально), затем —по «усеченному» ПОЗ (в этом случае отбрасыва­ ется один из дескрипторов ПОЗ; потом но «обобщенному» ПОЗ (в этом случае один или несколько дескрипторов ПОЗ на основе тезауруса за­ меняются вышестоящими дескрипторами); наконец, дескрипторы ис­ ходного ПОЗ могут заменяться дескрипторами, связанными с ними ас­ социативной связью. Обращение в систему по модификациям исходно­ го ПОЗ называется поиском на «полноту».

2.1.5. Глубина идетальность индексирования

Качество индексирования (а отсюда и эффективность ИПС) во многом зависит от таких показателей, как глубина и детальность.

Глубина индексирования характеризует п о л н о т у раскрытия ин­ формационного содержания документа в составленном на него поиско­ вом образе. Приблизительно этот показатель определяется количест­ вом слов ИПЯ, включенных индексатором в поисковый образ.

Детальность индексирования характеризует т о ч н о с т ь отраже­ ния информационного содержания документа в поисковом образе. Точ­ ность определяется смысловой близостью ключевых слов, включенных

вмысленную аннотацию, и слов ИПЯ, образовавших поисковый образ.

Иглубина, и детальность —понятия относительные, т. е. можно го­ ворить о большей или меньшей глубине и детальности в отношении ка­ кого-либо одного документа, но нельзя измерять их в абсолютных циф­ ровых величинах.

Увеличение глубины положительно влияет на полноту выдачи ин­ формации и отрицательно на точность, увеличение детальности индек­ сирования, наоборот, положительно сказывается на точности и отрица­ тельно на полноте поиска.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]