- •Блюменау Д. И.
- •ВВЕДЕНИЕ
- •Глава 1. СВЕРТЫВАНИЕ ИНФОРМАЦИИ КАК ОДНО ИЗ УСЛОВИЙ ЧЕЛОВЕЧЕСКОГО ОБЩЕНИЯ
- •1.1.0 СУЩНОСТИ «СВЕРТЫВАНИЯ»
- •1.2. ИНФОРМАЦИОННОЕ СВЕРТЫВАНИЕ
- •1.3. СВЕРТЫВАНИЕ В СФЕРЕ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ
- •2.1. ИНДЕКСИРОВАНИЕ
- •2.1.1. Индексирование — его назначение
- •2.1.2. Индексирование на основе «традиционных» ИПЯ
- •2.1.2.1. УДК как представитель ИПЯ иерархического типа
- •2.1.2.2. ИПЯ алфавитно-предметных рубрик
- •2.1.2.3. ИПЯ библиографических описаний
- •2.1.3. Режимы индексирования
- •2.1.4. Координатное индексирование на основе дескрипторных языков
- •2.1.4.1. Избыточное индексирование
- •2.1.4.2. Критерии выдачи и стратегия поиска по запросу
- •2.1.6. Автоматизация процесса индексирования
- •2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
- •2.1.6.2. Индексирование в ИПС «Артефакт»
- •2.1.6.3. Индексирование в поисковой машине «Яндекс»
- •2.2. БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ
- •2.3. АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ
- •2.3.1. Функции аннотаций и рефератов
- •2.3.2. Способы раскрытия содержания текстов
- •Пример аннотативной фразы:
- •Пример реферативной фразы:
- •Пример типичной аннотации:
- •2.3.4. Виды аннотаций и рефератов
- •2.4. КОНСПЕКТИРОВАНИЕ КАК РАЗНОВИДНОСТЬ РЕФЕРИРОВАНИЯ
- •2.5.1. Генезис и сущность концептографического обслуживания
- •2.5.2. Виды концептографического обслуживания
- •2.5.3. Обзорно-аналитическая деятельность
- •2.5.3.1. Виды обзоров
- •2.5.3.2. Функции обзоров в системе научных коммуникаций
- •2.5.4. Основы методики написания обзоров
- •Глава 3. НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА С ТОЧКИ ЗРЕНИЯ ЕГО СВЕРТЫВАНИЯ
- •3.1. ТЕКСТ И ЕГО ОБЩАЯ ХАРАКТЕРИСТИКА
- •3.2. СТРУКТУРЫ ТЕКСТА
- •3.2.1. Синтаксическая структура текста
- •3.2.1.1. О связности текста
- •3.2.1.2. Средства внутритекстовой связности
- •Разновидности коннекторов
- •3.2.2. Коммуникативная структура текста
- •Пример
- •Пример
- •Пример
- •3.2.3. Аспектная структура текста
- •3.2.4. Семантическая структура текста
- •3.2.5. Информативная структура текста
- •4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •4.2. ФРАГМЕНТИРОВАНИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ
- •4.2.1 • Подходы к реализации идеи фрагментирования
- •4.2.1.1. Семантический подход к проблеме фрагментирования
- •4.2.1.2. Синтаксический подход к проблеме фрагментирования
- •5.1. КВАЗИХРЕСТОМАТИЯ КАК ПОСОБИЕ ДЛЯ САМООБРАЗОВАНИЯ
- •5.1.1. О познавательной профессиональной потребности
- •5.1.2. Лексический аппарат формирования квазихрестоматии
- •5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
- •5.2.1 • Формирование запроса и составление учебной программы (оглавления)
- •5.2.2. Составление поискового предписания и процедура поиска
- •5.2.3. Формирование и оформление хрестоматии
- •5.2.4. Пример подготовки квазихрестоматии
- •(AлБ)v[(BvИvKvЛ)л(ГvДvE)]v(BлЖ)v(BлЗ)
- •Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ
- •6.1. СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ
- •6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
- •6.3.1. Формирование аннотаций и рефератов
- •6.3.2. Формирование минимальных релевантных фрагментов
- •6.3.3. Формирование квазиконспекта
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Вопросы для самопроверки
- •ПОСЛЕСЛОВИЕ
- •ОГЛАВЛЕНИЕ
фиксированы парадигматические отношения. Тезаурус обычно ис пользуется для индексирования документов и запросов (точнее — для перевода поисковых образов с языка ключевых слов на дескрипторный язык), для выполнения операции избыточного индексирования и со ставления стратегии поиска по запросу. Основной частью тезауруса, кроме предисловия, где приводятся характеристика тезауруса и мето дика пользования, является его лексико-семантический раздел, в кото ром в общем алфавитном ряду перечислены все ключевые слова и дескригггорпые статьи. От каждого ключевого слова к дескриптору сделана отсылка типа «см.», т. е. каждое ключевое слово «замкнуто» на свой де скриптор.
Дескрипторные статьи оформляются но формуле:
Д (Мс, Мн, Мв, Ма), где Д —заглавный дескриптор; Мс —множество ключевых слов, входящих в класс эквивалентности данного дескрипто ра (следует за индексом «с» —синоним); Мн —множество дескрипто ров, непосредственно подчиненных заглавному дескриптору (следует за индексом «н» — ниже); Мв —множество дескрипторов, непосредст венно подчиняющих заглавный дескриптор (следует за индексом «в» — выше); Ма — множество дескрипторов, связанных с заглавным слабы ми парадигматическими отношениями (следует за индексом «а» —ас социация).
Пример дескрипторной статьи:
Заглавный дескриптор |
Реферат |
Эквивалентность |
с. Резюме |
Сильные парадигматические отношения |
в. Документы вторичные |
|
н. Реферат авторский |
|
Реферат индикативный |
Слабые парадигматические отношения |
Реферат машинный |
а. Аннотация |
|
|
Реферирование |
Далеко не обязательно, чтобы каждая дескрипторпая статья вклю чала бы в себя полный набор множеств. Иногда встречаются дескрипто ры, которые не имеют элементов дескрипторной статьи.
2.1.4.1. Избыточное индексирование
В дескринторных И ПС поисковые образы документов и запросов получают путем пословного перевода ключевых слов текста с естест венного языка па ИПЯ. Однако поскольку, как уже говорилось, текстам па естественном языке присуща недостаточность, в частности, логико
психологическая эллипспость, заключающаяся в том, что не все слова, характеризующие данную (описываемую в тексте) ситуацию, употреб ляются автором текста, поскольку эллипспость имплицитно (внутрен не) присуща тексту документа, то она при его индексировании «автома тически переходит» и в поисковый образ, который можно рассматри вать как текст, переведенный на дескринторный ИПЯ. Средством компенсации логико-психологических эллипсов в дескрипторных по исковых образах и служит операция избыточного индексирования, для осуществления которой используется «сильная ветвь» парадигмы де скрипторов. Сама процедура избыточного индексирования заключает ся в дополнении исходного ПО (документа или запроса), полученного в результате пословного перевода с языка ключевых слов на дескрипторпый язык, производными дескрипторами, связанными с исходными сильными парадигматическими отношениями.
Источником дескрипторов, использующихся при избыточном ин дексировании, и является информационно-поисковый тезаурус: в слу чае восходящего избыточного индексирования исходные дескрипторы ПОД дополняются производными дескрипторами, стоящими в данной дескрииториой статье за индексом «в» — выше, в случае нисходящего — дескрипторами, стоящими за индексом «и» —ниже.
2.1.4.2.Критерии выдачи и стратегия поиска по запросу
Следующим назначением тезауруса, как говорилось выше, является составление стратегии поиска по запросу. Эта операция также предус матривает компенсацию логико-психологической эллинсности и про изводится с учетом критерия выдачи (критерия соответствия).
Кр и т е р и й в ы д а ч и —это формальное правило, в соответствии
скоторым в информационном массиве определяются документы, под лежащие выдаче в ответ на запрос. Различают три критерия выдачи, формулируемых в терминах теории множеств (теоретико-множествен ные критерии).
Критерий «на совпадение» — для выдачи требуется, чтобы лексиче ские единицы ПОД и ПОЗ совпадали. Например: djg, dg, d^j = d ^ , d^g, d8.*
Критерий «на включение» (или «на вхождение») —выдаются в ответ на запрос те документы, ПОД которых включают целиком поисковое предписание запроса. Если ПОД представить в виде множества Mg, а
поисковое предписание —Mq, то сообщение выдается, когда Mq с Md
* d с цифрой —номер Дескриптора в списке (тезаурусе).
(это наиболее распространенный критерий выдачи в практике функци онирования ИПС).
Например: ПП = d6, d38> d 17 с ПОД = d2, d6, d36, d38, d17.
Критерий «на пересечение» — требует не полного, а частичного сов падения лексических единиц ПОД и ПОЗ, т. е. пересечения поисковых образов. Математически этот критерий записывается в виде формулы Mq n Md.
Например: ПП = 65, 637,643 п ПОД = d ^ , 624, 637, 643. Отличительной особенностью систем координатного индексирова
ния является возможность осуществления различных логических опе раций над лексическими единицами поискового предписания. Реализо вать эту возможность важно, так как по смыслу запроса часто требуется ввести в поисковое предписание логические операторы. С точки зрения логических операций, выполняемых при поиске, различают следующие
логические критерии выдачи:
а) логическая сумма: нужно найти документы, в ПОД которых со держится либо лексическая единица Л, либо В, либо С и т. д. В этом слу чае поисковое предписание имеет вид: ПП = (AvBvCv...vZ). Или: анно тирование, реферирование, конспектирование, т. е. дизъюнкция лекси ческих единиц.
б) логическое умножение — нужны документы, в поисковом образе которых содержатся одновременно лексическая единица Л, и лексичес кая единица В, и лексическая единица С. В этом случае поисковое пред писание имеет вид: ПП = (AABA CA ...AZ). Или: эксплуатация асинхрон ных электродвигателей, т. е. конъюнкция лексических единиц.
в) логическое отрицание: нужны, допустим, документы (патенты) по лазерной сварке только па зарубежных языках (на русском автору за проса известны). ПП = (АлВлС)—iD. Или: патенты, лазерный, сварка, без русский язык.
г) логическое сложение и логическое умножение — случай, объеди няющий а) и б). Символическая запись имеет вид:
ПП = (AVB)A(CVD)A(EVF)...
Как правило, для извлечения из хранилища ИПС необходимого числа релевантных документов поиск производится не один, а несколь ко раз. Сначала обращаются в систему на основе исходного образа за проса, а затем последовательно с учетом упомянутых критериев выдачи на основе различных модификаций этого поискового образа. В резуль тате составляют стратегию поиска, включающую серию поисковых предписаний. Обращаясь в систему последовательно па основе состав ленной стратегии, пользователь получает на выходе порции (эшелоны)
документов. В каждом последующем эшелоне выдачи число релевант ных документов уменьшается и соответственно возрастает количество нерелевантных документов (информационный шум), однако на эти «неудобства» идут сознательно, если ставят перед собой задачу извлечь из хранилища максимально возможное число релевантных документов. Если такой цели не преследуют, то ограничиваются небольшим (а то и вообще одним) числом обращений в систему.
Выработка стратегии поиска —процесс творческий, не поддающий ся алгоритмизации и в значительной степени зависит от характера за проса, тем не менее руководствуются определенной схемой: вначале производят поиск но исходному ПОЗ (это поиск «на точность»; число нерелевантных (шумовых) документов в этом эшелоне выдачи обычно минимально), затем —по «усеченному» ПОЗ (в этом случае отбрасыва ется один из дескрипторов ПОЗ; потом но «обобщенному» ПОЗ (в этом случае один или несколько дескрипторов ПОЗ на основе тезауруса за меняются вышестоящими дескрипторами); наконец, дескрипторы ис ходного ПОЗ могут заменяться дескрипторами, связанными с ними ас социативной связью. Обращение в систему по модификациям исходно го ПОЗ называется поиском на «полноту».
2.1.5. Глубина идетальность индексирования
Качество индексирования (а отсюда и эффективность ИПС) во многом зависит от таких показателей, как глубина и детальность.
Глубина индексирования характеризует п о л н о т у раскрытия ин формационного содержания документа в составленном на него поиско вом образе. Приблизительно этот показатель определяется количест вом слов ИПЯ, включенных индексатором в поисковый образ.
Детальность индексирования характеризует т о ч н о с т ь отраже ния информационного содержания документа в поисковом образе. Точ ность определяется смысловой близостью ключевых слов, включенных
вмысленную аннотацию, и слов ИПЯ, образовавших поисковый образ.
Иглубина, и детальность —понятия относительные, т. е. можно го ворить о большей или меньшей глубине и детальности в отношении ка кого-либо одного документа, но нельзя измерять их в абсолютных циф ровых величинах.
Увеличение глубины положительно влияет на полноту выдачи ин формации и отрицательно на точность, увеличение детальности индек сирования, наоборот, положительно сказывается на точности и отрица тельно на полноте поиска.