Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тезаурус_1.doc
Скачиваний:
1
Добавлен:
12.07.2019
Размер:
76.29 Кб
Скачать

Общее понятие тезауруса

Известно, что для обеспечения возможно большей полноты выдачи при информационном поиске, основанном на использовании дескрипторных ИПЯ, необходимо избыточное индексирование документов и/или информационных запросов. Под избыточным индексированием в данном случае понимается дополнение поискового образа документа или поискового предписания дескрипторами, которые по смыслу связаны с основными дескрипторами. При этом более предпочтительным, по-видимому, является избыточное индексирование не документов, а информационных запросов.

Для того, чтобы можно было производить такое избыточное индексирование, необходимо преобразование алфавитного словаря дескрипторов в нормативный словарь-справочник, в котором были бы эксплицитно выражены важнейшие парадигматические связи между дескрипторами. Такие словари-справочники предназначены для следующих целей:

а) служить руководством для перевода текстов с естественного языка на дескрипторный ИПЯ (путем замены ключевых слов соответствующими дескрипторами);

б) обеспечивать возможность избыточного индексирования документов или информационных запросов;

в) быть пособием, которое бы помогало ищущему информацию находить правильные дескрипторы для выражения его информационной потребности.

Особое внимание необходимо обратить на пункт (в) и в связи с этим еще раз подчеркнуть, что одно из основных трудностей (если не самой главной), с которыми приходиться иметь дело при информационном поиске , заключается в неадекватности словесного выражения потребителем своей информационной потребности. «Узловым моментом в деятельности информационной службы», — писал Д Фоскетт, — является не перевод терминов авторов [документов] на информационно-поисковый язык. Если бы это было так, насколько просты были бы наши проблемы. Нам нужно было бы лишь составить своего рода таблицу перевода, которую всегда можно держать на современном уровне, включая в нее — в соответствии со структурой указателя — любые новые термины примененные каким-либо автором. Здесь не возникает никакой трудности, авторский текст—это статическая законченная единица, которая дает определенный контекст ко всем использованным в ней терминам. Действительная трудность для информационной службы заключается в том. чтобы выражать плохо сформулированную неполную и изменчивую мысль (thought pattern} потребителя в терминах обеспечивающих выдачу из хранилища информации ,которая способна преобразовать эту мысль и некоторую когерентную систему, соответствующую реальности» [6].

Острота проблемы неадекватного словесного выражения информационных потребностей может быть значительно уменьшена если создать особый словарь, который бы позволял по смыслу находить слова (дескрипторы), необходимые для выражения этого смысла.

Значение в языке- это отношение между именем и смыслом (при понимании значения в соответствии с так называемым треугольником Огдена и Ричардса). Данное отношение является симметричным (recipcal and reversible) [7]. Поэтому поиск значения можно начинать либо с имение либо со смысла.

Для поиска значений по именам используются – обычные алфавитные словари, а для поиска имен (слов) по их смыслам — так называемые идеологические (ideologikal} или концептуальные (conceptual) слова.

Основное назначение идеологического словаря (и это подчеркивается даже в названиях многих из таких словарей)—обеспечение выбора наиболее подходящих слов для точного выражения той пли иной мысли. В теории информационного поиска идеологические словари получили название тезаурусов сокровище, 1)богатство, 2) сокровищница, садовая, склад; лат .сокровищница: кладовая склад. Однако в лексикографии термин «тезаурус» используется также для обозначения словарей иного типа [5]. Подробная характеристика тезаурусов разных типов дана нами в монографии |1].

Однако тезаурус предназначенный для целей информационного поиска не является лишь идеологическим словарем дескрипторов, так как он должен выполнять также функцию двуязычного словаря (естественный язык—дескрипторный ИПЯ), обеспечивающего перевод текстов поисковых образов и информационных запросов естественного языка на дескрипторный ИПЯ (и наоборот). Это означает, что информационно-поисковый тезаурус должен содержать не только все дескрипторы, но и все ключевые слова, которые в рамках данной ИПС считаются синонимами дескрипторов.

Кроме того, информационно поисковый тезаурус, как уже отмечалось в начале данного раздела является нормативным пособием, предназначенным для предметизаторов, индексаторов и потребителей информации. Поэтому такой тезаурус наиболее целесообразно выполнять в виде одно- или двухтомного справочника , содержащего две основные части :

а) Общий алфавитный список дескрипторов и ключевых слова могут быть определенным образом отмечены, чтобы их легче было отличать от дескрипторов снабженных соответствующими пометами и ссылками. В том списке ключевые слова могут быть определенным образом отмечены, чтобы их легче было отличать от дескрипторов. Под каждым дескриптором должны быть приведены в упорядочен ном виде другие дескрипторы, которые по смыслу связаны с «заглавным» дескриптором. Желательно чтобы типы этих смысловых связей были соответствующим образом обозначены. В словарной статье целесообразно также дать список всех ключевых слов которые в рамках данной ИПС считаются синонимами «заглавного» дескриптора.

б) Упорядоченное множество тематических классов (поле) представляет собой подмножество наименований тематических групп, а каждая тематическая группа-подмножество дескрипторов, которое обозначено, как правило, одним или несколькими дескрипторами, выбранными из данного подмножества дескрипторов. В качестве наименований тематических групп и особенно –классов (полей) могут использоваться слова и словосочетания естественного языка, не являющимся дескрипторами. Внутри каждого тематического класса (поля) или группы наименование групп и дескрипторы также должны быть упорядочены (например, по алфавиту и/или по какому-либо иному признаку). Смысловые связи между дескрипторами могут быть выражены лексикографически, в виде таблиц (списков), аналитически или графически.

Необходимо отметить ,что часть (Б) имеет не все тезаурусы. Отсутствие в информационно-поисковом тезаурусе части (Б) с упорядоченной системой тематических классов (полей) и или групп дескрипторов значительно затрудняет использование такого тезауруса в функции идеологического словаря, т.е. для более адекватного выражения в терминах дескрипторного ИПЯ фактической информационной потребности того, кто проводит поиск информации.

Отсутствие части (Б) делает информационно-поисковый тезаурус весьма похожим на упорядоченный по алфавиту нормативный список предметных заголовков. Поэтому информационно-поисковые тезаурусы иногда называют «нормативными словниками предметных заголовков. Но это сходство чисто внешнее так как построение дескрипторов как классов условной эквивалентности основательно на совершенно иных принципах, чем формулирование заголовков и подзаголовков для словников алфавитно-предметных классификаций. Этот вопрос подробно рассмотрен нами в монографии.

Информационно-поисковые тезаурусы могут быть трех типов: лингвистические, статистические и нормативные. Лингвистическим тезаурусом называется некоторое множество слов естественного языка, отобранных путем содержательного анализа текстов и систематизированных в соответствии с предварительно выбранной или разработанной системой классификации. Термин «лингвистический тезаурус является синонимом термина «идеологический словарь». Статистическим тезаурусом называется упорядоченное множество ключевых слов, отобранных путем статистического анализа текстов по какой-либо тематике. Нормативным тезаурусом называется словарь-справочник, который предназначен для оказания помощи потребителю в более точном выражении (в терминах дескрипторного ИПЯ) содержания нужной ему информации и для обеспечения возможности избыточного индексирования (также в терминах ИПЯ) документов и информационных запросов. Такой словарь-справочник должен содержать все лексические единицы ИПЯ- дескрипторы (вместе с ключевыми словами, которые в пределах данной ИПС считаются синонимами этих дескрипторов), причем дескрипторы должны быть систематизированы по смыслу ,а смысловые связи между ними эксплицитно выражены. Именно в таком, и только в таком, значении мы будем далее употреблять термин «тезаурус».

Для построения нормативных тезаурусов исключительно важных смысловых (парадигматических) связей, существующих между дескрипторами.

Отсутствие в информационно-поисковом тезаурусе части (б) с упорядоченной системой тематических классов (полей) или групп дескрипторов значительно затрудняет использование такого тезауруса в функции идеологического словаря,

т.е. для адекватного выражения в терминах дескрипторного ИПЯ фактической информационной потребности того, что проводит поиск информации.

Отсутствие части (Б) делает информационно - поисковый тезаурус весьма похожий на упорядоченный по алфавиту нормативный поиск предметных заголовков. Поэтому информационно - поисковые тезаурусы иногда называют «нормативными словниками предметных заголовков, так как построение дескрипторов как классов условной эквивалентности основано на совершенно иных принципах, чем формулирование заголовков и подзаголовков для словников алфавитно – предметных классификаций.

Информационно-поисковые тезаурусы могут быть трех типов: лингвистические, статистические и нормативные. Лингвистическим тезаурусом называется некоторое множество слов естественного языка, отобранных путем содержательного анализа текстов и систематизированных в соответствии с предварительно выбранной или разработанной системой классификации Термин «лингвистический тезаурус» является синонимом термина «идеологический словарь» Статистическим тезаурусом называется упорядоченное множество ключевых слов, отобранных путем статистического анализа текстов по какой-либо тематике. Нормативным тезаурусом называется словарь-справочник, который предназначен для оказания помощи потребителю в более точном выражении (в терминах дескрипторного ИПЯ) содержания нужной ему информации и для обеспечения возможности избыточного индексирования (также в терминах ИПЯ) документов и информационных запросов. Такой словарь-справочник должен содержать все лексические единицы ИПЯ — дескрипторы (вместе с ключевыми словами, которые в пределах данной ИПС считаются синонимами этих дескрипторов), причем дескрипторы должны быть систематизированы по смыслу, а смысловые связи между ними эксплицитно выражены. Именно в таком, и только в таком, значении мы будем далее употреблять термин «тезаурус».

Для построения нормативных тезаурусов исключительно большое значение имеет выявление и обозначение наиболее важных смысловых (парадигматических) связей, существующих между дескрипторами.