Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
LSIT2.doc
Скачиваний:
35
Добавлен:
18.05.2015
Размер:
213.5 Кб
Скачать

Требования, предъявляемые к ипя

1. Однозначность – каждая ЛЕ, индекс или запись должны иметь1 смысл. И наоборот, любой смысл должен получить единообразное представление на ИПЯ, это достигается путёмустранения полисемии, синонимии и омонимии.

2. Явное (эксплицитное) выражение полезных для поиска смысловых отношений между словами(логических отношений и психологических ассоциаций).

Реализация этого требования делает ИПЯ своего рода справочником, схемой-путеводителем, позволяющим библиотекарю легко ориентироваться в конкретной области, отрасли знаний, устанавливать виды связей и взаимодействий между отдельными понятиями.

3. Возможность корректировки и пополнения ИПЯ, его «гостеприимство».

ИПЯ должен быть гибким, включать новые понятия без коренной ломки принятой структуры.

4. Удобство использования– предполагаетмнемоничность (удобство запоминания записей на ИПЯ, а также компактность).

5. Семантическая сила ИПЯ(выразительность,селективная мощность= способность языка идентифицировать предмет, различать его мелкие особенности, описывать его с различной степенью детализации.

Сила ИПЯ тем больше, чем богаче его словарный состави шире его словообразовательныевозможности, чем более четко дифференцированысмысловые отношениямежду его словами, чем более развита системасинтаксических отношениймежду словами этого языка.

  1. Объектно-признаковый язык.

Объектно-признаковый информационно-поисковый язык - фактографический информационно-поисковый язык, предназначенный для индексирования описаний фактов в виде перечня объектов (предметов) с указанием относящихся к ним признаков (свойств) и соответствующих значений признаков.

Объектно-признаковый ИПЯ – вид координатного ИПЯ, предназначенный для представления фактографических данных.

Появление объектно-признаковых ИПЯ связано с задачами, которые призваны решать фактографические информационно-поисковые системы. В состав лингвистического обеспечения фактографического информационного поиска входят те же ИПЯ, которые используются и при документальном информационном поиске: классификационные и дескрипторные ИПЯ; никаких принципиально новых языковых средств для обеспечения работы фактографических ИПС не создано. Однако применение этих ИПЯ в рамках фактографических ИПС (ФИПС) имеет свои особенности, обусловленные, прежде всего, характером фактографической информации, подлежащей вводу, обработке, хранению и поиску. Для того чтобы понять специфику ИПЯ, обслуживающих задачи ФИПС, следует обратиться к основным понятиям фактографического поиска информации.

Базовыми понятиями теории фактографического информационного поиска являются понятия «факт»и«фактографическая информация».

Факт(от латинского factum «сделанное, совершившееся») в обычном смысле слова – синоним понятий «истина», «событие», «результат».

Фактографическая информация— это информация о фактах. Фактографическую информацию можно классифицировать следующим образом:

1) фактическая и прогнозная(гипотетическая) информация;

2) количественная и качественнаяфактографическая информация;

3) хорошо структурированная фактографическая информация иплохо структурированная фактографическая информация.

К хорошо структурированным сведениям относятся, прежде всего, сведения количественного характера, а также качественные (словесно выраженные) сведения, имеющие хорошо регламентированную форму: параметры оборудования и их значения (например, габариты механизмов и аппаратов), наименования и адреса организаций и учреждений и т. п. Обычно эти сведения бывают оформлены (или легко могут быть оформлены) как анкеты, таблицы и т. п. Часто такую информацию называют параметрической. К плохо структурированным относятся сведения, представленные разнообразными нерегламентированными словесными инструкциями, т. е. различные описания отдельных фактов, изложение концепций и теорий, сделанных на естественном языке.

Как известно, в отличие от документальных ИПС, ФИПС призваны выдавать в ответ на запрос не документы или сведения о них, а факты, т. е. некоторые утверждения о том, что имеет, не имеет или, возможно, будет иметь место (или желательно, чтобы имело место). Каждое такое утверждение, т. е. факт или минимальная смысловая единица фактографического поиска, имеет характер триады: объект – признак – значение. Таким образом, основной особенностью ИПЯ ФИПС является то, что запись фактографической информации должна содержать указание и на объект фактографического поиска, и на признак этого объекта, и давать, кроме того, конкретное значение этого признака на данном объекте.

Из этой принципиальной особенности ИПЯ ФИПС вытекает обязательное требование: составление перечня объектов фактографического поиска, выбор их наиболее важных признаков и соответствующих им значений. Не случайно, что целая группа ИПЯ, используемых в составе лингвистического обеспечения ФИПС, получила название объектно-признаковых. Семантические и грамматические особенности объектно-признаковых языков (ОПЯ) определяются необходимостью фиксировать связь«объект - признак - значение». При таком подходе в качестве алфавита ОПЯ выступает алфавит естественного языка, цифры, специальные символы, а в качестве лексических единиц — слова и словосочетания.

В составе лексики ОПЯможно выделить три основных лексико-семантических класса названий:объектов, признаков и значений признаков.

Объектамиявляютсяосновные единицы(изделия, материалы технологические процессы и т. п.)фактографического поиска, описываемые с помощью совокупности пар«признак – значение». В каждой области знаний система объектов, естественно, своя. Выделению, определению комплекса объектов ФИПС должно предшествовать изучение потребностей специалистов в информации о фактах, определение круга тех информационных задач, которые должна решать данная ФИПС. Это изучение может осуществляться путем анализа специфики научной или производственной деятельности организации, а также в ходе исследования запросов потребителей информации на фактографическую информацию.

Все присущие объектам фактографического поиска признаки делятся на количественныеикачественные.

Количественные признаки– это именованные и неименованные числа.

Качественные признаки– это признаки, значение которых выражается описательно, словесно. Разновидностью качественных признаков являются признаки наличия свойства и признаки степени свойства.

В качестве признаков наличия свойства выступают слова да и нет и различные вариации: есть, не был, был, отсутствие, наличие.

В качестве признаков степени свойства выступают слова: слабый, средний, сильный, интенсивный, малоинтенсивный и т. п.

Особенности лексики ОПЯобусловлены как спецификой фактографического поиска, триадностью фактографической информации, так и источниками отбора лексических единиц: использование массивов вторичных документов для отбора лексики является неприемлемым. В качестве источников для отбора лексики в ОПЯ служат первичные документы, практически все виды научной, технической и производственной литературы. Особое значение при этом отводится техническим каталогам, прейскурантам, научно-технической документации, адресным книгам, деловой переписке, отчетно-статистической документации и другим источникам, содержащим хорошо структурированную фактографическую информацию.

В состав лексики ОПЯвходят следующие типы лексических единиц:

1. Лексические единицы, выраженные терминами.

2. Номенклатурные знаки (номенклатура).

Отличие номенклатурного знака от термина заключается в том что в основе терминов лежат общие понятия, а в основе номенклатуры — единичные понятия, например понятия о конкретной промышленной продукции, о способах ее изготовления. Номенклатуры — это своеобразные «этикетки» единичных объектов, зачастую выраженные абстрактными символами.

3. Кванторные лексические единицы— это лексические единицы, смысл которых совпадает с семантикой таких русских слов, как несколько, все, некоторые из, больше половины и т. п. (латинское слово quantum переводится как «сколько»).

4. Модальные лексические единицы — это совокупность лексических единиц, смысл которых соответствует семантике русских слов вероятно, достоверно, наверняка и т. п. Причина введения этого класса лексических единиц в ИПЯ ФИПС — необходимость сохранения авторской оценки достоверности записываемых на ИПЯ сведений.

5. Лексические единицы, служащие для обозначения названий публикаций и источников сведений, из которых извлекается фактографическая информация, позволяющие «привязать» каждый факт к источнику, из которого он взят.

Организационную структуру ОПЯпредставляютобъектно-характеристические таблицы. Это такие таблицы, в которых названия строк соответствуют объектам фактографического поиска, названия столбцов – их признакам, а конкретные значения (числовые или словесные) записываются на пересечении строк и столбцов.

Однако во многих случаях объектно-характеристическая таблица оказывается слишком бедным языком, не позволяющим отразить всю необходимую информацию, например отношения между разными признаками одного и того же объекта или между значениями одного признака на разных объектах. Кроме того, она непригодна в тех случаях, когда наборы признаков, описывающих разные объекты, могут во многом не совпадать. В этом случае она была бы громоздкой (так как должна была содержать в себе все признаки) и в то же время имела бы много незаполненных клеток. В таких случаях используют более сложные ОПЯ, реализованные с помощью специализированного фактографического тезауруса.

По сравнению с традиционными информационно-поисковыми тезаурусами, используемыми для обеспечения документального поиска, создание фактографических тезаурусов является новым и весьма непростым делом. Их разработка связана с деятельностью сектора фактографического информационного поиска отдела ИПС ВИНИТИ.

Тезаурус фактографической ИПС служит трем основным целям: для перевода текстов документов на объектно-признаковый язык; для использования семантических связей между лексическими единицами ОПЯ в процессе поиска; для выдачи информации, содержащейся непосредственно в тезаурусе в виде энциклопедических сведений, представляющих самостоятельный интерес.

Специфика тезауруса для ФИПС определяется особенностями фактографического поиска. По своей структуре он более сложен чем тезаурус для документальной ИПС (ДИПС). При обработке документа, поступившего на вход системы, ДИПС ориентируется на сжатие текста, на определение основного смыслового содержания, в то время как в ФИПС могут оказаться нужными для потребителя самые конкретные, самые детальные и, возможно, даже для данного документа совершенно периферийные сведения.

Вместе с тем нельзя забывать, что ФИПС не имеет права на «информационный шум», поскольку основным принципом, лежащим в ее основе, является достоверность и надежность выдавае­мой фактографической информации. Нетрудно представить негативные последствия нарушения этого принципа в системах, обеспечивающих потребителей медицинскими, фармакологическими, экологическими и другими подобными данными. ФИПС должна гарантировать надежность выдаваемых сведений, так как в отличие от ДИПС потребитель использует эти данные непосредственно после выдачи, без обращения к дополнительным документальным источникам для проверки их истинности.

Отсюда следует, что в тезаурусе ФИПС каждая лексическая единица должна получить четкое толкование во избежание «шума» при ответах на запрос. В документальных же тезаурусах толкования даются только в редких случаях для снятия омонимии Специфика фактографического тезауруса состоит также и в том, что в отличие от дескрипторных ИПТ, располагающих одним классом лексических единиц – дескрипторами, фактографический тезаурус содержит, как уже сказано, три класса лексических единиц (названия объектов, признаков, значений признаков), а чаще – четыре, учитывая введение класса «названия групп признаков».

  1. Описать комплекс лингвистических средств, используемых в ЭК РНБ.

- язык библиографического описания (автор, название)

- язык предметных рубрик (предмет)

См. сайт www.nlr.ru

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]