Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответы13-16.doc
Скачиваний:
0
Добавлен:
17.09.2019
Размер:
79.87 Кб
Скачать

13

Лингвистические средства информационного поиска. Состав лингвистического обеспечения ИПС.

201-212

14

Информационно-поисковые языки: классификация, типология.

-

15

ИПЯ. Классификационные языки.

216-224

16

ИПЯ. Дескрипторные языки. Вербальные языки.

232-233,236-241, 426(глоссарий)

13. Лингвистические средства информационного поиска. Состав лингвистического обеспечения ипс.

Лингвистическое обеспечение (ЛО) – совокупность языковых средств, обеспечивающих гибкость представления и обработки информации с помощью АИС (Автоматизированная информационная система). Обычно ЛО включает языки запросов и отчетов, реализующие человеко-машинное взаимодействие, а так же специальные языки определения и управления данными, обеспечивающие адекватность внутреннего представления и согласования внутреннего и внешнего представлений.

Средства:

Классификация, как средство описания содержания документа, представляет собой процесс соотнесения содержания документов с понятиями, зафиксированными в заранее составленных систематических схемах.

Языки дескрипторного типа реализуют индексирование, которое заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий либо из текстовых документов.

Основой построения большинства информационных языков является логико-интуитивный метод, который в основном сводится к следующему: рассматривая то или иное слово, человек вспоминает, с каким словом и какими отношениями оно связано, затем пытается учесть, может, та или иная связь пригодиться при поиске или обмене информацией. Внутренняя структура языка характеризуется следующими составляющими – лексикой, грамматикой и словообразованием.

Лексика – вся совокупность слов, входящих в состав языка.

Грамматика – система способов и средств построения слов и предложений в рассматриваемом языке. Грамматика состоит из морфологии (совокупность способов и средств построения слов) и синтаксиса (совокупность способов и средств построения предложений).

Словообразование – совокупность способов и средств образования слов на базе уже существующих.

Предметы и явления связаны друг с другом определенными отношениями (категории внеязыковых связей), что позволяет объединить слова в лексико-семантические группы, которые называются парадигмами. Парадигматические отношения существует независимо от контекста слов, синтагматические – отражают конкретные ситуативные отношения.

ЛО – совокупность языковых средств, позволяющих представить информацию, составляющую ИС на различных этапах внутрисистемной обработки и взаимодействия с пользователем.

Лингвистическое обеспечениеэто логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.

Два аспекта использования ЛО:

  • выражение смыслового содержания

  • выражение информационной потребности пользователя

Состав ЛО представлен следующей схемой:

14. Информационно-поисковые языки: классификация, типология.

ИПЯ – искусственный язык, обеспечивающий компактную, строго алгоритмизированную запись содержания документов и запросов в ИПС. ИПЯ можно определить как специализированную семантическую систему, состоящую из алфавита, правил образования (грамматики) и правил интерпретации (семантики).

ИПС – программная система для хранения и поиска данных по неформатированным запросам.

Типологии ИПЯ с точки зрения их семантической силы:

Некоординируемые языки — не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска.

Координируемые ИПЯ — языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.

    1. Предкоординируемые — связи между лексическими единицами устанавливаются перед поиском.

    2. Посткоординируемые — когда связи между лексическими единицами устанавливаются только при поиске.

В книжке Захарова:

А. Предкоординированные ИПЯ.

А.1. Иерархические классификации.

А.2. Алфавитно-предметные классификации.

А.3. Фасетные классификации.

Б. Посткоординируемыеi ИПЯ.

Б.1. Дескрипторные языки.

Б.2. Семантические языки.

Б.3. Синтагматические языки.

В. Язык библиографических ссылок.

Предкоординированные ИПЯ объединяет то, что в них заранее перечислены имена всех основных классов и подклассов. К этим языкам относятся классификации понятий. В основе построения классификаций лежит принцип деления понятий, а сами классификации имеют структуру “дерева знаний” с поименованными узлами. Для каждого узла дерева дается идентификатор (имя) – обозначение понятия. В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе могут быть заданы свои классификационные признаки и их значения. Алфавитно-предметные и фасетные классификации также основываются на предварительном составлении перечня основных категорий и классов предметов, встречающихся в конкретной предметной области.

В алфавитно-предметных классификациях классы понятий называются словами естественного языка и располагаются в алфавитном порядке. Они предназначены для узкопредметного поиска документов, главная тема которых обозначается именем соответствующего предметного класса (предметным заголовком). Классы понятий в них называются предметными рубриками. В отличие от иерархических, алфавитно-предметные классификации содержат большое число фиксированных рубрик верхнего уровня (заголовков) с незначительной глубиной дальнейшего деления (на подзаголовки). В основу фасетных классификаций положен принцип классификации одного и того же множества предметов и явлений по разным основаниям, а именно: для одного и того же множества объектов строится несколько иерархических классификаций. Основные категории – основания для классификации – называются фасетами (от англ. facet – аспект, рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

В основу построения посткоординируемых языков положен принцип координации – соотнесения двух понятий и порождение ими нового непосредственно в процессе поиска. Координация, или логическое умножение понятий, в результате которой из простых лексических единиц строятся более сложные, выражающие более узкие понятия, осуществляется как бы дважды: потенциально – при индексировании документа – и реально – в процессе поиска: при сопоставлении поискового образа документа с терминами запроса (поискового предписания). Например, пересечением понятий БИБЛИОТЕКИ и АВТОМАТИЗАЦИЯ, заданных в поисковом предписании, порождается новое более узкое понятие АВТОМАТИЗАЦИЯ БИБЛИОТЕК.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]