13 |
Лингвистические средства информационного поиска. Состав лингвистического обеспечения ИПС. |
201-212 |
14 |
Информационно-поисковые языки: классификация, типология. |
- |
15 |
ИПЯ. Классификационные языки. |
216-224 |
16 |
ИПЯ. Дескрипторные языки. Вербальные языки. |
232-233,236-241, 426(глоссарий) |
13. Лингвистические средства информационного поиска. Состав лингвистического обеспечения ипс.
Лингвистическое обеспечение (ЛО) – совокупность языковых средств, обеспечивающих гибкость представления и обработки информации с помощью АИС (Автоматизированная информационная система). Обычно ЛО включает языки запросов и отчетов, реализующие человеко-машинное взаимодействие, а так же специальные языки определения и управления данными, обеспечивающие адекватность внутреннего представления и согласования внутреннего и внешнего представлений.
Средства:
Классификация, как средство описания содержания документа, представляет собой процесс соотнесения содержания документов с понятиями, зафиксированными в заранее составленных систематических схемах.
Языки дескрипторного типа реализуют индексирование, которое заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий либо из текстовых документов.
Основой построения большинства информационных языков является логико-интуитивный метод, который в основном сводится к следующему: рассматривая то или иное слово, человек вспоминает, с каким словом и какими отношениями оно связано, затем пытается учесть, может, та или иная связь пригодиться при поиске или обмене информацией. Внутренняя структура языка характеризуется следующими составляющими – лексикой, грамматикой и словообразованием.
Лексика – вся совокупность слов, входящих в состав языка.
Грамматика – система способов и средств построения слов и предложений в рассматриваемом языке. Грамматика состоит из морфологии (совокупность способов и средств построения слов) и синтаксиса (совокупность способов и средств построения предложений).
Словообразование – совокупность способов и средств образования слов на базе уже существующих.
Предметы и явления связаны друг с другом определенными отношениями (категории внеязыковых связей), что позволяет объединить слова в лексико-семантические группы, которые называются парадигмами. Парадигматические отношения существует независимо от контекста слов, синтагматические – отражают конкретные ситуативные отношения.
ЛО – совокупность языковых средств, позволяющих представить информацию, составляющую ИС на различных этапах внутрисистемной обработки и взаимодействия с пользователем.
Лингвистическое обеспечение — это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.
Два аспекта использования ЛО:
выражение смыслового содержания
выражение информационной потребности пользователя
Состав ЛО представлен следующей схемой:
14. Информационно-поисковые языки: классификация, типология.
ИПЯ – искусственный язык, обеспечивающий компактную, строго алгоритмизированную запись содержания документов и запросов в ИПС. ИПЯ можно определить как специализированную семантическую систему, состоящую из алфавита, правил образования (грамматики) и правил интерпретации (семантики).
ИПС – программная система для хранения и поиска данных по неформатированным запросам.
Типологии ИПЯ с точки зрения их семантической силы:
Некоординируемые языки — не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска.
Координируемые ИПЯ — языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.
Предкоординируемые — связи между лексическими единицами устанавливаются перед поиском.
Посткоординируемые — когда связи между лексическими единицами устанавливаются только при поиске.
В книжке Захарова:
А. Предкоординированные ИПЯ.
А.1. Иерархические классификации.
А.2. Алфавитно-предметные классификации.
А.3. Фасетные классификации.
Б. Посткоординируемыеi ИПЯ.
Б.1. Дескрипторные языки.
Б.2. Семантические языки.
Б.3. Синтагматические языки.
В. Язык библиографических ссылок.
Предкоординированные ИПЯ объединяет то, что в них заранее перечислены имена всех основных классов и подклассов. К этим языкам относятся классификации понятий. В основе построения классификаций лежит принцип деления понятий, а сами классификации имеют структуру “дерева знаний” с поименованными узлами. Для каждого узла дерева дается идентификатор (имя) – обозначение понятия. В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе могут быть заданы свои классификационные признаки и их значения. Алфавитно-предметные и фасетные классификации также основываются на предварительном составлении перечня основных категорий и классов предметов, встречающихся в конкретной предметной области.
В алфавитно-предметных классификациях классы понятий называются словами естественного языка и располагаются в алфавитном порядке. Они предназначены для узкопредметного поиска документов, главная тема которых обозначается именем соответствующего предметного класса (предметным заголовком). Классы понятий в них называются предметными рубриками. В отличие от иерархических, алфавитно-предметные классификации содержат большое число фиксированных рубрик верхнего уровня (заголовков) с незначительной глубиной дальнейшего деления (на подзаголовки). В основу фасетных классификаций положен принцип классификации одного и того же множества предметов и явлений по разным основаниям, а именно: для одного и того же множества объектов строится несколько иерархических классификаций. Основные категории – основания для классификации – называются фасетами (от англ. facet – аспект, рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.
В основу построения посткоординируемых языков положен принцип координации – соотнесения двух понятий и порождение ими нового непосредственно в процессе поиска. Координация, или логическое умножение понятий, в результате которой из простых лексических единиц строятся более сложные, выражающие более узкие понятия, осуществляется как бы дважды: потенциально – при индексировании документа – и реально – в процессе поиска: при сопоставлении поискового образа документа с терминами запроса (поискового предписания). Например, пересечением понятий БИБЛИОТЕКИ и АВТОМАТИЗАЦИЯ, заданных в поисковом предписании, порождается новое более узкое понятие АВТОМАТИЗАЦИЯ БИБЛИОТЕК.