Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика - ответы .doc
Скачиваний:
326
Добавлен:
13.07.2019
Размер:
811.52 Кб
Скачать

28. Назначение информационно-поисковых систем; поисковые языки.

ИПС

ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу. Виды релевантности Содержательная релевантность Соответствие документа информационному запросу, определяемое неформальным путем. Одним из методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину — то есть документ будет выдаваться раньше в результатах поиска по данному термину. Автором метода является Gerard Salton (в дальнейшем доработан Karen Sparck Jones) Формальная релевантность Соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.

Информационно-поисковые языки

Поисковое пространство строится на основе языков баз данных, называемых информационно-поисковыми языками(ИПЯ). Формализация лексики и создание различных ИПЯ вызвано необходимостью устранения "избыточности" и "недостаточности" естественного языка для целей информационного поиска, а также ликвидации присутствующий в нем синонимии и омонимии (см. ниже) для реализации "однозначности" информационного поиска.Любой абстрактный ИПЯ состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

В ИПЯ можно выделить алфавит, лексику и грамматику.

Алфавит — совокупность определенных символов для записи слов и выражений. Во многих языках для этого используются символы естественного языка.

Лексика — совокупность всех использующихся в языке слов — лексических единиц.

Грамматика — правила составления выражений. Грамматика во многих ИПЯ формальна, а в некоторых вообще отсутствует.

Для упорядочения лексических единиц при построении лексики служат парадигматические отношения, то есть смысловые отношения между лексическими единицами. Эти отношения устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. ИПЯ представляют собой формализованную семантическую систему, предназначенную для выражения содержания документа и запроса по их поиску. ИПЯ можно разделить на структурную и популяционную составляющую.

Структурная составляющая ИПЯ на основе индексирования реализуется индексными указателями в форме информационно-поисковых каталогов, тезаурусов и генеральных указателей. Информационные-поисковые каталоги являются традиционными технологиями информационного поиска в библиотеках, архивах и представляют собой классификационную систему по определенной предметной области. Смысловое содержание документа отображается классом каталога,а индексирование заключается в присвоении каждому документу специализированного кода(Метод, обеспечивающий возможность обращения к элементу массива с помощью указания массива и выражений, определяющих местоположение этого элемента в массиве).