- •5. Информационно-поисковые системы (ипс). Типы ипс. Обзор основных типов.
- •6. Составные части ипс. Абстрактная и конкретная (реальная) ипс. Функциональные подсистемы. Обеспечивающие подсистемы. Системные взаимосвязи между элементами ипс.
- •7. Информационная потребность, информационный запрос.
- •8. Критерий смыслового соответствия. Модели поиска
7. Информационная потребность, информационный запрос.
Слово "документ" происходит от лат. "documentum" – "свидетельство". Понятие документа меняется с течением времени, постоянно появляются новые формы документов. Но и старые формы претерпевают изменения. В соответствии с российским государственным стандартом "документ" определяется как средство закрепления любым способом на специальном материале любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека.
Существуют различные классификации документов. Одним из существенных является деление документов на первичные и вторичные. К первичным относят документы, содержащие исходную информацию, исходящую от автора. К вторичным – являющиеся результатом обработки одного или нескольких первичных. Обычно такую обработку называют аналитико-синтетической. В качестве особого вида вторичного документа можно рассматривать поисковый образ документа (ПОД), являющийся результатом индексирования – записи основного содержания на специальном информационно-поисковом языке.
Документы имеют различную форму представления. В автоматизированных документальных ИПС это прежде всего текстовая информация на естественных языках в машиночитаемой форме. Существенное значение с точки поиска имеет внутренняя структура документов; разбиение их на поля и наличие элементов метаописания. Структура может разрабатываться специально для конкретной ИПС или же определяться конкретными стандартами. Языки структурирования и описания документов рассматриваются во 2-ой и 3-ей главах. Также важны форматы и кодировки документов.
В ИПС обычно имеются два типа массивов – так называемые первый и второй “контуры”. Под первым контуром понимаются поисковые массивы (поисковые образы документов), хранящиеся в компьютере (на внешних носителях), под вторым – массивы первичных документов, хранящихся часто вне компьютера (на бумаге или на микроносителях) или на других компьютерах (напр., в сети Интернет). В последнее этот термин (контур) используется все реже.
Для обеспечения эффективного и быстрого поиска большую роль играют вопросы физической организации массивов. Особенно остро этот вопрос стоит при обработке полнотекстовых документов.
Вторая часть информационного обеспечения ИПС – это запросы. Выше, в разделе 1.3.1, уже говорилось, что запрос представляет собой информационную потребность, сформулированную на естественном языке. Результат «перевода» информационного запроса на информационно-поисковый язык называют поисковым образом запроса (ПОЗ). И выявление информационной потребности, и индексирование запросов представляет собой сложные семантические процедуры, не имеющие однозначного решения. Наряду с термином «поисковый образ запроса» используется понятие «поисковое предписание» (ПП). Под этим понимают выражение на языке запросов, который включает в себя как собственно ИПЯ, так и средства управления поиском. Синтаксис и семантика языков запросов определяется структурой и наполнением документов и общими задачами системы. Для того, чтобы составить адекватное ПП, пользователь должен знать язык запросов и информационно-поисковый язык, т.е. представлять себе уровень “понимания”, “интерпретации” поисковой системой содержания документов.
Третья часть информационного обеспечения – так называемая «выдача», результаты поиска. Выдача существует в двух видах: краткие описания документов и собственно документы. Знание того, каким образом система интерпретирует документы, “что система умеет искать” необходимо не только для правильного составления ПП, но и для правильной интерпретации выдаваемых системой результатов. В любом случае поиск, выполняемый ИПС по составленному ПП, является чисто формальной компьютерной обработкой данных по заданной программе. Какой бы то ни было сущностный смысл в заданный системе вопрос и полученный от нее ответ вкладывает пользователь.