Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
30, 31, 32.doc
Скачиваний:
44
Добавлен:
04.08.2019
Размер:
97.79 Кб
Скачать

30.Информационный поиск. Организация информационных массивов.

Информацио́нный по́иск — процесс поиска неструктурированной документальной информации и наукаоб этом поиске.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

В общем случае поиск информации состоит из четырех этапов:

  • определение (уточнение) информационной потребности и формулировка информационного запроса;

  • определение совокупности возможных держателей информационных массивов (источников);

  • извлечение информации из выявленных информационных массивов;

  • ознакомление с полученной информацией и оценка результатов поиска.

Виды поиска:

Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).

Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.

Центральная задача ИП — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

Классическая задача ИП — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

Вопросы моделирования; Классификация документов; Фильтрация документов; Кластеризация документов; Проектирование архитектур поисковых систем и пользовательских интерфейсов; Извлечение информации, в частности аннотирования и реферирования документов; Языки запросов и др.

Информационный массив - совокупность зафиксированной информации, предназначенная для хранения и использования и рассматриваемая как единое целое. Информация может быть зафиксирована в виде публикаций, отчетов, электронных записей, микрокопий и т.д. Обычно на предприятиях и в учреждениях информационные массивы формируются по функциональному признаку.

Существуют различные возможности организации информационных массивов, различающиеся как способами размещения записей в массиве, так и формой представления информации о размещении записей.

Потребность в организации информационных массивов обусловлена многими факторами и, в частности, следующими:

- необходимостью хранения исходной информации, промежуточных и окончательных результатов в процессе исполнения программ и других процедур преобразования информации; использованием одних и тех же данных различными процедурами, выполняемыми как параллельно, так и последовательно;

- многократным длительным использованием некоторых данных различными процедурами;

- несовпадением моментов поступления информации с моментами ее потребления.

Методы организации информационных массивов должны обеспечить: возможность хранения информации, изменяющейся по своему обьему, структуре и содержанию; получение сведений, которые в систему в явном виде не вводились, гибкость обработки запросов и быстроту поиска нужной информации; зкономию памяти машины; оптимальное распределение массивов между запоминающими устройствами; контроль достоверности данных и защит/ от искажений.