- •30.Информационный поиск. Организация информационных массивов.
- •31. Информационный поиск. Методы и стратегии поиска.
- •Методы: Адресный поиск
- •Семантический поиск
- •Документальный поиск
- •Фактографический поиск
- •Стратегия поиска - определение последовательности операций, осуществляемых в процессе информационного поиска с целью повышения его эффективности.
- •32. Программные средства документальных аис
31. Информационный поиск. Методы и стратегии поиска.
Информационный поиск – процесс поиска неструктурированной документальной информации и наукаоб этом поиске.
Методы: Адресный поиск
Процесс поиска документов по чисто формальным признакам, указанным в запросе. Для осуществления нужны следующие условия:
Наличие у документа точного адреса
Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.
Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.
Семантический поиск
Процесс поиска документов по их содержанию.
Условия:
Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.
Составление поискового описания, в котором указывается дополнительное условие поиска.
Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при сем. поиске — с точки зрения содержания.
При семантическом поиске находится множество документов без указания адресов.
В этом принципиальное отличие каталогов и картотек.
Библиотека — собрание библиографических записей без указания адресов.
Документальный поиск
Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.
Два вида документального поиска:
Библиотечный, направленный на нахождение первичных документов.
Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.
Фактографический поиск
Процесс поиска фактов, соответствующих информационному запросу. К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.
Различают два вида:
Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.
Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.
Стратегия поиска - определение последовательности операций, осуществляемых в процессе информационного поиска с целью повышения его эффективности.
Информационный поиск осуществляется по определенным правилам, определяющим стратегию поиска, т.е. способы достижения оптимального результата. Стратегия информационного поиска зависит от типа поисковой задачи, критериев выдачи и характера диалога между потребителями информации и ИПС.
В общем случае процедура информационного поиска состоит из четырех этапов:
· уточнения информационной потребности и формулировки запроса
· определения совокупности держателей информационных массивов
· извлечения информации из информационных массивов;
· ознакомления пользователя с полученной информацией и оценки результатов поиска.
32. Программные средства документальных аис
Автоматизированная информационная система (АИС) — это функционирующий на основе компьютеров и других технических средств информатики комплекс для сбора, хранения, актуализации (обновления) и обработки информации.
Основу комплекса АИС составляют технические средства (компьютер или сеть компьютеров с периферийным оборудованием), программное обеспечение, языковые средства и информационные ресурсы.
Обычно выделяют два крупных класса АИС — документальные и фактографические, хотя встречаются и комбинированные системы.
Документальные АИС предназначены для работы с документами на естественном языке, такими, как книги, статьи, отчеты, труды конференций, патенты, диссертации, авторефераты, архивные материалы.
Наиболее распространены информационно-поисковые системы (ИПС) для накопления и поиска информации по запросам пользователей (абонентов). Как и АИС, существуют документальные и фактографические ИПС. ИПС содержат программные средства, поисковый информационный массив данных (документов, сведений), отражающих достигнутый уровень знаний о предметной области, и средства поддержки информационного языка. По мере эволюции знаний о предметной области изменяется и поисковый информационный массив, причем возможные изменения также регламентируются ограничениями целостности данных. Отображаемая в ИПС структура предметной области и ограничения целостности составляют информационно-логическую, или, короче, инфологическую модель предметной области.
Программные средства ИПС оформляются в виде пакетов управляющих и прикладных программ и служат для организации и хранения информации, организации взаимодействия пользователей с системой, обработки пользовательских запросов и выдачи результатов поиска, обеспечения эффективного использования ресурсов компьютера и надежного функционирования системы при одновременной работе многих абонентов. Наиболее продуктивной технологией работы современных ИПС является технология «клиент — сервер».
Поисковый массив данных документальной ИПС составляет ее базу данных. Обычно он не содержит непосредственно текстов документов.
Основная функция ИПС — выявление элементов информационного поискового массива, которые отвечают на запрос, предъявленный системе. Запрос составляется пользователем на естественном языке, а затем автоматически преобразуется в поисковый образ запроса — некоторое формализованное предписание. Для поиска используются записанные на информационном языкепоисковые образы документов в виде формализованных объектов, отражающих содержание документов, сохраняемых в базе данных. Поисковые образы обычно формируются при вводе документов в базу данных специалистом в соответствующей предметной области. Для этого осуществляетсяиндексирование документов: снабжение их ключевыми словами, рубриками и другими указателями. Возможно также и автоматическое индексирование документов средствами самой ИПС.
При обработке запроса поисковый образ запроса сравнивается с поисковыми образами документов по некоторому критерию, который называют критерием смыслового соответствия. Документы, удовлетворяющие этому критерию, считаются релевантными запросу и в ответ на поступивший запрос выдаются сведения обо всех релевантных документах. Правильная реализация критерия смыслового соответствия — одна из наиболее сложных проблем в работе ИПС. При этом надо исключить как неполноту поиска, так и «информационный шум», под которым понимаются случайные погрешности поиска, вследствие которых может не выдаваться часть релевантных документов или, наоборот, выдаются лишние, нерелевантные документы. Основные причины указанных недостатков поиска — неудовлетворительное индексирование документов, слабые языковые и программные средства.