Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
мир_умк_самый последний.doc
Скачиваний:
175
Добавлен:
03.05.2019
Размер:
1.98 Mб
Скачать
  1. Поиск информации в профессиональных базах

Интенсивное развитие информационно-коммуникационных технологий повлекло за собой лавинообразный рост накапливаемой информации. Было замечено, что рост документальной информации подчиняется закону Мура с небольшой корректировкой, т.е. объем документальной информации удваивается каждые три года.

Большие массивы информации ведут к увеличению затрат на приобретение доступа к информационным ресурсам и времени для работы с ними. Эффективность работы с информационными ресурсами зависит во многом от методов структуризации информации в базах данных, программного обеспечения для работы с большим массивом информации и, конечно, от квалификации специалистов, где большое значение приобретают знания и умения поиска информации.

Одним из основных преимуществ профессиональных баз данных перед ресурсами Интернета является обработка поступающей информации, т.е. разнесение ее по рубрикам, выделение в документах сегментов, таких, как автор, заголовок, дата и т.п. Например, информационные ресурсы в системе LexisNexis иерархически структурированы, что обеспечивает пользователю дополнительные возможности для проведения поиска.

Вся информация, находящаяся в LexisNexis, расположена в различных библиотеках, всего 180 библиотек. Каждая библиотека представляет собой коллекцию источников информации, относящихся к определенной тематике; например, библиотека NEWS (газеты, журналы, сообщения информационных агентств, бюллетени), библиотека COMPANY (разнообразная справочная информация о компаниях), библиотека MARKET (содержит источники информации о рекламе, маркетинге, исследованиях, рынка, сбыте, состоянии мирового и регионального рынков различных товаров) и т.д., или же библиотеки формируются по географическому признаку, например, WORLD, EUROPE, ASIA и т.д.

Каждая библиотека содержит файлы. Файл является минимальной единицей, в которой проводится поиск. Файл содержит документы, поступающие от одного или нескольких источников информации.

Каждый документ в файле состоит из нескольких частей, которые называются сегментами. Общими сегментами для всех документов являются: название (сегмент HEADLINE); автор (сегмент BYLINE); дата (сегмент DATE); текст документа (сегмент BODY). Кроме того, дополнительно в зависимости от тематики документа выделяются сегменты "компания" (куда заносятся наименования всех компаний, упоминавшихся в документе); продукт (название продуктов или услуг, о которых идет речь в документе); регион; персонал и т.д. В зависимости от типа документа — статья в газете, маркетинговый отчет, судебное дело, биография известного человека — будет меняться набор сегментов, из которых состоит документ, и названия сегментов.

Поисковые инструменты информационных систем могут иметь как общие черты, так и существенные различия. В некоторых видах систем удобство инструментов для работы с массивами документов является основным конкурентным преимуществом. Например, на российском рынке правовой информации производители справочно-правовых систем борются за потребителя путем совершенствования интерфейса и поисковых инструментов своих систем.

Поиск информации является важной составляющей работы с информационными ресурсами и занимает значительное время работы пользователя с системой. Для повышения эффективности процесса поиска и сокращения затрачиваемого на него времени разрабатываются различные поисковые инструменты и формы предоставления информации. Файлы могут быть либо фактографические, либо документальные.

Выполнение информационного поиска возможно либо по тексту (полнотекстовый поиск), либо при помощи каталога. При полнотекстовом поиске отыскиваются слова в тексте документа либо в его сегменте, например, в заголовках статей и рефератах, перебирая все варианты написания и синонимы. В некоторых системах поисковая программа позволяет вводить набор слов и учитывает некоторые формы слова, например, множественное число.

Каталог в информационной системе — это оглавление файлов, составленное по тематическому или региональному признаку, имеющее иерархическую структуру.

Полнотекстовый поиск и поиск при помощи каталога не являются взаимоисключающими, напротив, наиболее эффективные стратегии поиска получаются при их комбинации.

Несмотря на разнообразие поисковых инструментов, процесс поиска информации можно разбить на четыре этапа.

1. Формулировка задачи. Цель этого этапа состоит в четком определении информационной потребности. Информационной потребностью может быть определенный документ, например закон или публикация, конкретная информация или информация, посвященная определенному кругу вопросов. Исходя из формулировки потребности, можно выбрать наиболее подходящие методы поиска, подобрать ключевые слова, которые могут встречаться в искомых документах.

2. Выбор информационного ресурса. После формулировки информационной задачи необходимо выбрать информационный ресурс, который может содержать неполную информацию. Выбор информационного ресурса ограничивается возможностями получения доступа.

3. Построение запроса. После того как информационная задача строго сформулирована и выбран информационный ресурс, необходимо составить поисковый запрос.

Для документальной информационной системы может быть предложена следующая последовательность действий:

  • выбрать соответствующую тематическую рубрику (как правило, в базах данных информация разнесена по рубрикам);

  • разбить вопрос на понятия, которые следует искать отдельно, а затем объединить их соответствующими логическими операторами (and, or, not), если в системе поиска предусмотрены булевы операции.

Практически во всех информационных системах существует свой язык построения поисковых запросов для проведения Поиска слов и выражений по тексту документа. Общими элементами этих языков является булева логика, разработанная английским математиком Джорджем Булем (1815-1864). Булева логика используется тогда, когда поисковый запрос содержит более одного понятия. В этом случае можно применить операции: "И" (AND - требует наличия всех терминов, в результате уменьшает число найденных документов), "ИЛИ" (OR - требует наличия в документе хотя бы одного понятия, в результате увеличивает число документов), "НЕ" (NOT - требует отсутствия термина, в результате уменьшает число найденных документов);

  • учесть все варианты написания слов и синонимы при поиске произвольного текста. Необходимо использовать соответствующие классификаторы, словари и тезаурусы, что может значительно повысить эффективность запроса.

4. Оценка результатов поиска является важным этапом информационного поиска. Она зависит от того, для каких целей будут использованы результаты поиска.

Критерии оценки поиска:

  • количество найденных документов;

  • найденные источники информации;

  • оперативность информации.

По результатам поиска, как правило, запрос корректируется. Для достижения наилучшего результата специалисты составляют несколько запросов на поиск информации. При поиске информации большое значение имеют знание специалиста инструментов поиска и умение их применять. При подписке на информационную систему сотрудники фирмы, как правило, проходят обучение работе с этой системой.

Таким образом, информационный поиск представляет собой упорядоченную последовательность действий, для того. чтобы отыскать необходимую информацию.

Особое внимание следует уделить вопросам минимизации стоимости получаемой информации от источников. В ряде случаев поиск информации производится в рамках выделенной для этого суммы. Работая с метаинформацией, возможно предварительно оценить стоимость необходимой информации.

Высокая квалификация пользователя и умение работать на предварительном этапе с документацией резко снижают общую стоимость информации, необходимой пользователю.