Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Б1108МРТ2.docx
Скачиваний:
2
Добавлен:
26.11.2019
Размер:
56.17 Кб
Скачать

Глобальные поисковые машины www

После знакомства с несколькими глобальными поисковыми машинами пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. При этом выбор поискового сервиса часто происходит совершенно произвольным способом, не на анализе действительных возможностей систем, а на их популярности. Одна из самых крупных и популярных -AltaVista. Система AltaVista отличается гибким языком запросов, требующим, однако, специального изучения. AltaVista обладает многоязыковой поддержкой поискового индекса и возможностью перевода в режиме on-line (то есть непосредственно во время сеанса работы) текста Web-страницы с распространенных европейских языков на английский.

Еще одна известная система - это Northern Light, имеющая достаточно стандартный набор функций. Система дополнительно дает возможность работы с уникальной коллекцией ссылок (более 6 тысяч), в основном на статьи из периодических изданий. Индексное сопровождение кириллицы (в том числе и русского языка) делает ее вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Yndex и Апорт при русскоязычном поиске.

Планирование поиска

Поиск и сбор информации в Интернете нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов поиска, попытки ускорить поиск - все это не просто затягивает получение результата, но может поставить под угрозу смысл поисковой работы.

Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами таких работ.

Начинать необходимо со всестороннего лексического анализа искомой информации. Следует использовать любое, достаточно достоверное и подробное описание исследуемого вопроса для получения первичных сведений. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики, сленга, слов-клише и устойчивых словесных штампов, при необходимости на нескольких языках. Заранее следует определить и возможные уточнения поискового запроса- редкие слова, синонимы и антонимы. названия и фамилии, тесно связанные с искомым вопросом. Желательно также заранее предусмотреть возможные нерелевантные отклики на запросы, то есть возможные характеристики поискового шума. После накопления этих предварительных данных можно перейти к получению первичной информации из Интернета.

Основная задача этой стадии учесть особенности Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличатся от принятых.

Сведения о наличии в Интернете необходимых данных лучше всего искать в ранее известном каталоге, поддерживающем поиск по ключевым словам. При решении, например, простых задач типа "Получить текст Конституции Республики Беларусь" или "В каких правовых актах употребляется название родного города" известный сайт или каталог может быть более быстрым способом получения информации, чем автоматический индекс, и обеспечит большую достоверность.

После лексического анализа информации наступает технологический этап. Выбор информационного поля Интернета и поисковых инструментов производится на основе вышеизложенных подходов.

Используются тестовые запросы из одного-двух ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы, но релевантности отклика. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

В заключение отметим, что при решении задачи сбора информации из Интернета значительную роль играют региональные и специализированные поисковые сервисы. Применение глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет сократить сроки решения поставленной поисковой задачи.

 

Поиск с использованием Булевой логики

Выбирайте использование логических запросов, когда необходим строго ограниченный поиск. Если Вы решили использовать Булеанову логику, Вы найдёте, что наша поисковая машина может быть очень мощной и точной.

С целью использования естественного языка по умолчанию устанавливается оператор OR (ИЛИ). Это значит, что если Вы ничего не вставляете между двумя словами, поисковая машина интерпретирует пробел между ними как Булеанов оператор OR (ИЛИ). Например:

Heart disease

тоже самое, что

Heart OR Disease

Чтобы использовать два слова как фразу, Вам следует заключить эти слова в одинарные кавычки или поставить между ними оператор ADJ. Например:

'Heart disease'

то же самое, что

Heart ADJ disease

Для более лёгкого ограничения запроса мы поместили несколько полей, которые можно выбрать с поисковой страницы. Однако Вы можете ограничить поиск в любом поле базы данных MEDLINE, используя оператор разграничения полей ":". Например:

0098-7484:IS

ограничит Ваш поиск теми записями, которые имеют номер 0098-7484 в поле ISSN. Если Вы решили использовать разграничитель полей или любой другой Булеанов оператор, убедитесь, что выбрано проведение поиска в "All Fields" ("Все поля").

Вы можете использовать комбинированный запрос, выбирая запросы из поисковой истории и используя операторы AND (И) или OR (ИЛИ). Для более сложных комбинаций Вы можете использовать поисковое окно и вводить комбинации, как например:

#1 NOT #2  #5 and diabetes

Ниже приведён список поисковых операторов с коротким описанием каждого, и список всех полей, могут использоваться для ограничения результатов поиска.

 Поисковые операторы

AND

Оператор Булеановой логики. Ищет записи, содержащие оба слова, которые он разделяет.

OR

Оператор Булеановой логики. Ищет записи, содержащие любое из слов, которые он разделяет.

NOT

Оператор Булеановой логики. Ищет записи, содержащие слово, предшествующее ему, но не содержащие слова, следующего за ним.

NEAR

NEAR оператор. Работает как двунаправленный оператор близости, если выбрано расстояние между словами (например deficit near/3 spending). Если расстояние между словами не указано, действует как двунаправленный оператор смежности.

ADJ

Оператор смежноси. Ищет записи, в которых стоящее за ним слово следует непосредственно за стоящим перед ним словом.

w/n

Оператор близости. Например: amphibian W/5 DNA. Этот запрос отберёт записи, в которых DNA стоит в пределах 5 слов после amphibian.

?

Свободный опрератор для одного символа; соответствует одной любой букве.

*

Свободный оператор для последовательности; соответствует любой последовательности. Например: micro* соответствует microscope, microcomputer, *late соответствует relate, translate

+

Оператор словоформ; продолжает слово (если выключен поиск со словоформами) Например: run+ находит run, runs, and running

#

Оператор точного соответствия; определяет точное соответствие слову (если включен поиск со словоформами) Например: run# находит run, но не runs или running

@

thesaurus operator; replaces the word before the operator with its synonyms from the thesaurus Example: cancer@ is replaced by synonyms listed for cancer in the thesaurus

!

concept operator; spontaneously generate a list of words related to the word before the operator; searches for, retrieves, and ranks all records containing those related words; hit words are not highlighted

:field

field restriction operator for a single word in the query; specifies that the word before the colon is to be searched only against field. Example: smith:au specifies that the author field is to be searched for the query word smith

/F:

field1, field2...field restriction operator for the entire query; specifies that the entire query is to be searched against fields Example: diabetes children/F:ab,au,ti specifies that diabetes and/or children need to be in either the abstract, author, or the title field for the record to be retrieved

field=num

numeric match operator; specifies that field must exactly match num, where num is a non-negative number Example: dp=1982 requires the contents of the year field to contain 1982

Phrase

To search for a phrase use the single quote delimiter. Ex: 'N ENGL J MED'

ОБЩИЕ ПРИНЦИПЫ ОРГАНИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

 

Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети чрезвычайно велико. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен. За те полминуты, что мы потратим на чтение первых строк этого раздела, в виртуальной вселенной появится порядка сотни новых или измененных документов, десятки будут перемещены на новые адреса, а единицы - навсегда прекратят свое существование.

Необходимость и важность проблемы информационного поиска привела к образованию в самом Интернет целой отрасли, задача которой заключается именно в оказании помощи пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые службы или сервисы. Условно их можно разделить на кaтaлoги (dirесtоriеs) и пoиcкoвыe мaшины (sеаrсh еnginеs).

Эти разновидности внешне очень похожи, поскольку каждый каталог, как правило, обладает собственной поисковой машиной, а каждая поисковая машина - собственным каталогом. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии/неучастии человека. Поисковые машины запускают в Web программных «пауков» (spiders), которые путешествуют со страницы на страницу и на каждой индексируют ее полный текст. Каталоги же формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам. При этом каждая разновидность поисковых сервисов применяется для решения определенного типа задач. Правильным выбором инструмента во многом определяется стратегия поисковой деятельности и, в конечном итоге, результат разысканий.

Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации - каталоги или поисковые машины - не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети совокупного содержания Сети. Причина этого - постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен.

Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью каталогов, можно провести более детальное их обследование, использовав локальный поисковый механизм. Таким образом, для достижения наиболее полных результатов следует применять каталоги и поисковые машины в сочетании друг с другом.

Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.

1. Для поиска материалов по крайне узкой специфической тематике стоит начинать с каталогов.

2. Для получения более полных результатов по сложному запросу поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.

3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам.

4. Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса процент информационного шума будет намного ниже.

При систематическом обращении к поисковым средствам, необходимо постоянно следить за новостями, относящимися к поисковому сервису. В окружающем нас мире вообще, а в цифровом мире тем более, нет ничего вечного. Каждая поисковая система переживает периоды зарождения, расцвета и упадка. Не бойтесь отказаться от использования любимой, но устаревающей поисковой системы и перейти на использование новых поисковых инструментов, обладающих большей эффективностью.