Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
51-55.doc
Скачиваний:
2
Добавлен:
24.08.2019
Размер:
195.58 Кб
Скачать

55. Поиск информации в Интернет. Принципы построения универсальных поисковых систем. Работа механизмов поиска. Процесс поиска информации. Классификация поисковых систем.

Работа с панелью Поиск

Возможность поиска необходимой информации – одна из наиболее привлекательных особенностей Интернет. Для поиска создано большое число универсальных и специализированных поисковых систем. Основываются они на различных механизмах, имеют всяческие возможности. Однако неподготовленный пользователь в состоянии найти интересующую его информацию. Для этого достаточно ввести поисковый запрос, т. е. то, что вас интересует, в специальную форму и нажать кнопку Поиск (Search).

Рассмотрим использование встроенной в Microsoft Internet Explorer 6.0 панели Поиск (Search). Аналогичные панели Поиска присутствуют и в других популярных браузерах.

Критерии поиска

К заданию критериев поиска следует подойти достаточно серьезно и тщательно продумать его стратегию. Неправильно сформулированный запрос может привести к тому, что вы потратите много времени и нечего не найдете или будет найдено совсем не то, что вам нужно. Тщательно продумайте, какой набор ключевых слов вы будите использовать, постарайтесь составить список их синонимов и близких по значению слов и слов, связанных по контексту с ключевыми. Подобрать ключевые слова и правильно сформулировать запрос для конкретной поисковой системы помогает понимание реализации её поискового механизма и приобретения навыков и опыта работы.

При первой попытке рекомендуется использовать как можно больше ключевых слов, а также возможности расширенного поиска, предоставляемые практически любой поисковой системой.

Для примера воспользуемся поисковой системой Яндекс (www.yandex.ru ). Эта система позволяет формулировать запрос на естественном языке. Например, нас интересует наличие лекарства от гриппа в аптеках Москвы. Для этого вводим в специальном поле "Наличие лекарства от гриппа в аптеках Москвы" и нажимаем кнопку Поиск (Search). Загружается новая веб-страница содержащая множество ссылок с результатами обработки запроса.

Есть два пути найти приемлемый ответ на поставленный запрос – поставить сортировку по дате, т. е. последний проиндексированный сайт будет находиться вверху. Или же можно воспользоваться расширенным поиском, например, повторить поиск в найденных веб-страницах в регионах Москвы. Число страниц с результатом запроса уменьшится более, чем вдвое. В самом верху страницы будут содержаться ссылки на веб-страницы, которые наилучшим образом совпадают с запросом. Далее можно уточнить запрос, введя ограничения по дате. Тем самым количество результатов будет меньше, но они будут более похожи на то, что нам именно надо. Преимущества использования поисковой панели очевидны. Нет необходимости открывать много окон, в каждом из которых будет загружаться определенная поисковая система. Таким образом, снижается нагрузка на процессор, результаты поиска предстают в более удобной, лаконичной форме, что позволяет затрачивать меньше времени на поиск необходимой информации и, соответственно, уменьшить время нахождения в сети.

Особенности работы с Microsoft Internet Explorer версии 7.

После 5-летней работы над новой версией браузера Internet Explorer к началу 2007 года появилась 7 версия. В отличии от своего предшественника новая версия воплотила большинство хорошо зарекомендовавшихся нововведений в интенсивно развивающихся браузерах Opera и Firefox. Обновился внешний интерфейс браузера и значительно улучшились возможности безопасной работы в Интернет.

Новый интерфейс браузера Internet Explorer 7 выводит больше информации на каждой посещаемой веб-странице. Рационально организованная панель инструментов облегчает добавление веб-узлов в избранное, поиск в Интернет, очистку журнала и доступ к другим наиболее часто используемым задачам и средствам. Окно Internet Explorer 7 выглядит более удобно для пользователя – убрана верхняя линейка меню, уменьшены размеры пиктограмм кнопок.

Internet Explorer 7 научился открывать несколько сайтов в одном окне, используя для этого вкладки. Пользователи уже давно использовали вкладки в альтернативных браузерах – Mozilla, Firefox и Opera, однако в Microsoft до недавних пор считали, что вкладки могут только запутать пользователей Интернет. Если нужно сравнить цены, выполнить поиск в Интернет или просто проследить нужной информацией из разных источников, в браузере Internet Explorer 7 можно одновременно просматривать несколько веб-сайтов в одном окне используя простой способ переключения между веб-сайтами и закрытия вкладок.

AOL, Ask, Google, Lycos, NIGMA, Rambler, Yahoo!, Yandex.

Основные протоколы, используемые в Интернет, не содержат специальных встроенных функций поиска. Протокол HTTP был создан, как средство навигации, т.е. просмотра страниц и не содержит функций для построения эффективного поиска информации. То же самое относится и к протоколу FTP, более простому, чем HTTP, который используется для обмена файлов. Из-за быстрого роста объёма информации, доступной в Сети, навигационные методы просмотра достигли предела их функциональных возможностей и не эффективны. Нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они доступны пользователям Интернет. К тому же сегодня их количество возрастает по экспоненциальной зависимости.

Кроме того, информация в Интернет очень динамична. Количество изменений, которым она подвергается огромно. Они совершаются за короткие временные периоды. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых данных, были созданы поисковые системы.

Все поисковые системы, предназначенные для Интернет, имеют более или менее схожие принципы работы. Каждый из "поисковиков " опрашивает свой внутренний каталог по ключевым словам или фразам, которые Вы указываете при определении сценария поиска. Различие состоит лишь в объёме просматриваемой информации и алгоритме поиска, плюс, в наличии дополнительных сервисов (например, встроенных тематических каталогов или рейтинга индексируемых страниц). Распространено заблуждение, что во время поиска по запросу избранная поисковая система перебирает миллионы известных ей адресов и сверяет соответствие ключевых слов содержимому "свежих" веб-страниц. Поиск ведется в базе на множестве серверов поисковой системы, а в ответ на запрос выдаются подходящие адреса веб-страниц во всех концах Интернет.

Поисковая система ведёт постоянный опрос узловых адресов в Сети, пополняя собственную базу данных. Не огорчайтесь, если любимая поисковая система не обнаружила свежей информации, о существовании которой Вам достоверно известно, или выдала устаревший несуществующий адрес. Ведь, если бы "поисковик" при каждом запросе опрашивал всю Сеть, то Вы никогда бы не получили результата поиска. В значительной степени, доступность документа для поисковой системы зависит от её реализации. Реализация может использовать наиболее запрашиваемые ключевые слова, разместить документ на доступном для основных поисковых машин сервере и заявить о себе поисковым службам международной сети Интернет.

Поисковые системы обычно состоят из трех компонент:

  • агент (паук или кроулер), который перемещается по Сети и собирает информацию;

  • база данных, которая содержит всю информацию, собираемую пауками;

  • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных поисковой системы.

Работа механизмов поиска

Средства поиска и структурирования информации, иногда называемые поисковыми механизмами, используются для того, чтобы помочь найти нужную пользователям информацию.

Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети. Это специальные программы, которые занимаются поиском страниц в Интернет, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую находят, для построения базы данных.

Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Одни следуют за каждой ссылкой на каждой найденной странице и затем исследуют каждую ссылку на каждой из новых страниц, и так далее. Другие игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; третьи игнорируют ссылки к ресурсам типа баз данных; четвёртые просматривают, прежде всего, наиболее популярные страницы.

Общий поиск информации в Интернет осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую их найденных ссылок.

Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за своей природы они могут застревать в циклах, поэтому им требуются значительные ресурсы. Существуют методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты – самые "интеллектуальные" из поисковых средств. Они могут больше, чем просто искать информацию: они могут выполнять даже транзакции от имени пользователя. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по посещаемости. Агенты могут также обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут быть запрограммированы для извлечения информации из уже существующих баз данных.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Процесс поиска информации

Когда пользователь хочет найти информацию, он посещает страницу поисковой системы и заполняет форму, детализирующую запрос на необходимую ему информацию. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

Затем база данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит список соответствующих документов, подготовленный базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее адекватные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения адекватности следующие:

  • Количество слов запроса в текстовом содержимом html-страниц;

  • Тэги (разделители, которые используются для разметки информации в html-страницах), в которых эти слова располагаются;

  • Местоположение искомых слов в документе;

  • Удельный вес слов, относительно которых определяется адекватность, в общем количестве слов документа.

Представленные ниже принципы используются некоторыми, но достаточно известными.

Время – как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует сайтов, которые живут максимум месяц. Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

Индекс цитируемости – как много ссылок на данную страницу с других страниц, зарегистрированных в базе поисковой системы.

База данных выводит ранжированный подобным образом список документов и возвращает его пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают разные способы показа полученного списка – некоторые показывают только ссылки; другие выводят ссылки с первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ссылкой.

Классификация поисковых систем

1. По способу реализации

  • Уникальные поисковые, которые используют собственные оригинальные механизмы поиска и базы данных. К ним относятся, например: Я́ндекс, Google.

  • Мета-ситемы (также называемые метакраулером или мульти-поточной системой), представляющие собой поисковый инструмент, посылающий запрос одновременно на несколько поисковых систем, каталогов и, иногда, в так называемое невидимое (скрытое) - собрание онлайновой информации, не проиндексированной традиционными поисковыми системами. Собрав результаты, мета-поисковая система удаляет дублированные ссылки и, в соответствии со своим алгоритмом, объединяет/ранжирует результаты в общем списке. К ним относятся, например: Metabot.ru, Nigma, Search.com.

2. По национально-территориальной направленности.

Большинство национальных поисковиков при реализации механизма поиска в основном индексируют ресурсы, расположенные в тех доменных зонах, где доминирует национальный язык или другими способами ограничивают своих роботов национальными сайтами. Они также учитывает морфологические особенности национального языка.

Здесь важным является понятие национального корпуса языка.

Национальный корпус – это информационно-справочная система, основанная на собрании текстов в электронной форме. Национальный корпус представляет данный язык на определенном этапе существования во всём многообразии жанров, стилей, территориальных и социальных вариантов и т.п. Например, национальный корпус русского языка – http://www.ruscorpora.ru. Корпус русского языка – это собрание грамматически размеченных русских текстов XIX–XXI вв. в электронной форме, удобной для автоматического поиска и научных исследований. В его состав входят тексты самых разных жанров, причем не только произведения художественной литературы, но также – в сбалансированном объеме – научные, научно-популярные, религиозные и иные сочинения, публицистика, производственно-технические, юридические и многие другие тексты. Благодаря этому Корпус максимально представительно отражает русский литературный язык во всем многообразии его письменных форм. Объём корпуса русского языка к началу 2007 года составил около 120 миллионов словоупотреблений.

3. По специализации.Например: поиск изображений, поиск файлов, поиск новостей и т.п.

Специализированные поисковые Интернет- ресурсы

Каталог ресурсов Интернет – это постоянно обновляющаяся и пополняющаяся иерархическая структура, содержащая множество категорий и отдельных web-серверов с кратким описанием их содержимого. Способ поиска по каталогу подразумевает «движение вниз по ступенькам», то есть движение от более общих категорий к более конкретным.

Одним из преимуществ тематических каталогов является то, что создатели каталога дают пояснения к ссылкам и полностью отражают его содержание. Это дает возможность точнее определить, насколько соответствует содержание сервера цели поиска. В зависимости от широты тематики ссылок каталоги могут быть общими и специализированными.

Преимуществом такого вида поисковых инструментов является их целенаправленность, обычно подборка включает в себя редкие интернет ресурсы, подобранные конкретным веб-мастером.

Русскоязычные каталоги: http://yaca.yandex.ru/ – общий каталог Яндекса; http://list.mail.ru – общий каталог mail.ru (бывший list.ru); http://www.google.ru/dirhp?hl=ru&tab=wd&q – общий каталог Google.

Тематические каталоги: http://www.yellowpages.ru/ – Желтые страницы. Телефоны, почтовые адреса, информация о деятельности более чем 1 000 000 компаний России; http://www.shoptop.ru/ – каталог Интернет магазинов; http://www.rvb.ru/soft/catalogue/index.html – каталог лингвистических программ и ресурсов в Интернет; http://link.msso.ru – каталог музыкальных ссылок; http://lib.stihi-rus.ru/ – каталог электронных библиотек; http://www.scintific.narod.ru/ – каталог научных ресурсов; http://rugorod.ru/ – каталог ссылок на сайты городов России.