Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Информатика.-6

.pdf
Скачиваний:
7
Добавлен:
05.02.2023
Размер:
1.23 Mб
Скачать

 

 

111

 

и

динамике

популярности

сервера.

Таким образом, сервер помогает получить верное представление о популярности отечественных Web-серверов. Российская часть

Интернет

представлена

здесь

достаточно

полно.

Яndex

-

 

http://www.yandex.ru

Занимает одно из ведущих мест среди русскоязычных поисковых серверов. Активно и динамично развивается.

Стратегии, применяемые для поиска информации в Интернет, постоянно совершенствуются. Так Google (www.google.com), некоторое время назад считавшийся экспериментальной поисковой системой, сейчас пользуются пятнадцать миллионов человек ежемесячно. Секрет Google в удачном алгоритме отбора документов, отвечающих поисковому запросу. Предшественники Google пытались определить "ценность" документа только на основании анализа его текста: как часто и как близко к началу документа встречаются там слова из запроса, есть ли они в заголовке и т.д.

Создатели Google решили оценивать соответствие документа запросу с помощью специального числа, похожего по смыслу на индекс цитирования: чем больше ссылок на данный документ, тем это число, называемое PageRank, больше. Если же сервер не находит запрашиваемой комбинации в своем каталоге, то пользуется тематическим каталогом Yahoo. Результаты оказались столь хороши, что Google стал "народной" поисковой системой. Google постоянно совершенствует свой сервис: проиндексированы все документы в формате pdf, организован поиск картинок в Интернет

(images.google.com).

Одним из недостатков Google можно считать отсутствие диалога с пользователем во время подбора документов. Этот недостаток стараются исправить конкуренты Google, классифицируя найденные документы. Так поисковая система Teoma (www.teoma.com) автоматически классифицирует найденные ссылки на документы. Результаты при выводе делятся на три части: собственно классификация, занимающая верхнюю часть окна, документы, лучше всего соответствующие запросу, размещаются слева, а справа выводятся документы, в которых много ссылок на страницы, стоящие слева.

Еще одним претендентом на роль заменителя Google является

112

метапоисковая система Vivisimo (www.vivisimo.com), разработанная в университете Карнеги. Как и Google в прошлом, Vivisimo - экспериментальный некоммерческий проект. Основной особенностью этой системы является представление в виде дерева (иерархическая кластеризация) документов, найденных другими поисковыми системами, такими как Altavista и Fast (www.allthemes.com). В сущности Vivisimo даже не метапоисковая система, а приставка, способная кластеризовать любые данные. Алгоритм кластеризации Vivisimo присоединяется к любой поисковой системе. В окошке правее окна запросов можно вместо

"Search the Web" выбрать например "Альтависту". Vivisimo

перехватит ссылки, выданные "Альтавистой", отсортирует их и разместит их на ветках дерева в левой части своего окна.

Работа с поисковыми серверами

Работа с поисковыми серверами не составляет большого труда. Вы заходите на свой любимый поисковый сервер, в строке запроса набираете на нужном языке ключевые слова или фразу, соответствующие ресурсу или ресурсам Сети, которые вы хотите найти. Затем нажимаете мышью на кнопку c английской надписью "Search" или русской надписью "Поиск", и через несколько секунд в рабочем окне браузера появляются результаты поиска.

Пусть вас не смущает яркая надпись на прямоугольной картинке в заголовке страницы. Это реклама, так называемый "баннер". При нажатии на баннер вы попадете на веб-сайт рекламодателя. Ниже, под баннером, идут ссылки на страницы, которые поисковый сервер рекомендует вам посетить, их адреса и краткие описания.

113

Окно браузера с результатами запроса к поисковому серверу. Обычно поисковый сервер выдает результаты поиска небольшими порциями, например, по 10 на одну страницу выдачи. Поэтому часто они занимают больше одной страницы. Тогда под списком рекомендуемых ссылок будет находиться ссылка, предлагающая перейти к следующей "порции" результатов поиска. В идеальном случае тот ресурс, который вы ищете, поисковый сервер поместит на первую страницу результатов поиска, и вы сразу распознаете нужную ссылку по краткому описанию. Однако часто приходится просмотреть несколько ресурсов, прежде чем обнаруживается подходящий. Как правило, пользователь просматривает их в новых окнах браузера, не закрывая окно браузера с результатами поиска. Иногда поиск и просмотр найденных ресурсов ведется в одном и том же окне браузера. Если ресурс не удовлетворяет ожиданий пользователя, то пользователь возвращается к результатам поиска, используя кнопку "Назад" ("Back") в меню браузера. Ключевые слова, составляющие поисковый запрос, обычно просто разделяются пробелами. Различные поисковые сервера поразному интерпретируют это. Некоторые из них отбирают по такому запросу только документы, содержащие все ключевые слова, то есть воспринимают пробел в запросе как логическую связку "и". Некоторые интерпретируют пробел как логическое "или" и ищут

114

документы, содержащие хотя бы одно из ключевых слов. При формировании поискового запроса большинство серверов позволяют в явном виде указать логические связки, объединяющие ключевые слова, и задать некоторые другие параметры поиска. Логические связки обычно обозначаются с помощью английских слов "and", "or", "not". На разных поисковых серверах при формировании расширенного поискового запроса используется разный синтаксис. Обычно на титульной странице поискового сервера присутствует ссылка с названием, похожим на "помощь" (англ. "help"). Возможно, именно она указывает на документ, объясняющий правила формирования расширенного поискового запроса. Прочитайте такой документ на поисковом сервере, которым станете пользоваться чаще всего, и освойте все богатство возможностей, предоставляемых этим сервером. Это позволит вам составлять более точные запросы, а грамотное построение поискового запроса играет решающую роль в процессе поиска.

С первого раза удачно задать вопрос поисковому серверу получается не всегда. Если запрос короткий и в нем присутствуют только часто употребляемые слова, может быть найдено очень много документов, сотни тысяч и миллионы. Наоборот, если ваш запрос окажется слишком детализированным или в нем будут использованы очень редкие слова, вы увидите сообщение о том, что ресурсов, отвечающих вашему запросу, в базе сервера не найдено.

Постепенное сужение или расширение фокуса поиска через увеличение или уменьшение списка ключевых слов, замена неудачных поисковых терминов на более удачные помогут вам улучшить результаты поиска.

Еще один очень важный момент - это выбор подходящего для ваших задач поискового сервера. Как мы уже говорили выше, работать с индексирующими поисковыми серверами хорошо, когда ясно, что именно требуется найти. Каталогами пользуются в тех случаях, когда не вполне четко знают, что именно ищут. Когда предметная область очерчена, но что именно в ней вас интересует в данный момент, вы не вполне понимаете, очень полезным может оказаться использование специализированного поискового каталога. Приведем список некоторых наиболее известных поисковых серверов общего назначения. Все эти сервера в настоящее время

115

предлагают и полнотекстовый поиск, и поиск по категориям, таким образом, сочетая в себе достоинства индексирующего сервера и каталога.

http://www.yahoo.com/ http://altavista.digital.com/

http://www.hotbot.com/ http://www.infoseek.com/

http://www.northernlight.com/

Попробуйте также поработать с поисковым сервером Google, расположенным по адресу http://www.google.com/. Не упустите эту возможность использовать последние достижения в области поисковых технологий Интернета.

Рост числа пользователей Интернета в России сопровождается активным наполнением российской части сети собственным содержанием. По оценкам журнала "Эксперт", в 1996 году обращения пользователей российской Сети к российским серверам составляли всего 10% от общего числа обращений, в то время как в 1999 году - уже свыше 60%. Происходит быстрое накопление разнообразных ресурсов как на столичных, так и на региональных серверах. Российский Web уже накопил информационную массу, необходимую для полноценной работы русскоязычных пользователей.

Если веб-страница, которую вы ищете, расположена в русской части Сети, возможно, стоит воспользоваться русскими поисковыми серверами. Они лучше работают с русскоязычными поисковыми запросами, снабжены интерфейсом на русском языке. Индексирующие сервера российского Интернета:

http://www.rambler.ru/

http://www.aport.ru/

http://www.yandex.ru/

Российские каталоги общего назначения:

116

http://www.ru/

http://www.atrus.ru/

http://www.stars.ru/

http://www.list.ru/

Вроссийской части Сети есть и специализированные каталоги. Типичный пример российского специализированного каталога - АгроРус, каталог российских Интернет-ресурсов по сельскому хозяйству. АгроРус был создан Фондом Исследования Аграрного

Развития

при

поддержке

Фонда

Евразия.

WWW

представляет

собой место,

где

пересекаются

информационные потоки всего Интернета. Для доступа к одной из самых интересных служб Сети, службе новостей (news), также известной как USENET, помимо традиционных специализированных программ (news-клиентов), можно использовать веб-интерфейсы,

такие как Dejanews(http://www.dejanews.com/). Помимо чтения и отправки сообщений эти сервера позволяют осуществлять поиск нужного сообщения в огромном архиве. Это намного увеличивает эффективность работы с USENETом.

Если вы ищете файл с определенным названием, но не знаете, на каком FTP-сервере его найти или с какого FTP-сервера окажется быстрее его загрузить, вам поможет FTP Search (http://ftpsearch.lycos.com/ - изобретенная в Норвегии служба поиска по ftp-серверам, расположенная на WWW. Это еще один яркий пример удачной интеграции различных служб Сети на основе Web. Существует российский аналог FTP Search, его адрес - http://www.filesearch.ru/.

Еще один яркий пример удачной интеграции различных служб Сети на основе Web - архивы программного обеспечения, такие как http://www.tucows.com/, http://www.windows95.com/, http://www.freeware.ru/. Они организованы по сходному с поисковыми каталогами принципу: сначала пользователь выбирает зеркало (копию) архива, с которым он может обмениваться данными на большой скорости, затем свою операционную систему, потом интересующую его категорию программ и конкретную программу, которая поможет решить его насущные проблемы. Архивы организованы по-разному; так, не на всех нужно выбирать зеркало

117

архива. Но в большинстве своем они имеют удобный и понятный пользователю интерфейс, с которым просто разобраться.

В этой главе мы хотели рассказать о том, как получить доступ к информации, находящейся в Сети. О том, что вы найдете в Интернете, рассказать невозможно. Каждый человек обнаружит здесь для себя что-то особенное. Существенно одно: вас ждет много открытий.

Справочная карта по составлению запросов в поисковой системе Altavista http://www.altavista.com

Действие

 

 

Реализация

 

Пример

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Простой запрос.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти

документы,

 

 

 

 

 

 

 

 

 

 

содержащие любое

 

 

 

 

Найти

все

документы,

в

из

нескольких

 

 

 

 

 

Перечислить

 

которых

 

 

будут

ключевых

слов.

 

 

 

 

 

нужные

слова

 

присутствовать

 

слова

Наличие заглавной

 

через пробел

 

поиск

(и)или

altavista:

буквы

 

 

 

 

 

 

 

 

 

 

поиск altavista

 

 

 

конкретизирует

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

поиск

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Включить

 

 

 

 

 

Найти

все

документы,

в

обязательное

 

 

 

 

 

 

 

 

 

 

которых

обязательно

наличие

в

 

Поставить

перед

 

 

 

будет

слово

поиск

и

документе

 

 

словом знак плюс

 

 

 

 

возможно

слово altavista:

определенного

 

 

 

 

+поиск altavista

 

 

 

слова

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Исключить

 

 

Поставить

перед

 

Найти

все

документы,

в

наличие

в

 

 

которых

может

быть

 

словом

знак

 

документе

 

 

 

слово

поиск и

не

будет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

118

определенного

 

 

минус

 

 

 

слово новости: поиск -

слова

 

 

 

 

 

 

 

новости

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти

 

все

 

 

 

 

 

 

 

 

 

документы,

в

 

 

 

 

 

 

 

 

 

которых

 

будет

 

 

 

 

 

Найти

точную

 

встречаться

 

 

 

 

 

 

 

фраза

"Поиск

 

 

 

 

 

фразу.

 

 

 

 

 

 

 

 

 

 

 

работы

 

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Интернет":

 

 

 

 

 

 

 

 

 

 

"Поиск работы в

 

 

 

 

 

 

 

 

 

Интернет"

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти

слово

со

 

Вместо

 

 

 

Найти

все документы со

всевозможными

 

 

 

 

 

словом

Интернет

или

 

 

окончания

 

 

 

окончаниями

 

 

 

 

 

Интернета

 

или

 

 

поставить символ

 

 

(поиск

 

по

 

 

Интернетом

и

т.д.:

 

 

звездочка

 

 

 

шаблону)

 

 

 

 

 

интернет*

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Запрос с использованием специальных ключевых элементов для поиска в WWW.

Найти

все

 

 

 

 

 

документы

на

 

 

 

Найти все документы на

определенном

 

 

host:доменный

 

 

 

 

сервере

www.simbol.ru:

компьютере

с

 

адрес

 

 

 

host:www.symbol.ru

данным доменным

 

 

 

 

 

 

 

 

именем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти

все

 

domain:имя-

 

Найти все

страницы из

документы внутри

 

домена

 

Беларуси: domain:by

 

 

 

 

 

 

 

119

указанного домена

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти страницы,

 

 

 

 

Найти все страницы, на

содержащие

 

 

 

 

 

 

которых есть фраза "Click

указанное

слово

 

anchor:текст

 

 

here to visit Alta Vista":

или фразу в тексте

 

 

 

 

anchor:"Click

here

to visit

или в ссылках

 

 

 

 

 

Alta Vista"

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти

 

все

 

 

 

 

 

 

 

 

 

документы

 

с

 

 

 

 

Найти

все

страницы

с

определенным

 

 

image:имя-файла

 

файлом

 

 

bird.jpg:

графическим

 

 

 

 

 

 

image:bird.jpg

 

 

файлом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти

 

все

 

 

 

 

Найти

 

страницы,

документы,

 

 

 

 

 

 

 

 

 

 

 

 

 

использующие апплет

с

содержащие

 

 

 

applet:класс

 

 

 

 

 

 

 

названием

 

morph:

определенный

 

 

 

 

 

 

 

 

 

 

 

applet:morph

 

 

 

Java-апплет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти

 

все

 

 

 

 

Найти

все

страницы

со

документы,

 

 

 

link:URL

или

 

ссылками

на

узел

ссылающиеся

 

на

 

доменный адрес

 

Microsoft:

 

 

 

указанный адрес

 

 

 

 

link:www.microsoft.com

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти документ с

определенным

текстом в title:"текст" заголовке

Найти все документы с названием "Обучающие курсы по Интернет": title:"Обучающие курсы по Интернет"

120

 

Найти

 

все

 

 

 

документы,

 

 

 

содержащие

 

 

 

определенный

 

 

 

текст

в

любом

 

text:текст

 

компоненте

 

 

 

страницы,

кроме

 

 

 

тэга изображения,

 

 

 

ссылки или URL

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти

документы,

 

 

 

в адресе

которых

 

url:фрагмент

 

присутствует

 

 

 

URL.

 

заданная

часть

 

 

URL

 

 

 

 

 

 

 

 

 

 

Найти страницы, содержащие текст поисковые системы: text:"поисковые системы"

Найти страницы на серверах, имеющих слово altavista в URL: url:altavista

Сложный запрос, бланк сложного запроса Advanced Search, поле

Boolean query:

Найти документы,

вкоторых

(NOT Слово)

отсутствует указанное слово

Найти документы, в которых будет слово интернет и не будет слова новости: интернет AND (NOT новости)

Найти документы,

 

 

 

 

Найти

 

документы,

в которых будет

 

 

 

 

 

 

Слово1

OR

 

связанные с

радио

или

хотя бы одно из

 

 

перечисленных

 

Слово2

 

 

телевидением: радио

OR

 

 

 

 

телевидение

 

 

слов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти документы,

 

Слово1

AND

 

Найти

документы,

в