Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
lektsia_4.doc
Скачиваний:
3
Добавлен:
18.09.2019
Размер:
74.75 Кб
Скачать

2. Организации поиска информации в Internet

3. Ресурсы сети Internet. Безопасность при работе в Internet Проблема поиска и поисковые системы

В закромах Internet находятся миллиарды Web-страниц, терабайты информации в различных файлах, но вся проблема в том, что для получения нужной информации необходимо указать ее точный адрес – URL. Именно этот адрес нам и нужно найти в первую очередь. Как Вы помните, адрес URL состоит из доменного имени (либо IP-адреса), пути к файлу и имени файла.

Если мы найдем такой URL, то без труда введем его в адресную строку программы Internet Explorer и увидим нужную Web-страницу, либо скачаем файл.

В минимальном варианте нам необходимо знать хотя бы доменное имя ресурса, а затем, щелкая по гиперссылкам, мы сможем добраться до действительно нужной нам информации.

Как найти адрес (URL)?

Самый простой способ – это увидеть доменные имена в различных рекламных материалах. В настоящее время любая уважающая себя фирма, в том числе любое издательство книг, журналов, редакции телеканалов имеют свой адрес в Internet и обычно указывают его на упаковке, в книгах, журналах, в эфире телепрограмм. Как правило, указывается короткий адрес, состоящий только из доменного имени, что-то наподобие: http://www.1tv.ru или еще короче: 1tv.ru . Введите такой адрес в адресную строку и гуляйте по сайту.

Но как быть, если адрес совершенно неизвестен? Например, Вам необходимо найти расписание поездов дальнего следования на лето, но, скорее всего, Вы совершенно не знаете по какому адресу его можно найти. Так бывает очень часто и порой на поиск информации уходит до половины времени работы в Internet.

Итак, нам необходимо найти URL или хотя бы доменное имя ресурса. Для этого обратимся к хранилищам таких адресов, к специальным поисковым системам. Поисковые системы (поисковые каталоги, поисковые серверы) выполнены в виде Web-страниц, но на этих страницах располагается не информация как таковая, а аннотированные ссылки на другие ресурсы (страницы, сайты).

Для вызова поисковой системы необходимо в адресной строке браузера указать ее адрес. Поисковых систем в сети Internet сейчас достаточно много. В таблице ниже перечислены лишь наиболее популярные поисковые системы. Конечно, в русскоязычных системах содержится больше ссылок на русскоязычные ресурсы, а в англоязычных – на англоязычные, поэтому поиск русскоязычных ресурсов лучше осуществлять в русскоязычных поисковых системах.

Поиско́вая систе́ма — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Как правило, основной частью поисковой системы является поиско́вая маши́на (поиско́вый движо́к) — комплекс программ, обеспечивающий функциональность поисковой системы.

Основными критериями качества работы поисковой машины являются релевантность(степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка.

Улучшение поиска — это одна из приоритетных задач сегодняшнего Интернета

По данным компании Net Applications в декабре 2007 года рыночная доля распределялась:

Google — 77,04 %

Yahoo — 12,46 %

MSN — 3,33 %

Microsoft Live Search — 2,57 %

AOL — 2,12 %

Ask — 1,38 %

AltaVista — 0,13 %

Excite — 0,07 %

Lycos — 0,02 %

All the Web — 0,02 %

По данным аналитической компании comScore все поисковые сайты в декабре 2007 года обработали 66 млрд 221 млн поисковых запросов. Яндекс попал в статистику и находится на 9-ом месте.

Как работает поисковая система?

Первый этап работы поисковой системы – это индексирование информации, находящейся в Internet. Сетевой робот поисковой системы просматривает огромное количество страниц и заносит адреса и краткое содержание этих страниц к себе в базу данных, точнее в поисковый индекс. Владельцы сайтов будут очень рады, если их сайт просмотрит сетевой робот. Для того, чтобы робот обязательно просмотрел сайт и внес его в поисковый индекс, владельцы сами регистрируют свои сайты в поисковой системе (как правило, в нескольких поисковых системах). Процесс занесения адреса и описания страницы в поисковую систему называется индексация.

Таким образом, когда Вы спросите поисковую систему о том, где находится расписание поездов дальнего следования на лето, она не будет лихорадочно искать совпадения в огромной сети Internet, а всего лишь поищет в своем заранее подготовленном поисковом индексе, причем сделает это очень быстро.

Второй этап работы поисковой системы – это выдача накопленной и отобранной, отсортированной и классифицированной информации по запросам пользователей.

Примечание: поисковые системы предоставляют ссылки на ресурсы бесплатно, а зарабатывают они на рекламе, на платном занесении информации в каталоги, на сортировке результатов поиска в пользу рекламодателя и так далее.

История

Одним из первых инструментов поиска в интернете (до WWW) был Archie.

Первой поисковой системой для Всемирной паутины был «Wandex» (уже не существует) созданная в Массачусетском технологическом институте в 1993.

Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах.

В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport.

23 сентября 1997 была открыта поисковая машина Яндекс.

В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов. Nigma тоже экспериментировала с визуальной кластеризацией.

Nigma (http://nigma.ru) осуществляет поиск как по своему индексу, так и по индексам Google, Yahoo, MSN, Yandex, Rambler, AltaVista, Aport.

По состоянию на 28 февраля 2009 в суммарном индексе всех этих поисковых систем находится более 7`160`000`000 русскоязычных документов.

На основе введённого пользовательского запроса Nigma формирует список документов, разделённых на несколько классов (кластеров). Пользователь может уточнить в каком классе продолжить поиск, тем самым улучшив релевантность результатов поиска. Пользователь также может исключить ненужные ему классы сайтов, например документы, пришедшие с интернет-магазинов (для них формируется специальный кластер).

Список кластеров выводится слева от списка результатов поиска. Для каждого кластера указывается образующая его фраза и количество документов в кластере. Пользователь может управлять кластерами при помощи специальных ссылок под списком кластеров.

Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

Популярные поисковые системы

  • Всеязычные:

    • Google (36 % Русскоязычного сегмента [5])

    • Yahoo! (0,4 % Рунета) и принадлежащие этой компании поисковые машины:

      • Inktomi

      • AltaVista

      • Alltheweb

    • MSN (0,2 % Рунета) (принадлежит компании «Microsoft»)

  • Англоязычные и международные:

    • AskJeeves (механизм Teoma)

  • Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами.

    • Яндекс (44,4 % Рунета)

    • Rambler (10,6 % Рунета)

    • Mail.ru (7,3 % Рунета)

    • Nigma (0,5 % Рунета)

    • Gogo.ru (0,3 % Рунета)

    • Aport (0,2 % Рунета)

Каталог сайтов Интернета или каталог интернет ресурсов или просто интернет-каталог (англ. web directory) — структурированный набор ссылок на сайты с кратким их описанием.

Сайты внутри каталога разбиваются по темам, а внутри тем могут быть ранжированы или по индексу цитирования (как в каталогах Яндекса или Google), или по дате добавления, или по алфавиту, или по другому параметру. Это один из старейших сервисов Интернета.

Подавляющее большинство рейтингов посещаемости ресурсов имеют классификатор сайтов, но ранжирование всегда основано на посещаемости сайтов. В зависимости от широты тематики ссылок каталоги могут быть общими и специализированными (тематическими).

Веб-мастера все каталоги разделяют на четыре группы:

  1. закрытые каталоги — добавление сайтов в данный каталог может проводить только одно ответственное лицо.

  2. белые каталоги — при регистрации сайта в каталоге веб-мастеру не обязательно размещать на своем сайте обратную ссылку на каталог. При размещении ссылки на такой каталог страница описания сайта в каталоге занимает более высокие места по сравнению с обычными ссылками.

  3. серые каталоги — перед подачей заявки на добавление сайта в данный каталог веб-мастер обязан разместить обратную ссылку.

  4. черные каталоги — при регистрации сайта в данном каталоге веб-мастер обязан разместить обратную ссылку на каталог сайтов. Каталог взамен ставит ссылку на сайт через редирект.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]