Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
мир_умк_самый последний.doc
Скачиваний:
175
Добавлен:
03.05.2019
Размер:
1.98 Mб
Скачать

Глубина индексирования веб-сайтов

Большинство поисковых машин индексируют только определенное количество документов на одном веб-сайте.То есть существует "невидимый Интернет" (скрытый).

"Видимая" часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. "Невидимая" часть — это та часть сайта, которая не предназначена для обработки поисковыми системами. Американская фирма BrightPlanet разработала программное обеспечение по исследованию "невидимой" части сайтов. Полученные результаты показывают, что число документов "невидимой" части более чем в 500 раз превышает число документов, относящихся к "видимой" части.

К невидимому Интернету в первую очередь относятся ресурсы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а также различные форматы предоставления информации. Например, только с недавнего времени поисковые машины начали индексировать информацию в PDF-формате.

Лидирующие позиции по количеству проиндексированных веб-страниц занимают поисковые машины Google, AltaVista.

При работе с поисковыми машинами большое значение имеет язык запросов, так как единственным инструментом поиска становится полнотекстовый поиск по ключевым словам.

В большинстве поисковых систем доступен набор поисковых операторов. Наиболее распространены операторы, реализующие логические условия "И" (AND), "ИЛИ" (OR), "НЕ" (NOT), "РЯДОМ" (NEAR). Эти условия пишутся на английском языке и имеют символьные сокращения. Символьное обозначение поисковых операторов и возможности их использования значительно различаются в поисковых машинах. Оператор близости в чистом виде практически не присутствует (в Alta Vista оператор NEAR задает поиск слов запроса в пределах 10 слов, Lycos — в пределах 25), обычно он обозначается числом в окружении каких-либо специальных символов.

2. Каталоги в Интернете

В каталогах имеются иерархические тематические рубрики.Отнесение веб-сайтов к тем или иным рубрикам каталога осуществляется человеком.

Тематические каталоги в общем виде подобны глобальным электронным справочникам, имеющим привычную логико-тематическую структуру, что позволяет ориентироваться в ресурсах Интернета в пределах отдельных отраслей знания. В отличие от поисковых машин решение о направлении информации в ту или иную рубрику каталога принимает человек, составляется и корректируется рубрикатор также человеком. В настоящее время деление на тематические каталоги и поисковые системы в чистом виде сохраняется только как технологии структуризации информации в Интернете, поскольку практически все средства справочного типа обладают некоторой возможностью непосредственного поиска, а многие поисковые системы снабжены небольшими справочниками.

В то время как лучшие из каталогов содержат десятки и сотни тысяч ссылок на веб-страницы, многие поисковые машины индексируют несколько миллионов страниц, причем эта информация пополняется и периодически обновляется. Однако полученные документы будут больше соответствовать запросу пользователя, так как отнесение информации к рубрикам оценивается по смыслу, а не по наличию каких-либо символов в документе, как это делается в поисковых системах.

Среди иностранных каталогов можно выделить Yahoo (www.yahoo.com), Lycos (www.lycos.com), InfoSeek (www.infoseek.com) и Galaxy (galaxy.einet.net).Наиболее распространенным является каталог Yahoo. На его верхнем уровне содержатся 14 главных разделов (категорий). Общее число рубрик составляет около 25 тыс.

Начиная с любого раздела верхнего уровня, пользователь последовательно открывает рубрику, затем подрубрику, пока не дойдет до списка веб-сайтов. Так, пункт меню "Библиотеки" разворачивается в перечень библиотек по типу, отраслевой принадлежности и местоположению. Выбор из меню университетских библиотек в США приводит к выводу на экран списка всех библиотек американских университетов и т.д. Такая иерархическая структура дает возможность шаг за шагом обследовать интересующие разделы, будь то физика, история, биология, география, музыка или спорт, последние новости или справочные издания. Справочник Yahoo обладает также возможностью поиска ключевых слов в описании рубрик и ресурсов.

Особенность каталогов в том, что они более эффективны при поиске информации на некую общую тему, а не при поиске ответа на конкретный вопрос. Можно выделить следующие отличительные черты каталогов ресурсов Интернета:

  • каталоги, как правило, имеют строгую иерархическую структуру. Информация в каталогах расположена по разделам, подразделам и т.д. для облегчения поиска нужных ссылок;

  • предметные каталоги предоставляют возможность автоматического поиска по ключевым словам. Однако поиск этот происходит не в содержимом самих веб-сайтов, а в их кратких описаниях, хранящихся в каталоге;

  • охват ресурсов у каталогов значительно уже, чем у поисковых машин.