Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛР9ПоискИнтернет.docx
Скачиваний:
27
Добавлен:
14.02.2015
Размер:
401.3 Кб
Скачать

Классификация поисковых систем

Выделяют так называемые тематические каталоги (например, Yahoo!) и автоматические индексы (например, AltaVista), хотя необходимо иметь в виду, что целый ряд поисковых систем занимает некоторое промежуточное положение между этими двумя «полюсами», то есть они содержат в себе элементы обоих этих классов. Каждая из поисковых систем имеет свою обширную базу данных об адресах (местоположении) различных Web-документов, и поиск ссылок на необходимую нам информацию происходит, не в самих Web-документах, а именно в этой базе данных.

Тематические каталоги и автоматические индексы различаются по тому, как формируются и пополняются их базы данных: принимают ли в этом процессе участие люди, или все происходит автоматически.

Тематический каталог представляет пользователю Internet некоторую древовидную структуру категорий (разделов и подразделов), на верхнем уровне которой собраны самые общие понятия, такие как Наука, Искусство, Бизнес и т.п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и серверы вместе с кратким описанием их содержимого. Например, для нахождения информации о состоянии научных исследований по теории суперструн можно спуститься вниз по следующей «лестнице понятий»: Science (Наука) - Physics (Физика) - Theoretical Physics (Теоретическая физика) -Theories (Теории) - String Theories (Теории струн).

Главным достоинством тематических каталогов является большая ценность получаемой пользователем информации, что обеспечивается присутствием «человеческого фактора» в процессе анализа и сортировки новых Web-страниц. С другой стороны, тематические каталоги имеют существенный недостаток, связанный опять же с человеческим фактором, т.к. из-за ограниченных возможностей человека их базы данных охватывают лишь небольшую часть всего информационного Web-пространства (менее 1 %).

В отличие от тематических каталогов, базы данных для автоматических индексов создаются и пополняются полностью автоматически некоторыми специальными, внутренними поисковыми программами-роботами, которые в круглосуточном режиме просматривают Internet-узлы (сайты) в поисках вновь появившихся Web-документов. В отличие от тематических каталогов, автоматические индексы охватывают до 25 % общего Web-пространства.

Некоторой разновидностью поисковых служб являются рейтинговые службы. Они предоставляют клиенту готовый список некоторых ссылок, к которым обращались наиболее часто другие пользователи сети Internet. Такие услуги, в частности, обеспечивает отечественная служба Rambler.

Поиск информации

Все поисковые указателя реализуют несколько алгоритмов поиска.

1.                     Простой поиск. В поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если это слово одно, то в ответ выдается большое количество ссылок. Если несколько слов, то результат зависит от того, как эти слова введены, а это зависит от каждой конкретной системы.

2.                     Расширенный поиск – подразумевает запрос из группы слов. Слова связываются логическими операторами И, ИЛИ, НЕ  и др.

3.                     Контекстный поиск – реализован не во всех поисковых указателях. Если этот метод есть, то ключевая фраза должна быть заключена в кавычки.

4.                     Специальный поиск -  позволяет найти дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-то ресурс, с их помощью можно найти ключевые слова, входящие в заголовки Web-страниц и т.п.

Особенности группировки слов в поисковых системах

1.               Поисковые системы по-разному трактуют группы слов, введенные через пробел, как И или как ИЛИ. В большинстве систем в качестве оператора И используется «+» перед словом без пробела.  Большинство российских поисковых систем по умолчанию считают, что два слова должны присутствовать в документе. На Яндексе -  в одном предложении. ИЛИ в системах задается так: Апорт – ИЛИ, Рамблер – OR, Яндекс - .

2.               Прописные буквы. «хлеб» = «ХЛЕБ», но «ХЛЕБ» ≠ «хлеб». Если введены строчные символы, то разыскиваются как строчные, так и прописные символы, но если использованы прописные, то ищется точное совпадение с прописными. В системе Рамблер при индексации все прописные буквы принудительно «понижаются до строчных».

3.               Зарезервированные слова – это слова, которые не учитываются при обработке запроса. К ним относятся неинформативные слова: предлоги, союзы, местоимения, артикли и др. слова малого размера. В некоторых системах зарезервированными могут быть слова, которые часто встречаются, поэтому информативными не являются. Например, в системе, ориентированной на поиск книг слово «книга» будет не информативным. При контекстном поиске необходимо точное (!) соответствие между заказом и результатом поиска. Если поисковая система «зачистила» Web-документы от зарезервированных слов, то с контекстным поиском она справиться не может. На Яндексе и Рамблере  только делают вид контекстного поиска (через кавычки). В России честный контекстный поиск проводит только Апорт, но у него невелика база указателей.

4.               Формы поиска. С 1997 г. Поисковые системы предоставляют услуги по розыску данных, записанных в разных форматах: рисунки, видеофайлов, звуковые клипы и т.д. Для этого следует включить переключатель, соответствующий типу разыскиваемых данных. Яндекс позволяет найти тексты, товары и рисунки, Апорт – плюс MP3, Рамблер – только тексты. Из зарубежных служб подходит для домашнего пользования Fast Search, для делового потребления – Northern Light.

5.               Действия после поиска. Если представлен объемный документ, то можно воспользоваться кнопкой Правка – Найти на этой странице.

Приемы поиска в системе «Яндекс». Поиск по одному слову ведется на основе корня этого слова. Например, если введено слово «снег», то система выдаст документы, в состав которых входят однокоренные слова. Если поиск словоформ не требуется, то его отменить с помощью «!», например, !снегом.

Поиск по группе слов

       Знак «+» пишется слитно со словом без пробела.

       Можно ввести оператор И (&), справа и слева от & должны быть пробелы.

       Если требуется присутствие слов не только в предложении, но и во всем документе, применяется оператор &&.

       «~» - строгое исключение из предложения

       «~~» - исключение из всего документа

       Пример: «Москва Петербург&&+столица»

Поиск с указанием расстояния

       «/n», «/(-n+n)» Оператор NEAR позволяет находить документы, в которых искомые слова находятся близко друг от друга. Например, «Город/+1Москва» = «Город Москва».

       «/n &&» или «/n ~~» , например, «Город/+1&&Москва» - словосочетание будет ли в одном предложении или в соседних.

 Использование скобок. Служат для управления порядком действий. «Москва Петербург& (столица город-герой)».

 Управление ранжированием  производится с использованием весовых коэффициентов. Его можно присваивать любому ключевому слову или выражению, если оно заключено в скобки. «Москва:5 Петербург столица».

Ввод уточняющего слова осуществляется после знаков <-, например «Николай +Еременко<-младший артист+театра».

Задание 1. Создать аннотированный список интернет-ресурсов (библиотек, виртуальных музеев) по информационным технологиям и вычислительной технике. Аннотированный список должен содержать не менее 10 интернет-ресурсов. Задание 2. Создать аннотированный список интернет-ресурсов (библиотек, виртуальных музеев) интернет-ресурсов АПК. Аннотированный список должен содержать не менее 10 интернет-ресурсов.

Содержание отчета

Отчетом является файл, содержащий таблицу, отражающую результаты поиска.

Технология выполнения работы

В текстовом файле создать таблицу, отражающую результаты поиска:

 № п/п

 Адрес интернет-ресурса

 Автор ресурса

 Скриншот главной страницы

 Аннотация

 1.

 

 

 

 

 2.

 

 

 

 

 ........

 

 

 

 

Примечание

1).  Адрес интернет-ресурса представляет собой url-адрес ресурса. Например, http://computerhistory.narod.ru/ 2). Автор ресурса это тот, кто создал ресурс, или кому этот ресурс принадлежит. Например, автор идеи и web-дизайн: Исупов С.,  e-mail:   ComputerHistory@yandex.ru 3). Скриншот главной страницы Например,

Для создания скриншота используют кнопку на клавиатуре PrintScreen (PRTSC). 4). Аннотация отражает чем полезен ресурс, о чем говорится в содержании ресурса, как можно использовать его содержание в учебной и профессиональной деятельности. 3. Сохранить созданный текстовый файл в формате .doc и выложить его в блог.

Вопросы для защиты работы

  1. Охарактеризовать основные функции браузеров.

  2. Охарактеризовать классификацию поисковых систем.

  3. Охарактеризовать алгоритмы поиска информации в сети Интернет.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]