Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsii_PO_KS.docx
Скачиваний:
23
Добавлен:
21.08.2019
Размер:
645.14 Кб
Скачать
  1. Поиск в сети Интернет

Для реализации поиска необходимо ответить на следующие вопросы:

  1. что искать (правильно оперделиться с задачами поиска)

  2. где искать (категории поиска, область интернета по региональному и тематическому признакам)

  3. как искать (какие инструменты использовать для поиска)

В интернете для поиска информации пользуются специальными инструментами: ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска

  • релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу.

Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.

Каталог

Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми. Каталоги построены по принципу от общего к частному и имеют древовидную струткруру.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет о граниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Поисковая машина

Поисковая машина - поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом.

Поисковая система состоит из следующих основных компонентов:

Spider (паук) — браузероподобная программа, которая скачивает веб-страницы. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

Crawler (краулер, «путешествующий» паук) - программа, которая автоматически проходит по всем ссылкам, найденным на странице.

Выделяет все ссылки, присутствующие на странице. Его задача — определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (индексатор) — программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д. В индексе хранится информация, на основе которой поисковая система выдает ответы на запросы пользователей.

Database (база данных) - хранилище скачанных и обработанных страниц. База данных — это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search engine results (система выдачи результатов) - извлекает результаты поиска из базы данных. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас - именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Web server (веб-сервер) - веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.

Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.

Как правило, на сервере присутствует html -страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.

Характеристика работы робота

Технически модуль скачивания бывает либо мультимедийным (Altavista Merkator), либо используется асинхронный ввод-вывод (GoogleBot). Также разработчикам постоянно приходится решать задачу многопоточного DNS-сервера.

В мультитредовой схеме скачивающие треды называются червями (worms), а их менеджер - погоняльщиком червей (wormboy).

Не многие серверы выдержат нагрузки нескольких сотен червей, поэтому менеджер следит затем, чтобы не перегружать серверы.

Для скачивания страниц роботы используют протоколы HTTP. Работает он следующим образом. Робот на сервер передает запрос “get/path/document” и другие полезные строки, относящиеся в HTTP запросу. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Абсолютно все поисковые роботы подчиняются файлу robots.txt, где web мастер может ограничить индексацию страниц роботом.

Также у роботов есть и свои фильтры.

Например, некоторые роботы опасаются индексировать динамические страницы. Хотя сейчас web мастеры без проблем обходят эти места. Да и таких роботов остается все меньше.

Также у каждого бота есть список ресурсов, отнесенных к спаму. Соответственно, эти ресурсы посещаются ботами значительно меньше, либо вообще игнорируются в течение определенного времени.

Отметим, что при этом поисковые системы не фильтруют информацию. Т.е. они лишь заняты проблемой оценки релевантности страниц. А фильтр информации может предоставляться в виде сервисов, в которых пользователи отмечают “нежелательные” ресурсы.

У моделей скачивания в поддержке есть другие модули, выполняющие вспомогательные функции. Они помогают уменьшать трафик, увеличивать глубину поиска, обрабатывают часто обновляемые ресурсы, хранят URL и ссылки, чтобы повторно не скачивать ресурсы.

Существуют модули отслеживания дубликатов. Они помогают отсеивать страницы с повторной информацией. Т.е. если робот находит дубликат уже существующей страницы или со слегка измененной информацией, то он просто не идет дальше по ссылкам страницы.

Есть отдельный модуль определения кодировки и языка документа.

После того как страница было скачена, она обрабатывается html-парсером. Он оставляет лишь ту информацию от документа, которая действительно важна для поиска: текст, шрифты, ссылки и т.д. Что значат все эти модули для конкретного документа? Что делает поисковая система с документом после скачивания?

Хотя сейчас роботы индексируют почти все. И javascript и флэш -технологии.

Затем слова разбиваются по морфологическим и языковым принципам. Хотя не все поисковики имеют в своем “арсенале” морфологическую обработку. Затем страница попадает в индекс. Обновление индекса в поисковиках происходит с определенной периодичностью (в среднем от двух недель до месяца).

Ранжирование результатов поиска

Все факторы, влияющие на положение сайта в выдаче поисковой системы, можно разбить на внешние и внутренние. Внутренние факторы ранжирования - это те, которые находятся под контролем владельца веб-сайта (текст, оформление и т.д.).

Основные особенности поисковых машин:

  1. Региональная привязка.

  2. Учет регистра букв при составлении запроса.

  3. Возможность составления запроса на естественном языке.

  4. Поиск с учетом словоформ.

  5. Определение области поиска.

  6. Возможность организации простого, сложного и расширенного поиска.

  7. Работа со списком результатов поиска. Организация повторного поиска в найденном и т.д.

  8. Сортировка результатов поиска (по умолчанию - по релевантности). Можно изменить тип сортировки - по дате и т.д.

  9. Подписка на запросы.

Как правильно разработать веб-страницу, чтобы поисковая система отображала ее в первых строках результатов поиска?

На рейтинг сайта влияют следующие факторы: наполнение сайта и алгоритм работы поисковой системы, а также рейтинг других сайтов.

Цель поисковой системы - определить главную тему и ключевые слова сайта, чтобы в дальнейшем использовать эти данные для ранжирования результатов при поиске;

Количество поисковых систем растет и алгоритмы их работы постоянно меняются. Разработчики поисковых систем экспериментируют и находят новые пути ответа на вопрос «какая страница больше соответствует ключевому слову». (Ярким примером этого является появление и блестящий успех Google с его алгоритмом PageRank.). По этим и другим причинам представляется совершенно невозможной оптимизация страниц, основанная на знании «секретов» поисковых машин, не говоря уже о достижении долговременного успеха от подобных действий.

Однако сверхзадачей поисковых систем является нахождение ответа на вопрос как «найти страницу, которая больше других дает информации по запросу пользователя, дает эту информацию удобнее, точнее и наиболее авторитетна», то есть целью является приближение к тому выбору «лучшей страницы», который сделал бы эксперт в данной области.

Как мы уже сказали, невозможно знать все тонкости алгоритмов всех поисковых машин, но основы определения ими релевантности страниц известны.

В самом общем случае эта величина является суммой следующих величин: релевантности текста документа запросу и релевантности текста ссылок с других документов на данный документ умноженной на показатель авторитетности страницы.

Разумеется, в реальности этот алгоритм намного сложнее, он включает в себя множество весьма интересных элементов, весовых коэффициентов, и даже применение искусственного интеллекта.

Поисковая система, определяя релевантность страницы или документа запросу, действует в два этапа - вначале создается база данных (или индекс поисковой системы), считывается ваш документ, и затем определяются ключевые слова и тематика документа и далее поисковая система решает, несколько документ соответствует каждому найденному ключевому слову. Кроме того, необходимо упомянуть, что поисковая система работает как с отдельными страницами, так и с сайтом в целом, и рейтинг отдельной страницы зависит от того, насколько хорош сайт в целом.

Поисковые системы, для того чтобы определить релевантность страницы, читают их, находя по ссылкам. В этом их поведение аналогично поведению человека, просматривающего сайт. И точно так же как человек, решающий насколько соответствует просматриваемая страница тому, что он ищет, поисковая система определяет поисковый рейтинг по ключевым словам.

Наилучшие результаты получаются в том случае, если подразумеваемые разработчиками сайта ключевые слова совпадают с ключевыми словами, найденными поисковой системой.

Итак, как определяется, какие слова являются ключевыми и их вес?

Частота ключевого слова

Поисковая система определяет, какие слова чаще других встречаются на странице. Анализ грамматической структуры текста позволяет поисковой системе отсеять простое повторение ключевых слов и другие нечестные приемы. С большой долей вероятности наиболее частые слова и будут признаны ключевыми.

Вес ключевого слова

Иными словами, насколько важно это слово. Смотрите «термины и понятия поисковой оптимизации». На вес ключевого слова очень сильно влияет их количество - чем их больше, тем меньше относительный «вес» каждого их них.

Место появления ключевого слова

Место расположения ключевых слов имеет большое значение. Поисковые системы ожидают появления ключевых слов в определенных местах страницы. Прежде всего - это различные заголовки. Так, ключевое слово в титуле страницы, который показывается браузером в заголовке его окна, имеет самый большой вес. Если запрос пользователя совпадает с титулом страницы, очень велика вероятность того, что поисковая система покажет эту страницу выше, чем другие. Далее - ключевые слова в заголовках <H1 >...<H6>, выделенные тегом <Strong> или <B>, тексте ссылок, тексте параграфа, в атрибутах ALT тега <Img>, а также имеет значение имя домена в URL документа.

Близость к началу страницы или абзаца

Чем ближе к началу страницы место, где найдено ключевое слово, т.е. к заглавию - тем «вес» больше.

Наличие этого слова сразу в нескольких различных местах страницы

Например в ссылках, заголовках, в тексте и атрибутах ALT изображений.

Близость ключевых слов

Как близко друг к другу находятся ключевые слова на странице, особенно в тех

случаях, когда строка поиска - осмысленная фраза, или какое-то устойчивое словосочетание.

Наличие синонимов ключевых слов

Некоторые поисковые системы принимают во внимание синонимы ключевых слов.

Популярность сайта

Некоторые поисковые системы (Google, Yandex и другие), принимают в расчет популярность сайта в Интернет. То есть наличие авторитетных ссылок на данный сайт с других сайтов. Авторитет ссылающихся страниц будет тем выше, чем более их тематика соответствует тематике Вашего сайта, принимается во внимание также сам текст ссылок.

Этот способ неявным образом привлекает интеллект разработчиков других сайтов, т.е. факт наличия ссылки на ваш сайт делает его популярнее и повышает рейтинг.

Соответствие ключевого слова теме

Пследнее поколение поисковых систем пользуется механизмом искусственного интеллекта для определения основной темы документа и всего сайта. Использовать этот путь, и повысить позиции своего сайта можно, создав его таким образом, чтобы все страницы сайта относились к его главной теме.

Расширенный поиск и специальный язык запросов

Для того чтобы пользователь мог легко найти нужную ему информацию в сети существуют не только различные поисковые системы, но и несколько способов поиска:

  • простой поиск, когда поиск ведется по отдельным словам;

  • сложный поиск, когда в строке поискового сервера набираются не только ключевые слова, но и специальные логические операторы (+ - | !);

  • расширенный поиск (заполняется форма, которая напоминает анкету).

Для осуществления используют специальный язык запросов, который несколько отличается для разных поисковых систем. Информацию по операторам и синтаксису языка запросов можно получить из справочника дянной системы.

Наиболее распрстраненные операторы следующие:

Синтаксис запроса

логическое И (краткое - в пределах одного абзаца) будут найдены ( р ) документы, содержащие все указанные слова

  • ~ NOT Найти документы не содержащие слово, стоящие после знака

, или | OR логическое ИЛИ

« » Искать указанное неразрывное словосочетание

Отказ от словоформы, поиск слова в форме точно указанной в ! строке запроса

группирование слов, можно использовать для создания сложных () запросов

/(n m) расстояние в словах (-назад +вперед)

Сл2(...) (апорт) Ограничение расстояния в словах

u

Ограничение поискаодним или несколькими серверами

rl=

(апорт)

Заглавные (прописные) буквы считаются отличающимися от строчных.

Если в запросе слово написано строчными буквами, то поиск будет произведен без учета больших и маленьких букв (без совпадения регистра). Если первая буква в слове прописная, найдутся только те документы, где это слово написано с большой буквы.

Расширенный поиск позволяет без использования специальных символов сузить круг поиска с помощью задания определенных параметров. Обычно к таким параметрам

относятся: дата создания или обновления ресурса/страницы, тип файла, регион поиска, язык поиска, размер страницы и др. Эти параметры отмечаются в соответствующих полях.

Другие средства поиска информации

Метапоисковая система — это инструмент поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Адреса известных метапоисковых систем:

MetaCrawler - http://www.metacrawler.com/

SavvySearch - http://www.savvysearch.com

Выделяют специальные поисковые программы, некоторые из которых являются лишь придатком к браузеру, а некоторые объединяют все функции поисковиков. Одной из наиболее популярных поисковых программ является Copernic, обеспечивает массу возможностей для тематического поиска. Все созданные запросы, остаются в базе, можно производить очистку и упорядочивание результатов запросов и ссылок, есть возможность подписки на автоматическое обновление результатов поиска.

SurfPilot поисковый клиент, поддерживает региональные поиск (большой список стран). В базу поисковых серверов (регулярно обновляемую через интерн ет) включено около 120 поисковиков, для поисков по российским ресурсам 12 серверов.

Одна из возможностей программы - анализатор поисковых систем, который позволяет самостоятельно добавлять в базу данных программы поисковые серверы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]