Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
Скачиваний:
129
Добавлен:
06.03.2016
Размер:
3.28 Mб
Скачать
  1. 3. Модели и алгоритмы поиска

  2. документов в многоязычных

  3. информационных ресурсах

Ниже будут рассмотрены новые алгоритмы поиска документов, определения их релевантности и ранжирования информации в рамках полученной выборки из мультилингвистических информационных тематических коллекций, которые могут использоваться как в системах типа каталог, так и в обычных поисковых сервисах ИУС, а также в сервисах сети Интернет.

    1. 3.1. Обобщенный алгоритм работы

    2. поисковых систем

Обобщенно алгоритм работы поисковой системы [67; 69] и рейтинг, который она выстраивает на основе запроса (ключевое слово, словосочетание), учитывает и анализирует следующие данные:

  • общее количество ключевых слов на сайте;

  • общее количество ключевых слов на странице;

  • соотношение общего числа слов на сайте к количеству ключевых слов на нем;

  • соотношение общего числа слов на странице к количеству ключевых слов на ней;

  • индекс цитирования;

  • популярность тематики;

  • число запросов по конкретному ключевому слову за определенный период времени;

  • общее количество страниц сайта;

  • применение стиля к страницам сайта;

  • общий объем текста сайта;

  • общий объем сайта;

  • общий объем каждой страницы сайта;

  • общий объем текста каждой страницы сайта;

  • возраст сайта;

  • URL сайта (имя домена);

  • периодичность обновления информации на сайте;

  • последнее обновление страниц сайта;

  • общее число рисунков (картинок) на сайте;

  • общее количество мультимедийных файлов;

  • наличие замещающих надписей на рисунках (картинках);

  • длина (в количестве символов) замещающих надписей рисунков (картинок);

  • использование фреймов;

  • язык сайта (русский или иностранный);

  • размер шрифта, которым оформлены ключевые слова;

  • жирность шрифта ключевых слов;

  • написаны ключевые слова в разрядку или нет;

  • написаны заглавными буквами ключевые слова или нет;

  • как далеко от начала страницы располагаются ключевые слова;

  • стиль заголовков и наименований ключевых слов;

  • наличие и анализ мета-тэгов;

  • наличие и содержание описания и свойств страницы;

  • географическое место расположения сайта;

  • комментарии внутри программного кода сайта;

  • тип каждой страницы сайта: html или asp;

  • наличие в составе сайта flash-модулей;

  • наличие в составе сайта страниц с незначительными отличиями друг от друга;

  • соответствие ключевых слов сайта тому разделу каталога поисковой системы, на котором зарегистрирован сайт;

  • наличие «шумовых слов» («стоп-слов»);

  • общее количество гиперссылок сайта;

  • количество внутренних гиперссылок сайта;

  • количество внешних гиперссылок сайта;

  • глубина сайта;

  • ряд других специальных технических параметров.

Необходимо отметить, что некоторые поисковые системы вообще не имеют алгоритма как такового. Их работа сводится в основном к очистке текста сайта от программного кода и выстраивания слов, встречающихся на сайте, по их частоте.

Такой подход имеет под собой определенные основания: чем сложнее алгоритм работы поисковой системы, тем, с одной стороны, больше вероятность получения наиболее точных и полных результатов, но, с другой стороны, больше вероятность ошибок в работе самого алгоритма. Иными словами, усложняя алгоритм работы поисковой системы, можно как достичь более полных и точных результатов, так и, наоборот, получить менее точные и полные результаты.

Работа по поиску информации в любой поисковой системе примерно одинакова и сводится к работе нескольких агентов. Суть работы поисковых агентов заключается:

  • в отслеживании существующих ссылок;

  • анализе страниц на наличие ссылок на другие страницы;

  • поиске информации по новым ссылкам, полученным при анализе текстов;

  • просмотре новых страниц, которые регистрирует хозяин нового ресурса.

Если рассматривать поиск информации на основе работы метапоисковых систем, то он будет более простым: они работают с поисковыми системами и у них остаются только агенты, занятые опросом последних, и, возможно, проверкой существования выдаваемых ссылок.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]