- •Министерство образования и науки Российской Федерации
- •Оглавление
- •2. Поиск данных и документов для подготовки и принятия
- •3. Модели и алгоритмы поиска документов
- •4. Модель запросов лпр в среде распределенных
- •5. Система поддержки принятия решений на основе
- •6. Система информационно-лингвистического обеспечения
- •Введение
- •1. Распределенные системы поддержки
- •Принятия решений
- •1.1. Понятие систем поддержки принятия решений
- •1.2. Типовые архитектуры систем поддержки
- •Принятия решений
- •1.3. Анализ возможностей современных систем
- •Поддержки принятия решений
- •1.3.1. Система поддержки принятия решений парус
- •1.3.2. Система поддержки принятия решений
- •На платформе Oracle
- •2. Поиск данных и документов
- •2.1.2. Метапоисковые системы
- •2.2. Поиск информации о производственных
- •Ситуациях в информационно-управляющих
- •Системах
- •2.3. Поиск документов на основе построения
- •Терминологического базиса
- •2.4. Контекстно-поисковые процедуры на основе
- •Реляционных баз данных
- •3. Модели и алгоритмы поиска
- •3.2. Алгоритмы и модели информационного поиска
- •3.2.1. Алгоритм PageRing
- •3.2.2. Алгоритм Клейнберга и его модификации
- •3.2.3. Латентно-семантический анализ
- •3.2.4. Алгоритмы морфологического анализа текстов
- •3.2.5. Модели ранжирования
- •3.2.6. Модель определения релевантности
- •3.3. Оценка качества поисковых алгоритмов
- •4. Модель запросов лпр в среде
- •Распределенных информационных ресурсов информационно-управляющих систем
- •4.1. Процедуры формирования модели запросов лпр
- •4.2. Характеристики модели запросов лпр
- •4.3. Методология plsa в области
- •Извлечения информации
- •4.3.1. Частотная терминологическая модель запросов лпр
- •4.3.2. Динамический профиль лпр в информационно-управляющих системах
- •4.3.3. Алгоритм непрерывной корректировки профиля лпр
- •4.4. Мультилингвистическая поисковая система
- •Для подготовки и принятия решения в корпоративных
- •Информационно-управляющих системах
- •4.5. Алгоритмы организации работы
- •При обработке информации в системе
- •Поддержки принятия решений
- •4.6. Программная реализация предложенных
- •Алгоритмов
- •5. Система поддержки
- •Принятия решениЙ на основе Информационно-терминологического
- •5.1. Лексико-семантическая база данных
- •Типа WordNet для русского языка
- •5.2. Тезаурус sdk
- •5.3. Тезаурус rco for Oracle
- •5.4. Синтез структуры распределенной системы
- •Поддержки принятия решений на основе тезауруса
- •И его мультилингвистическая модификация
- •6. Система информационно-лингвистического
- •Обеспечения распределенных систем
- •Поддержки принятия решений
- •6.1. Алгоритм работы поисковой подсистемы
- •6.2. Функциональные возможности подсистемы
- •Синтеза структуры распределенной системы
- •Поддержки принятия решений
- •6.3. Программная реализация системы
- •Информационно-лингвистического обеспечения распределенных систем поддержки принятия решений
- •Заключение
- •Библиографические ссылки
- •Мультилингвистические технологии подготовки и принятия решений в распределенных информационно-управляющих системах
- •660014, Г. Красноярск, просп. Им. Газ. «Красноярский рабочий», 31.
3. Модели и алгоритмы поиска
документов в многоязычных
информационных ресурсах
Ниже будут рассмотрены новые алгоритмы поиска документов, определения их релевантности и ранжирования информации в рамках полученной выборки из мультилингвистических информационных тематических коллекций, которые могут использоваться как в системах типа каталог, так и в обычных поисковых сервисах ИУС, а также в сервисах сети Интернет.
3.1. Обобщенный алгоритм работы
поисковых систем
Обобщенно алгоритм работы поисковой системы [67; 69] и рейтинг, который она выстраивает на основе запроса (ключевое слово, словосочетание), учитывает и анализирует следующие данные:
общее количество ключевых слов на сайте;
общее количество ключевых слов на странице;
соотношение общего числа слов на сайте к количеству ключевых слов на нем;
соотношение общего числа слов на странице к количеству ключевых слов на ней;
индекс цитирования;
популярность тематики;
число запросов по конкретному ключевому слову за определенный период времени;
общее количество страниц сайта;
применение стиля к страницам сайта;
общий объем текста сайта;
общий объем сайта;
общий объем каждой страницы сайта;
общий объем текста каждой страницы сайта;
возраст сайта;
URL сайта (имя домена);
периодичность обновления информации на сайте;
последнее обновление страниц сайта;
общее число рисунков (картинок) на сайте;
общее количество мультимедийных файлов;
наличие замещающих надписей на рисунках (картинках);
длина (в количестве символов) замещающих надписей рисунков (картинок);
использование фреймов;
язык сайта (русский или иностранный);
размер шрифта, которым оформлены ключевые слова;
жирность шрифта ключевых слов;
написаны ключевые слова в разрядку или нет;
написаны заглавными буквами ключевые слова или нет;
как далеко от начала страницы располагаются ключевые слова;
стиль заголовков и наименований ключевых слов;
наличие и анализ мета-тэгов;
наличие и содержание описания и свойств страницы;
географическое место расположения сайта;
комментарии внутри программного кода сайта;
тип каждой страницы сайта: html или asp;
наличие в составе сайта flash-модулей;
наличие в составе сайта страниц с незначительными отличиями друг от друга;
соответствие ключевых слов сайта тому разделу каталога поисковой системы, на котором зарегистрирован сайт;
наличие «шумовых слов» («стоп-слов»);
общее количество гиперссылок сайта;
количество внутренних гиперссылок сайта;
количество внешних гиперссылок сайта;
глубина сайта;
ряд других специальных технических параметров.
Необходимо отметить, что некоторые поисковые системы вообще не имеют алгоритма как такового. Их работа сводится в основном к очистке текста сайта от программного кода и выстраивания слов, встречающихся на сайте, по их частоте.
Такой подход имеет под собой определенные основания: чем сложнее алгоритм работы поисковой системы, тем, с одной стороны, больше вероятность получения наиболее точных и полных результатов, но, с другой стороны, больше вероятность ошибок в работе самого алгоритма. Иными словами, усложняя алгоритм работы поисковой системы, можно как достичь более полных и точных результатов, так и, наоборот, получить менее точные и полные результаты.
Работа по поиску информации в любой поисковой системе примерно одинакова и сводится к работе нескольких агентов. Суть работы поисковых агентов заключается:
в отслеживании существующих ссылок;
анализе страниц на наличие ссылок на другие страницы;
поиске информации по новым ссылкам, полученным при анализе текстов;
просмотре новых страниц, которые регистрирует хозяин нового ресурса.
Если рассматривать поиск информации на основе работы метапоисковых систем, то он будет более простым: они работают с поисковыми системами и у них остаются только агенты, занятые опросом последних, и, возможно, проверкой существования выдаваемых ссылок.