- •Министерство образования и науки Российской Федерации
- •Оглавление
- •2. Поиск данных и документов для подготовки и принятия
- •3. Модели и алгоритмы поиска документов
- •4. Модель запросов лпр в среде распределенных
- •5. Система поддержки принятия решений на основе
- •6. Система информационно-лингвистического обеспечения
- •Введение
- •1. Распределенные системы поддержки
- •Принятия решений
- •1.1. Понятие систем поддержки принятия решений
- •1.2. Типовые архитектуры систем поддержки
- •Принятия решений
- •1.3. Анализ возможностей современных систем
- •Поддержки принятия решений
- •1.3.1. Система поддержки принятия решений парус
- •1.3.2. Система поддержки принятия решений
- •На платформе Oracle
- •2. Поиск данных и документов
- •2.1.2. Метапоисковые системы
- •2.2. Поиск информации о производственных
- •Ситуациях в информационно-управляющих
- •Системах
- •2.3. Поиск документов на основе построения
- •Терминологического базиса
- •2.4. Контекстно-поисковые процедуры на основе
- •Реляционных баз данных
- •3. Модели и алгоритмы поиска
- •3.2. Алгоритмы и модели информационного поиска
- •3.2.1. Алгоритм PageRing
- •3.2.2. Алгоритм Клейнберга и его модификации
- •3.2.3. Латентно-семантический анализ
- •3.2.4. Алгоритмы морфологического анализа текстов
- •3.2.5. Модели ранжирования
- •3.2.6. Модель определения релевантности
- •3.3. Оценка качества поисковых алгоритмов
- •4. Модель запросов лпр в среде
- •Распределенных информационных ресурсов информационно-управляющих систем
- •4.1. Процедуры формирования модели запросов лпр
- •4.2. Характеристики модели запросов лпр
- •4.3. Методология plsa в области
- •Извлечения информации
- •4.3.1. Частотная терминологическая модель запросов лпр
- •4.3.2. Динамический профиль лпр в информационно-управляющих системах
- •4.3.3. Алгоритм непрерывной корректировки профиля лпр
- •4.4. Мультилингвистическая поисковая система
- •Для подготовки и принятия решения в корпоративных
- •Информационно-управляющих системах
- •4.5. Алгоритмы организации работы
- •При обработке информации в системе
- •Поддержки принятия решений
- •4.6. Программная реализация предложенных
- •Алгоритмов
- •5. Система поддержки
- •Принятия решениЙ на основе Информационно-терминологического
- •5.1. Лексико-семантическая база данных
- •Типа WordNet для русского языка
- •5.2. Тезаурус sdk
- •5.3. Тезаурус rco for Oracle
- •5.4. Синтез структуры распределенной системы
- •Поддержки принятия решений на основе тезауруса
- •И его мультилингвистическая модификация
- •6. Система информационно-лингвистического
- •Обеспечения распределенных систем
- •Поддержки принятия решений
- •6.1. Алгоритм работы поисковой подсистемы
- •6.2. Функциональные возможности подсистемы
- •Синтеза структуры распределенной системы
- •Поддержки принятия решений
- •6.3. Программная реализация системы
- •Информационно-лингвистического обеспечения распределенных систем поддержки принятия решений
- •Заключение
- •Библиографические ссылки
- •Мультилингвистические технологии подготовки и принятия решений в распределенных информационно-управляющих системах
- •660014, Г. Красноярск, просп. Им. Газ. «Красноярский рабочий», 31.
3.2. Алгоритмы и модели информационного поиска
Классические модели информационного поиска рассматривают документы как множества представляющих эти документы ключевых слов, в дальнейшем называемых термами(словоформами). Терм – это обычно слово, семантика которого помогает описать основное содержание документа.
Формально описание любой модели информационного поиска состоит из четырех частей [17; 33]:
D– множества используемых типов представлений документов;
Q– множества используемых типов описаний информационных потребностей пользователя, т. е. запросов [4; 13];
F– общего каркаса, в рамках которого происходит моделирование описаний документов и запросов, а также описание взаимосвязей между ними;
R(q, di) – функции ранжирования, которая паре «I-й документ(di) – запрос(q)»сопоставляет некоторое вещественное число.
Модели информационного поиска делятся на три класса:
теоретико-множественные модели, использующие теорию множеств. Классический пример модели этого класса – булева модель, в рамках которой документы и запросы представляются в виде множеств термов;
вероятностные модели. Каркасом таких моделей выступает теория вероятностей, а в качестве оценки релевантности документа запросу пользователя берется вероятность того, что пользователь признает документ истинно релевантным;
алгебраические модели. В рамках этих моделей документы и запросы описываются в виде векторов в многомерном пространстве. В основе таких моделей лежат алгебраические методы [97].
Следует отметить, что наиболее популярными являются алгебраические модели, поскольку их практическая эффективность обычно оказывается выше других моделей. Предлагаемые в последнее время новые модели информационного поиска зачастую являются гибридными и обладают свойствами моделей разных классов [97].
Необходимо отметить, что практически все алгоритмы поиска информации в Интернете используют теорию графов. И это не случайно, так как Сеть можно представить как граф огромных размеров, где страницы являются узлами, а ссылки на другие страницы – дугами. При этом для каждой страницы ссылка, выходящая из нее (исходящая дуга), называется Forward, или Outcoming Link (Outedge, Outcoming Arc), а ссылка, указывающая на эту страницу (входящая дуга), – Backlink (Inedge). Обозначим факт наличия ссылки со страницы u на страницу v следующим образом: . Заметим, что все исходящие ссылки можно легко извлечь из страницы и почти всегда их количество не очень велико, так как оно определяется только хозяином страницы, тогда как для нахождения входящих дуг необходима информация о структуре интернет-сайта, а их количество может оказаться очень большим, хотя обычно оно невелико. Наличие ссылки со страницы u на страницу v в общем случае трактуется как факт оказания предпочтения странице v автором страницы u. Конечно, не все ссылки соответствуют данному утверждению, например навигационные, которые созданы для удобства перемещения по разным страницам сайта. Практически всегда результатом работы алгоритма ранжирования является присвоение каждой странице из рассматриваемого набора некоторого веса, обычно неотрицательного вещественного, и последующее упорядочивание набора страниц. Проранжированная таким образом информация предоставляется ЛПР.
Рассмотрим алгоритмы и модели, используемые на всех этапах поиска многоязычной информации.