- •Министерство образования и науки Российской Федерации
- •Оглавление
- •2. Поиск данных и документов для подготовки и принятия
- •3. Модели и алгоритмы поиска документов
- •4. Модель запросов лпр в среде распределенных
- •5. Система поддержки принятия решений на основе
- •6. Система информационно-лингвистического обеспечения
- •Введение
- •1. Распределенные системы поддержки
- •Принятия решений
- •1.1. Понятие систем поддержки принятия решений
- •1.2. Типовые архитектуры систем поддержки
- •Принятия решений
- •1.3. Анализ возможностей современных систем
- •Поддержки принятия решений
- •1.3.1. Система поддержки принятия решений парус
- •1.3.2. Система поддержки принятия решений
- •На платформе Oracle
- •2. Поиск данных и документов
- •2.1.2. Метапоисковые системы
- •2.2. Поиск информации о производственных
- •Ситуациях в информационно-управляющих
- •Системах
- •2.3. Поиск документов на основе построения
- •Терминологического базиса
- •2.4. Контекстно-поисковые процедуры на основе
- •Реляционных баз данных
- •3. Модели и алгоритмы поиска
- •3.2. Алгоритмы и модели информационного поиска
- •3.2.1. Алгоритм PageRing
- •3.2.2. Алгоритм Клейнберга и его модификации
- •3.2.3. Латентно-семантический анализ
- •3.2.4. Алгоритмы морфологического анализа текстов
- •3.2.5. Модели ранжирования
- •3.2.6. Модель определения релевантности
- •3.3. Оценка качества поисковых алгоритмов
- •4. Модель запросов лпр в среде
- •Распределенных информационных ресурсов информационно-управляющих систем
- •4.1. Процедуры формирования модели запросов лпр
- •4.2. Характеристики модели запросов лпр
- •4.3. Методология plsa в области
- •Извлечения информации
- •4.3.1. Частотная терминологическая модель запросов лпр
- •4.3.2. Динамический профиль лпр в информационно-управляющих системах
- •4.3.3. Алгоритм непрерывной корректировки профиля лпр
- •4.4. Мультилингвистическая поисковая система
- •Для подготовки и принятия решения в корпоративных
- •Информационно-управляющих системах
- •4.5. Алгоритмы организации работы
- •При обработке информации в системе
- •Поддержки принятия решений
- •4.6. Программная реализация предложенных
- •Алгоритмов
- •5. Система поддержки
- •Принятия решениЙ на основе Информационно-терминологического
- •5.1. Лексико-семантическая база данных
- •Типа WordNet для русского языка
- •5.2. Тезаурус sdk
- •5.3. Тезаурус rco for Oracle
- •5.4. Синтез структуры распределенной системы
- •Поддержки принятия решений на основе тезауруса
- •И его мультилингвистическая модификация
- •6. Система информационно-лингвистического
- •Обеспечения распределенных систем
- •Поддержки принятия решений
- •6.1. Алгоритм работы поисковой подсистемы
- •6.2. Функциональные возможности подсистемы
- •Синтеза структуры распределенной системы
- •Поддержки принятия решений
- •6.3. Программная реализация системы
- •Информационно-лингвистического обеспечения распределенных систем поддержки принятия решений
- •Заключение
- •Библиографические ссылки
- •Мультилингвистические технологии подготовки и принятия решений в распределенных информационно-управляющих системах
- •660014, Г. Красноярск, просп. Им. Газ. «Красноярский рабочий», 31.
5.3. Тезаурус rco for Oracle
Тезаурус RCO for Oracle – единственный программный продукт, позволяющий значительно расширить возможности информационного поиска Oracle Text при работе c базами данных, содержащими документы на русском языке. Он предназначен для системных интеграторов и разработчиков приложений, использующих возможности информационного поиска, а также для отделов автоматизации производства средних и крупных предприятий.
Этот тезаурус задействует такие технологии, как лексико-грамматичес-кий и статистический анализ текста, алгоритмы автоматической классификации, рубрицирования и реферирования, нечеткого поиска [40; 60; 89].
Oracle Text, являясь компонентом СУБД Oracle Database, представляет собой высокопроизводительную информационно-поисковую систему, обладающую широким спектром возможностей, среди которых можно выделить следующие:
работу с документами, хранящимися как в СУБД Oracle, так и в файловойсистеме и Интернете;
поддержку более 150 различных форматов документов;
богатый язык поисковых запросов, включающий логические связки, поиск с учетом расстояния между словами, использование метасимволов и т. д.;
мощные лингвистические опции, такие как поиск с учетом словоформ, расширение запросов при помощи тезауруса, тематический анализ, кластерный анализ и т. д.
Это позволяет задавать в запросах одновременно контекстные и реляционные ограничения, а также выполнять администрирование реляционных и полнотекстовых индексов едиными средствами.
Тезаурус RCO for Oracle решает проблему полноценной реализации всех существующих функций Oracle Text для русского языка, а именно:
поиск документов с учетом всех грамматических форм слов запроса, повышающий полноту и точность выдаваемых результатов;
поиск слов, близких по написанию (нечеткий поиск);
расширение запроса синонимами, более общими и более частными понятиями на основе тезауруса общей лексики русского языка;
поиск документов по ключевым темам, которые автоматически выделяются при индексировании;
выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос ассоциативно близкими темами;
составление общих и тематических рефератов документов;
автоматическое построение иерархических рубрикаторов и классификация документов по рубрикам;
наглядное представление результатов поиска;
поддержка всех кодовых страниц русского языка.
Морфологический анализатор RCO позволяет обрабатывать более 110 тыс. слов, заданных в морфологическом словаре, а также любые неизвестные слова, анализируя их по аналогии с похожими словами. Используемый при этом словарь лингвистических данных для русского языка помимо словооснов включает в себя 6 тыс. окончаний, 1,5 тыс. моделей словоизменения, 200 суффиксов, что соответствует 2,5 млн распознаваемых словоформ.
В состав тезауруса RCO for Oracle вошло около 75 тыс. слов и словосочетаний, объединенных в 22 тыс. гипонимических рядов (22 тыс. ги-перонимов), в том числе 17 тыс. синонимических рядов, охватывающих 45 тыс. слов.
Тезаурус RCO основан на открытых стандартах и спецификациях Oracle. В нем предусмотрена возможность интеграции с существующими приложениями, использующими Oracle Text, что позволяет расширить их функциональные возможности. Это касается не только прикладных решений, но и других продуктов корпорации Oracle:
Oracle Ultra Search – средства для организации поиска по разнородным информационным ресурсам, бесплатно поставляемого в составе Oracle Database;
Oracle Internet Application Server – средства для создания интернет- и интранет-приложений, содержащего портлет для поиска по документам и формам портала и использующего Oracle Text;
Oracle Collaboration Suite – средства для организации коллективной работы, включающего электронную и голосовую почту, средства публикации, календарь и использующего поиск Ultra Search;
Oracle Content Management SDK (бывшего Internet File System) – средства для управления документами различной природы с возможностью поддержания структуры каталогов, разграничением прав доступа, ведения версий документов, использующего Oracle Text для поиска.
В настоящее время существуют коммерческие версии тезауруса RCOforOracleдля Windows NT/2000 и различных UNIX-платформ (SUN Sparc Solaris, SCO UnixWare, Compaq Tru64 Unix, HP UX, IBM AIX, Linux).
Широкий спектр алгоритмов анализа текста и лингвистического обеспечения, входящего в RCO forOracle, позволяет получить не только средства поиска документов, но и мощный аналитический инструмент, обладающий следующими функциями:
маршрутизации и классификации потока документов (например, сообщений новостной ленты, электронной почты);
представления тематической структуры исследуемого информационного массива;
представления динамики изменения тематического поля вокруг интересующего предмета/объекта;
выявления ассоциативных связей между темами/объектами.
Таким образом, тезаурус RCO forOracleпозволяет использовать все преимущества продуктов корпорации Oracle для организации полнотекстового поиска. А учет словоформ русского языка значительно облегчает поиск нужных документов при решении задач из различных предметных областей. Кроме того, RCOforOracleсущественно упрощает задачу поиска в корпоративных архивах.