Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
Скачиваний:
129
Добавлен:
06.03.2016
Размер:
3.28 Mб
Скачать
    1. 5.3. Тезаурус rco for Oracle

Тезаурус RCO for Oracle – единственный программный продукт, позволяющий значительно расширить возможности информационного поиска Oracle Text при работе c базами данных, содержащими документы на русском языке. Он предназначен для системных интеграторов и разработчиков приложений, использующих возможности информационного поиска, а также для отделов автоматизации производства средних и крупных предприятий.

Этот тезаурус задействует такие технологии, как лексико-грамматичес-кий и статистический анализ текста, алгоритмы автоматической классификации, рубрицирования и реферирования, нечеткого поиска [40; 60; 89].

Oracle Text, являясь компонентом СУБД Oracle Database, представляет собой высокопроизводительную информационно-поисковую систему, обладающую широким спектром возможностей, среди которых можно выделить следующие:

  • работу с документами, хранящимися как в СУБД Oracle, так и в файловойсистеме и Интернете;

  • поддержку более 150 различных форматов документов;

  • богатый язык поисковых запросов, включающий логические связки, поиск с учетом расстояния между словами, использование метасимволов и т. д.;

  • мощные лингвистические опции, такие как поиск с учетом словоформ, расширение запросов при помощи тезауруса, тематический анализ, кластерный анализ и т. д.

Это позволяет задавать в запросах одновременно контекстные и реляционные ограничения, а также выполнять администрирование реляционных и полнотекстовых индексов едиными средствами.

Тезаурус RCO for Oracle решает проблему полноценной реализации всех существующих функций Oracle Text для русского языка, а именно:

  • поиск документов с учетом всех грамматических форм слов запроса, повышающий полноту и точность выдаваемых результатов;

  • поиск слов, близких по написанию (нечеткий поиск);

  • расширение запроса синонимами, более общими и более частными понятиями на основе тезауруса общей лексики русского языка;

  • поиск документов по ключевым темам, которые автоматически выделяются при индексировании;

  • выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос ассоциативно близкими темами;

  • составление общих и тематических рефератов документов;

  • автоматическое построение иерархических рубрикаторов и классификация документов по рубрикам;

  • наглядное представление результатов поиска;

  • поддержка всех кодовых страниц русского языка.

Морфологический анализатор RCO позволяет обрабатывать более 110 тыс. слов, заданных в морфологическом словаре, а также любые неизвестные слова, анализируя их по аналогии с похожими словами. Используемый при этом словарь лингвистических данных для русского языка помимо словооснов включает в себя 6 тыс. окончаний, 1,5 тыс. моделей словоизменения, 200 суффиксов, что соответствует 2,5 млн распознаваемых словоформ.

В состав тезауруса RCO for Oracle вошло около 75 тыс. слов и словосочетаний, объединенных в 22 тыс. гипонимических рядов (22 тыс. ги-перонимов), в том числе 17 тыс. синонимических рядов, охватывающих 45 тыс. слов.

Тезаурус RCO основан на открытых стандартах и спецификациях Oracle. В нем предусмотрена возможность интеграции с существующими приложениями, использующими Oracle Text, что позволяет расширить их функциональные возможности. Это касается не только прикладных решений, но и других продуктов корпорации Oracle:

  • Oracle Ultra Search – средства для организации поиска по разнородным информационным ресурсам, бесплатно поставляемого в составе Oracle Database;

  • Oracle Internet Application Server – средства для создания интернет- и интранет-приложений, содержащего портлет для поиска по документам и формам портала и использующего Oracle Text;

  • Oracle Collaboration Suite – средства для организации коллективной работы, включающего электронную и голосовую почту, средства публикации, календарь и использующего поиск Ultra Search;

  • Oracle Content Management SDK (бывшего Internet File System) – средства для управления документами различной природы с возможностью поддержания структуры каталогов, разграничением прав доступа, ведения версий документов, использующего Oracle Text для поиска.

В настоящее время существуют коммерческие версии тезауруса RCOforOracleдля Windows NT/2000 и различных UNIX-платформ (SUN Sparc Solaris, SCO UnixWare, Compaq Tru64 Unix, HP UX, IBM AIX, Linux).

Широкий спектр алгоритмов анализа текста и лингвистического обеспечения, входящего в RCO forOracle, позволяет получить не только средства поиска документов, но и мощный аналитический инструмент, обладающий следующими функциями:

  • маршрутизации и классификации потока документов (например, сообщений новостной ленты, электронной почты);

  • представления тематической структуры исследуемого информационного массива;

  • представления динамики изменения тематического поля вокруг интересующего предмета/объекта;

  • выявления ассоциативных связей между темами/объектами.

Таким образом, тезаурус RCO forOracleпозволяет использовать все преимущества продуктов корпорации Oracle для организации полнотекстового поиска. А учет словоформ русского языка значительно облегчает поиск нужных документов при решении задач из различных предметных областей. Кроме того, RCOforOracleсущественно упрощает задачу поиска в корпоративных архивах.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]