Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие по ИС.doc
Скачиваний:
12
Добавлен:
10.11.2019
Размер:
541.7 Кб
Скачать

8.4. Інформаційно-пошуковий тезаурус

З погляду виконання якісного пошуку інформації недостатньо провести лексикографічний контроль та побудувати список дескрипторів і ключових слів. Необхідно створити спеціальний нормативний словник, в якому лексичні одиниці були б взаємопов'язані і визначені. Крім внутрішніх текстових взаємозв'язків такий словник — його називають тезаурусом — має містити позатекстові зв'язки. Тезаурус у перекладі з грецької означає скарб, багатство, запас. Отже, множина дескрипторів і ключових слів з їх відношеннями організують тезаурус.

Тезаурус є зібранням лексики штучної мови.

Інформаційно-пошуковий тезаурус (ІПТ) виник насамперед як допоміжний апарат ІПС, що будується у вигляді списку термінів і зв'язків між ними.

Інформаційно-пошуковий тезаурус дає змогу перекладати основний зміст документів та інформаційних запитів з природної мови інформаційно-пошуковою.

Для виконання цієї операції в тезаурусі мають відбиватися парадигматичні відношення, які існують між термінами ІПМ. Парадигматичні відношення — це поза текстові відношення, які відображають залежності між процесами чи об'єктами реальної предметної області. Парадигматичні відношення — це відношення типу рід— вид, частина—ціле, причина—наслідок і т. ін. Тобто парадигматичні відношення не залежать від контексту, в якому використовуються ті чи інші слова, вони зумовлені не мовними, а логічними зв'язками, які існують в реальній дійсності.

Основні етапи побудови інформаційно-пошукового тезаурусу такі:

1. Добір лексичних одиниць тексту, тобто ключових слів, які виражають основний зміст тексту чи його головну тему.

2. Групування лексичних одиниць тексту в класи умовної еквівалентності, тобто аналіз їх щодо синонімії та вибір семантичних домінант (дескрипторів).

3. Встановлення парадигматичних відношень між лексичними одиницями тексту.

4. Оформлення ШТ.

Існують ручний і автоматизований способи встановлення парадигматичних відношень між ключовими словами. При встановленні цих залежностей визначають дескрипторні статті, або гнізда. Дескрипторна стаття, або гніздо, тезаурусу — це сукупність головного дескриптора та дескрипторів, які пов'язані з ним поза-текстовими зв'язками.

У разі ручного способу аналізують словник ключових слів. Для цього кожну лексичну одиницю тексту послідовно крок за кроком порівнюють з усіма іншими словами, щоб виявити зв'язки даного терміна з іншими. Таку роботу доручають висококваліфікованому спеціалістові, який добре обізнаний з термінологією тієї предметної області, для якої розробляється ІПТ. Проте виконання цієї роботи досить трудомістке й складне та потребує дуже багато часу.

У разі автоматизованого способу дескрипторні статті, або гнізда, визначають так. В основу методики побудови гнізд покладено принцип установлення змістової єдності пар елементів словника статистичним методом. Метод базується на гіпотезі про те, що ті лексичні одиниці тексту, для яких частота попарного використання в межах групи вища за деяку порогову величину, утворюють класи близьких за значенням термінів.