Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие по ИС.doc
Скачиваний:
12
Добавлен:
10.11.2019
Размер:
541.7 Кб
Скачать

8.2. Інформаційно-пошукова мова та її використання в аіпс

Кожна ЩС містить певний набір семантичних засобів (куди належить, зокрема, інформаційно-пошукова мова), методи індексування документів та запитів, методи пошуку. Основу семантичних засобів становить ІПМ. Інформаційно-пошукова мова — це спеціалізована штучна мова, яка призначена для опису центральних тем чи предметів і формальних характеристик документів, а також для опису інформаційних запитів і наступного виконання пошуку.

До ІПМ ставиться цілий ряд вимог:

• ІПМ повинна мати достатній набір лексико-граматичних засобів для точного вираження центральних тем або змісту будь-якого тексту (документа) і теми довільного інформаційного запиту;

• ІПМ має бути однозначною, тобто кожний запис нею повинен мати лише одне семантичне тлумачення;

• ІПМ має бути зручною для порівняння та повного чи часткового порівняння ПОБ і ПР;

• ІПМ має бути компактною, мат невелику вартість та бути відкритою для можливого розширення та внесення змін.

Жодна з природних мов не може бути використана як ШМ через недостатню структуризацію, велику кількість граматичних винятків, неоднозначність та велику надлишковість природної мови.

Основними елементами ШМ є алфавіт, лексика, граматика, парадигматичні (базові) відношення, правила побудови індексів та і'х ідентифікація.

Алфавітом називається система графічних знаків, що використовуються для фіксації слів і словосполучень мови.

Лексика мови — це сукупність слів, що використовуються в ній.

Граматика — це сукупність діючих засобів та правил побудови висловлювань засобами цієї мови.

Відношення між словами, які не залежать від контексту, де вони використовуються і спричинені не мовними, а логічними зв'язками, називаються парадигматичними відношеннями. Ці відношення називаються ще аналітичними, або базовими. Завдяки предметно-логічним зв'язкам слова на основі тієї чи іншої семантичної ознаки можуть об'єднуватися в лексико-семантичні групи, які називаються парадигмами. Наприклад, слова «магнітна стрічка», «магнітний диск», «перфокарта», «перфострічка», «гнучка магнітна дискета» утворюють тематичну групу «носії інформації». У середині цієї групи перелічені слова можна об'єднати в лексико-семантичні парадигми «носії паперові», «носії магнітні».

Іншим типом відношень, що пов'язують слова будь-якої мови, є такі лінійні відношення, які безпосередньо установлюються при об'єднанні слів у словосполучення та фрази. Такі відношення називаються синтагматичними. Одним із найпростіших видів синтагматичних відношень є таке, коли до того чи Іншого поняття приєднується ще одне, яке пояснює перше і вказує на те, що воно є власним ім'ям, визначенням чи певним видом діяльності. Так, наприклад, якщо документ стосується винахідника і його винаходу, то поняття, які стосуються винаходу та винахідника, відмічаються окремо, щоб уникнути плутанини при виконанні пошуку, наприклад, «Дизель» (винахідник) і «дизель» (двигун).

Із викладеного можна зробити такий висновок: парадигматика спирається на певну сукупність (перелік) пов'язаних між собою мовних одиниць, а синтагматика потребує певних правил об'єднання цих одиниць у словосполучення. Тому парадигматику мови можна з певним припущенням порівнювати з її лексикою, а синтагматику мови — з її граматикою.

При розробці ІПМ слід ураховувати таке:

специфіку галузі чи предмета, для якого ця мова розробляється;

особливості текстів (документів), які утворюють пошуковий масив;

характер інформаційних потреб, для задоволення яких створюється ШС.

Доцільність використання тієї чи іншої мови багато в чому залежить від призначення інформаційної системи, рівня її оснащення технічними засобами та рівня автоматизації. Для зберігання документів у бібліотеках і технічних архівах використовують, як правило, мови, якими поширюються традиційні бібліотечно-бібліографічні класифікації. Словниковий склад цих мов задається у вигляді фіксованого списку слів і словосполучень. Ці мови належать до класифікаційного типу, причому розглядаються такі системи класифікації: ієрархічна, алфавітно-предметна, фасетна.

З огляду на ріст інформаційних потоків та інформаційних потреб перелічені мови класифікаційного типу не задовольняють вимог сучасних інформаційних систем. Адже мова цього типу має дуже обмежений словниковий запас, поповнювати який дуже нелегко, а тому мови цієї групи використовуються в дуже вузько-спеціалізованих системах. Більш поширені інформаційно-пошукові мови дескрипторного типу. Ця мова характеризується тим, що її словник складається із окремих ізольованих слів та словосполучень, розміщених в алфавітному порядку. Дескрипторна мова грунтується на методі координатного індексування, який дає змогу виражати зміст документа шляхом встановлення відповідності між текстом цього документа і деякою множиною ключових слів чи дескрипторів. Тому дескрипторні мови називають посткоординатними, а в противагу їм традиційні бібліотечне-бібліографічні мови належать до передкоординатних. До посткоординатних мов належать дескрипторні мови, а також семантичні коди та синтагматична мова. Загальна класифікація 1ПМ має такий вигляд:

1. Перед координати і ІПМ.

1.1. Ієрархічна класифікація.

1.2. Алфавітно-предметна класифікація.

1.3. Фасетна класифікація.

2. Посткоординатні ІПМ.

2.1. Дескрипторні мови.

2.2. Семантичні коди.

2.3. Синтагматичні мови.

Розглянемо докладніше дескрипторну мову.