Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
100587_Lytvyn.doc
Скачиваний:
162
Добавлен:
07.02.2016
Размер:
6.01 Mб
Скачать

2.3.2. Лінгвістичний аспект

Лінгвістичний (А2) аспект стосується досліджень мовних проб­лем, тому що мова – це основний засіб спілкування у про­цесі видобу­вання знань. Область розроблення природно-мов­них інтерфейсів і весь спектр проблем, пов’язаних з нею – лексичних, синтаксичних, семан­тичних, прагматичних тощо, у цій книзі не розглядається.

В інженерії знань можна виділити три етапи лінгвістичних проблем (рис. 2.8):

А2 = {S21, S22, S23} – {“загальний код”, понятійна струк­тура, слова}.

Рис. 2.8. Лінгвістичний аспект видобування знань

Загальний код” (S21)

“Загальний код” вирішує проблему мовних ножиць між про­фесійною термінологією експерта і повсякденною літературною мо­вою інженера зі знань і об’єднує такі компоненти:

S21 = {s21_i} = {загальнонаукова термінологія; спеціальні по­няття з професійної літератури; елементи побутової мови; неологізми, сформовані за період спільної роботи; професійний жаргон тощо}.

Деталізація схеми спілкування (див. рис. 2.5) дає змогу зо­бразити засоби спілкування як два потоки [54], у яких нас цікавлять компоненти V1 і V2 – мови, якими говорять аналітик і експерт (V11, V21 – невербальні компоненти). Розходження мов V1 і V2 зумовлює “мовний бар’єр” або “мовні ножиці” у спілкуванні інженера зі знань і експерта.

Ці дві мови є відображенням “внутрішньої мови” експерта й аналітика, оскільки більшість психологів і лінгвістів вважають, що мова – це основний засіб мислення поряд з іншими знаковими системами “внутрішнього користування” (універсальний семантичний код – УСК, мови “змісту”, концептуальні мови тощо). Мова аналітика V1 складається з трьох компонентів:

  • s21_l – загальнонаукової термінології з її “теоретичним багажем;

  • s21_2 – термінів предметної області, які аналітик почерпнув зі спеціальної літератури в період підготовки;

  • s21_3 – побутової розмовної мови, якою користується аналітик.

Мова експерта V2 охоплює:

  • s21_l – загальнонаукову термінологію;

  • s21_2 – спеціальну термінологію, прийняту в предметній області;

  • s21_3 – побутову мову;

  • s21_4 – неологізми, створені експертом за період роботи, тобто його про­фесійний жаргон.

Якщо вважати, що побутова й загальнонаукова мови у двох учасників спілкування приблизно збігаються (хоча реально обсяг дру­гого компонента в експерта істотно більший), то деяка загальна мова або код, який необхідно виробити партнерам для успішної взаємодії, складатиметься з потоків, зображених на рис. 2.9.

Надалі цей загальний код перетвориться в деяку понятійну (семантичну) мережу, що є прообразом поля знань предметної області. Вироблення загального коду починається з виписування аналітиком всіх термінів, уживаних експертом, і уточнення їхнього змісту. Фак­тично це складання словника предметної області. Потім відбувається групування термінів і вибір синонімів (слів, що означають те саме). Розроблення загального коду закінчується складанням словника термінів предметної області з попереднім угрупованням їх за змістом, тобто за понятійною близькістю (це вже перший крок структурування знань).

На цьому етапі аналітик повинен уважно розглянути усі спе­ціальні терміни, намагаючись максимально вникнути в суть роз­в’язуваних проблем і термінологію. Освоєння аналітиком мови пред­метної області – перший рубіж на підступах до створення адекватної бази знань.

Рис. 2.9 дає уявлення про процес неоднозначності інтер­претації тер­мінів двома фахівцями. У семіотиці, науці про знакові системи, проб­лема інтерпретації є однією із централь­них. Інтерпретація зв’язує “знак” і “означуваний предмет”. Тільки в інтерпретації знак одержує зміст.

Увага до лінгвістичного аспекту проблеми видобування знань сприяє зближенню між собою двох образів.

Рис. 2.9. Структура загального коду

Отже, етап S21 передбачає вивчення й керування процесом роз­роблення спеціальної проміжної мови, необхідної для взаємодії інженера зі знань і експерта.

Понятійна структура (S22)

Проблеми формування понятійної структури становлять такий етап S22 лінгвістичного аспекту проблеми видобуван­ня знань. Особ­ливості формування понятійної структури зу­мовлені встановленим постулатом когнітивної психології про взаємозв’язок понять у пам’яті людини й наявності семантич­ної мережі, що поєднує окремі терміни у фрагменти, фрагмен­ти у сценарії тощо. Побудова ієрархічної мережі понять, “піраміди знань”, – найважливіша ланка в проекту­ванні інтелектуальних систем.

Більшість фахівців зі штучного інтелекту й когнітивної пси­хології вважають, що основна особливість природного інте­лекту і па­м’яті зокрема – це зв’язаність всіх понять у деяку мережу. Тому для розроблення бази знань потрібний не слов­ник, а “енциклопедія”, в якій всі терміни пояснені у словникових статтях з посиланнями на інші терміни.

Отже, лінгвістична робота інженера зі знань на цьому етапі проблем полягає в побудові таких зв’язаних фрагментів за допомогою “зшивання” термінів. Фактично ця робота є підго­товкою до етапу концептуалізації, де це “шиття” (по Шенку – КІП, концептуальна орга­нізація пам’яті [130]) набуває деякого закінченого вигляду. У ре­тельній роботі аналітика й екс­перта в понятійних структурах починає проглядатися ієрархія понять, докладно про яку йдеться нижче. Такі структури ма­ють найважливіші гносеологічне і дидактичне значення й останнім часом для них використовується спеціальний термін – онто­логії. Відзначимо, що ця ієрархічна організація добре узгоджується з теорією універсального предметного коду (УПК), відповідно до якої у мисленні використовуються не мовні конструкції, а їхні коди у формі деяких абстракцій, що в загальному узгоджуються з результатами когнітивної пси­хології. Ієрархія абстракцій – це глобальна схема, що мо­же бути покладена в основу концептуального аналізу структури знань будь-якої предметної області. Лінгвістичний еквівалент ієрар- хії – ієрархія понять, яку необхідно побудувати в по­нятійній структурі, сформованій інженером зі знань (рис. 2.10).

Підкреслимо, що робота зі складання словника та понятійної структури вимагає лінгвістичного “чуття”, легкості маніпулю­вання тер­мінами та багатого словникового запасу інженера зі знань, тому що най­частіше аналітик змушений самостійно роз­робляти словник ознак. Що багатший та виразніший виходить загальний код, що повніша база знань.

Рис. 2.10. Приклад ієрархії

Аналітик змушений постійно пам’ятати про труднощі пере­давання образів і подань у вербальній формі. Корисними тут вияв­ляються властивості багатозначності слів природної мо­ви. Часто інженерові зі знань доводиться підказувати слова і вирази експертові, і такі нові лексичні конструкції виявля­ються корисними.

Здатність до словесної інтерпретації залежить і від статі аналі­тика (параметр s11_1). Встановлено, що традиційно жінки надають перевагу невербальним компонентам спілкування, а вербальні мають більший алфавіт ознак. І вза­галі, існують статеві розходження сприй­няття не тільки в по­бутовій сфері, але й у професійній. Отже, в екс­перта-чоловіка й в експерта-жінки можуть істотно відрізнятися алфа­віти для вербалізації ознак сприйнятих об’єктів.

Словник користувача (S23)

Лінгвістичні результати, співвіднесені до етапів загального коду й понятійної структури, спрямовані на створення адек­ватної бази знань. Однак часто професійний рівень кінцевого користувача не дає йому змоги застосувати спеціальну мову предметної області в повному обсязі.

Для розроблювачів-початківців несподіваними є проблеми формування окремого словника для створення дружнього інтерфейсу з користувачем ЕС, досліджувані в етапі S23. Не­обхідні спеціальні при­йоми, що збільшують “прозорість” і доступність системи. Для розроб­лення користувальницького інтерфейсу потрібне додаткове доопрацю­вання словника за­гального коду з виправленням на доступність і “прозорість” системи.

Так, під час розроблення експертної системи з психодіаг­ностики АВТАНТЕСТ довелося розробити два словники термінів – один для пси­хологів-професіоналів, другий – для неспеціалістів (клієнтів). Оскільки результат психодіагностичного тестування завжди цікавий клієнту, йому видається лістинг з психологічним висновком загаль­нолітературною мовою без уживання спеціальних термінів. Цікаво, що впроваджуючи систему, використовувався переважно другий слов­ник; навіть професійні психологи віддавали пере­вагу текстам з повсяк­денною мовою.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]