Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции ИИС.doc
Скачиваний:
24
Добавлен:
24.04.2019
Размер:
3.77 Mб
Скачать

Лингвистический аспект извлечения знаний

Лингвистический (А2) аспект касается исследований языковых проблем, так как язык - это основное средство общения в процессе извлечения знаний.

Сразу же следует оговорить, что поскольку тема данной книги ограничена изложением теории и технологии инженерии знаний, то область разработки естественно-языковых интерфейсов и весь спектр проблем, связанных с ней - лексических, синтаксических, семантических, прагматических и т. д. [Виноград, 1976; Мальковский, 1985; Попов, 1982], - не рассматривается.

В инженерии знаний можно выделить три слоя лингвистических проблем (рис. 18.):

А2 = {S21, S22, S23} = {"общий код", понятийная структура, словарь пользователя}.

Рис. 18. Лингвистический аспект извлечения знаний

"Общий код" (S21)

"Общий код" решает проблему языковых ножниц между профессиональной терминологией эксперта и обыденной литературной речью инженера по знаниям и включает следующие компоненты:

S21 = {s21_i} = {общенаучная терминология; специальные понятия из профессиональной литературы; элементы бытового языка; неологизмы, сформированные за время совместной работы; профессиональный жаргон и др.}.

Детализация схемы общения (см. рис. 15.) на рис. 18. позволяет представить средства общения как два потока [Горелов, 1987], в которых нас интересуют компоненты V1 и V2 - языки, на которых говорят аналитик и эксперт (V1', V2' -невербальные компоненты). Различие языков V1 и V2 и обусловливает "языковый барьер" или "языковые ножницы" в общении инженера по знаниям и эксперта.

Эти два языка являются отражением "внутренней речи" эксперта и аналитика, поскольку большинство психологов и лингвистов считают, что язык - это основное средство мышления наряду с другими знаковыми системами "внутреннего пользования" (универсальный семантический код - УСК [Мартынов, 1977], языки "смысла" [Мельчук, 1974], концептуальные языки [Шенк, 1980] и др.).

Язык аналитика V1 состоит из трех компонентов:

  • s21_l - общенаучной терминологии из его "теоретического багажа";

  • s21_2 - терминов предметной области, которые он почерпнул из специальной литературы в период подготовки;

  • s21_3 - бытового разговорного языка, которым пользуется аналитик.

  • Язык эксперта V2 включает:

  • s21_l - общенаучную терминологию;

  • s21_2 - специальную терминологию, принятую в предметной области;

  • s21_3 - бытовой язык;

  • s21_4 - неологизмы, созданные экспертом за время работы, то есть его профессиональный жаргон.

Если считать, что бытовой и общенаучный языки у двух участников общения примерно совпадают (хотя реально объем второго компонента у эксперта существенно больше), то некоторый общий язык или код, который необходимо выработать партнерам для успешного взаимодействия, будет складываться из потоков, представленных на рис. 19.

В дальнейшем этот общий код преобразуется в некоторую понятийную (семантическую) сеть, которая является прообразом поля знаний предметной области.

Выработка общего кода начинается с выписыванием аналитиком всех терминов, употребляемых экспертом, и уточнения их смысла. Фактически это составление словаря предметной области. Затем следует группирование терминов и выбор синонимов (слов, означающих одно и то же). Разработка общего кода заканчивается составлением словаря терминов предметной области с предварительной группировкой их по смыслу, то есть по понятийной близости (это уже первый шаг структурирования знаний).

На этом этапе аналитик должен с большим вниманием отнестись ко всем специальным терминам, пытаясь максимально вникнуть в суть решаемых проблем и терминологию. Освоение аналитиком языка предметной области - первый рубеж на подступах к созданию адекватной базы знаний.

Рис. 19. Структура общего кода

Рисунок 19 дает представление о процессе неоднозначности интерпретации терминов двумя специалистами. В семиотике, науке о знаковых системах, проблема интерпретации является одной из центральных. Интерпретация связывает "знак" и "означаемый предмет". Только в интерпретации знак получает смысл. Так, на рис. 20. слова "прибор X" для эксперта означает некоторую конкретную схему, которая соответствует схеме оригинала прибора, а в голове начинающего аналитика слова "прибор X" вызывают пустой образ или некоторый черный ящик с ручками.

Рис. 20. Неоднозначность интерпретации

Внимание к лингвистическому аспекту проблемы извлечения знаний способствует сближению образа 1 с образом 2 и интерпретации I1с интерпретацией I2, а слова "прибор X" перейдут в действительно "общий" код. Таким образом, слой S21 включает изучение и управление процессом разработки специального промежуточного языка, необходимого для взаимодействия инженера по знаниям и эксперта.

Понятийная структура (S22)

Проблемы формирования понятийной структуры представляют следующий слой S22 лингвистического аспекта проблемы извлечения знаний. Особенности формирования понятийной структуры обусловлены установленным постулатом когнитивной психологии о взаимосвязи понятий в памяти человека и наличии семантической сети, объединяющей отдельные термины во фрагменты, фрагменты в сценарии и т. д. Построение иерархической сети понятий, так называемой "пирамиды знаний", - важнейшее звено в проектировании интеллектуальных систем.

Большинство специалистов по искусственному интеллекту и когнитивной психологии считают, что основная особенность естественного интеллекта и памяти в частности - это связанность всех понятий в некоторую сеть. Поэтому для разработки базы знаний и нужен не словарь, а "энциклопедия" [Шенк, Бирнбаум, Мей, 1989], в которой все термины объяснены в словарных статьях со ссылками на другие термины.

Таким образом, лингвистическая работа инженера по знаниям на данном слое проблем заключается в построении таких связанных фрагментов с помощью "сшивания" терминов. Фактически эта работа является подготовкой к этапу концептуализации, где это "шитье" (по Шенку - КОП, концептуальная организация памяти [Шенк, Хантер, 1987]) приобретает некоторый законченный вид.

При тщательный работе аналитика и эксперта в понятийных структурах начинает просматриваться иерархия понятий. Такие структуры имеют важнейшее гносеологическое и дидактическое значение и последнее время для них используется специальный термин - онтологии. Следует заметить, что эта иерархическая организация хорошо согласуется с теорией универсального предметного кода (УПК) [Горелов, 1987; Жинкин, 1982], согласно которой при мышлении используются не языковые конструкции, а их коды в форме некоторых абстракций, что в общем согласуется с результатами когнитивной психологии [Величковский, 1982].

Иерархия абстракций - это глобальная схема, которая может быть положена в основу концептуального анализа структуры знаний любой предметной области. Лингвистический эквивалент иерархии - иерархия понятий, которую необходимо построить в понятийной структуре, формируемой инженером по знаниям (рис. 21.).

Следует подчеркнуть, что работа по составлению словаря и понятийной структуры требует лингвистического "чутья", легкости манипулирования терминами и богатого словарного запаса инженера по знаниям, так как зачастую аналитик вынужден самостоятельно разрабатывать словарь признаков. Чем богаче и выразительнее получается общий код, тем более полнее база знаний.

Рис. 21. Пример иерархии

Аналитик вынужден все время помнить о трудности передачи образов и представлений в вербальной форме. Полезными тут оказываются свойства многозначности слов естественного языка. Часто инженеру по знаниям приходится подсказывать слова и выражения эксперту, и такие новые лексические конструкции оказываются полезными.

Способность к словесной интерпретации зависит и от пола аналитика (параметр sl_l). Установлено, что традиционно женщины придают большую значимость невербальным компонентам общения, а в вербальных имеют более обширный алфавит признаков. И вообще, существуют половые различия восприятия не только в бытовой сфере, что очевидно, но и в профессиональной. Следовательно, у эксперта-мужчины и у эксперта-женщины могут существенно отличаться алфавиты для вербализации признаков воспринимаемых объектов.

Словарь пользователя (S23)

Лингвистические результаты, соотнесенные к слоям общего кода и понятийной структуры, направлены на создание адекватной базы знаний. Однако часто профессиональный уровень конечного пользователя не позволяет ему применить специальный язык предметной области в полном объеме.

Неожиданными для начинающих разработчиков являются проблемы формирования отдельного словаря для создания дружественного интерфейса с пользователем ЭС, исследуемые в слое S23. Необходимы специальные приемы, увеличивающие "прозрачность" и доступность системы. Для разработки пользовательского интерфейса требуется дополнительная доработка словаря общего кода с поправкой на доступность и "прозрачность" системы.

Так, при разработке экспертной системы по психодиагностике АВТАНТЕСТ [Гаврилова, 1984] пришлось разработать два словаря терминов - один для психологов-профессионалов, второй - для неспециалистов (испытуемых). Поскольку результат психодиагностического тестирования всегда интересен испытуемому, ему выдается листинг с психологическим заключением на общелитературном языке без употребления специальных терминов. Интересно, что при внедрении системы использовался в основном этот второй словарь; даже профессиональные психологи предпочитали получать тексты на обыденном языке.