- •Часть 3. Методы инженерии знаний
- •3.1. Приобретение и формализация знаний
- •3.1.1. Основные определения
- •3.1.2. Моделирование поля знаний
- •Существует ряд языков представления знаний, не нашедших широкого применения: структурно-логический языка sll(Вольфенгаген), язык к-систем (Кузнецов), уск (Мартынов).
- •3.1.3. Семиотическая модель поля знаний
- •3.1.4. Иерархичность поля знаний («пирамида» знаний)
- •Пусть есть система
- •3.1.5. Теоретические аспекты приобретения знаний
- •3.1.6. Практические аспекты приобретения знаний
- •3.1.7. Текстологические методы приобретения знаний
- •3.1.8. Структурирование (формирование поля знаний)
- •3.1.9. Формализация качественных знаний
- •3.1.10. Автоматизированное приобретение знаний
- •3.2. Пополнение знаний
- •3.2.1. Общие сведения
- •3.2.2. Использование различных моделей знаний
- •3.2.3. Алгоритмы логического вывода в условиях определенности
- •3.2.4. Вывод в условиях неопределенности
- •3.3. Обобщение и классификация знаний
- •3.3.1. Общие понятия
- •3.3.2. Обобщение по признакам
- •3.3.3. Структурно-логические методы обобщения
3.1.7. Текстологические методы приобретения знаний
Формально специальный текст описывается набором:
T = <, , , , >L
где – материал наблюдений автора за предметной областью;
– система научных понятий в момент создания текста;
– субъективные взгляды автора;
– общие места («вода»);
– заимствования;
L – языковая среда, в которой вербализованы все компоненты.
В ходе анализа текста следует вычленять перечисленные компоненты для повышения эффективности выделения нужной информации. Кроме того, любой текст погружен в контекст (окружение текста).
Микроконтекст – ближайшее окружение единицы текста. Предложение приобретает значение в контексте абзаца, абзац – в контексте главы и т.д.
Макроконтекст – вся система знаний о предметной области. В макроконтекст входят, таким образом, связи и понятия, не упоминаемые явно в тексте.
Шаги понимания текста:
Выдвижение предварительной гипотезы о смысле всего текста (предугадывание).
Определение значений непонятных слов (специальных терминов).
Возникновение общей гипотезы о содержании текста.
Уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (дедуктивный путь).
Формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих фрагменты знаний.
Корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (индуктивный путь).
Принятие основной гипотезы.
При анализе текста важно выявление внутренних связей между отдельными элементами текста и понятиями. Виды связей в тексте:
эксплицитные (явные) – выражаются во внешнем дроблении текста;
имплицитные (скрытые).
Эксплицитные связи делят текст на структурные единицы (параграфы, абзацы и т.п.), используют перечисления, вводные слова (коннекторы) типа «во-первых», «во-вторых», «однако» и т.п.
Модель, которую строит аналитик на базе текста, определяется как
M2 = <, , , , , , >,
где , , , – получаются (экстрагируются) из текста T;
– предварительные знания аналитика о предметной области;
– общенаучная эрудиция аналитика;
– личный опыт аналитика.
Алгоритм извлечения знаний из текста:
Составление базового списка литературы по предметной области и ознакомление с литературой по списку.
Выбор текста для извлечения знаний.
Первое знакомство с текстом (беглое прочтение). Для работы с незнакомыми словами привлекаются специалисты или справочная литература.
Формирование первой гипотезы о макроструктуре текста.
Внимательное прочтение текста с выделением ключевых слов и выражений («смысловых вех»), компрессия текста.
Определение связей между ключевыми словами, представление макроструктуры теста в виде графа или реферата.
Формирование поля знаний на основании макроструктуры текста.
3.1.8. Структурирование (формирование поля знаний)
Простейший алгоритм структурирования:
Определение входных {X} и выходных {Y} данных.
Составление словаря терминов и набора ключевых слов N. Проводится текстуальный анализ всех протоколов сеансов извлечения знаний и выписываются все значимые слова, обозначающие понятия. Важен уровень осмысления значения терминов.
Выявление объектов и понятий {A}. «Просеивание» словаря N и выбор значимых для принятия решений понятий и их признаков.
Выявление связей между понятиями. Начало построение ассоциативной сети.
Выявление метапонятий и детализация понятий.
Построение пирамиды знаний.
Определение отношений {RA} как внутри каждого из уровней пирамиды, так и между уровнями. Даются имена тем связям, которые обнаруживаются на шагах 4 и 5, а также обозначаются причинно-следственные, лингвистические, временные и другие виды отношений.
Определение стратегий принятия решений (Sf).Выявление цепочек рассуждений, связывание всех сформированных ранее понятий и отношений в динамическую систему поля знаний.