Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие 1955

.pdf
Скачиваний:
6
Добавлен:
30.04.2022
Размер:
3.16 Mб
Скачать

в привычном, не утомляющем пользователя виде), гибкость ЭС (способность системы настраиваться на различных пользователей, а также учитывать изменения в квалификации одного и того же пользователя) и устойчивость системы к ошибкам (способность не выходить из строя при ошибочных действиях неопытного пользователях).

Общая характеристика инструментальных средств построения экспертных систем

Важную роль при создании ЭС играют инструментальные средства. По своему назначению и функциональным возможностям их можно разделить на четыре достаточно больших категории.

1)Оболочки экспертных систем (expert system shells). Системы этого типа создаются, как правило, на основе какойнибудь экспертной системы, достаточно хорошо зарекомендовавшей себя на практике. При создании оболочки из системыпрототипа удаляются компоненты, слишком специфичные для области ее непосредственного применения, и оставляются те, которые не имеют узкой специализации. Примеры: CENTAUR, G2 и GDA, КАРРА, CLIPS, АТ_ТЕХНОЛОГИЯ.

2)Языки программирования высокого уровня. Инструментальные средства этой категории избавляют разработчика от необходимости углубляться в детали реализации системы

способы эффективного распределения памяти, низкоуровневые процедуры доступа и манипулирования данными. При-

меры: LISP, PROLOG, OPS5.

3)Среда программирования, поддерживающая несколько парадигм (multiple-paradigm programming environment). Сред-

ства этой категории включают несколько программных модулей, что позволяет пользователю комбинировать в процессе разработки экспертной системы разные стили программирования. Среди первых проектов такого рода была исследовательская программа LOOP, которая допускала использование двух типов представления знаний: базирующегося на системе правил и объектно-ориентированного. На основе этой архитектуры было разработано несколько коммерческих программных

270

продуктов, из которых наибольшую известность получили KEE, KnowledgeCraft и ART. Эти программы предоставляют в распоряжение квалифицированного пользователя множество опций и для последующих разработок, таких как КАРРА и CLIPS, и стали своего рода стандартом.

4) Дополнительные модули. Средства этой категории представляют собой автономные программные модули, предназначенные для выполнения специфических задач в рамках выбранной архитектуры системы решения проблем. Примером может служить модуль работы с семантической сетью, использованный в системе VT. Этот модуль позволяет отслеживать связи между значениями ранее установленных и новых параметров проектирования в процессе работы над проектом. Подобные модули управления семантической сетью можно использовать для распространения внесенных изменений на все компоненты системы.

4.6.5. Деревья решений

Деревья решений (decision trees, Алгоритмы классифи-

кации) - метод, широко применяемый в области финансов и бизнеса, где чаще встречаются задачи числового прогноза. В результате применения этого метода, для обучающей выборки данных создается иерархическая структура правил классификации типа, «ЕСЛИ... ТОГДА...», имеющих вид дерева. Для того чтобы решить, к какому классу отнести некоторый объект или ситуацию, надо ответить на вопрос, стоящий в узлах этого дерева, начиная с его корня. Вопросы могут иметь вид «Значение параметра A больше Х ? « или вида «Значение переменной В принадлежит подмножеству признаков С?». Если ответ положительный, переход к правому узлу следующего уровня, если отрицательный - то к левому узлу; потом снова ответ на вопрос, связанный с соответствующим узлом. Таким образом, в конце концов, можно дойти до одного из конечных узлов, где определен класс объекта. Этот метод хорош наглядным представлением правил и его легко понять.

271

Сегодня наблюдается подъем интереса к продуктам, применяющим деревья решений. В основном это объясняется тем, что большинство коммерческих проблем решается ними быстрее, чем алгоритмами нейронных сетей, они проще и понятней для пользователей.

В то же время нельзя сказать, что деревья решений всегда действуют безотказно: для определенных типов данных они могут оказаться неприемлемыми. Дело в том, что отдельным узлам на каждой ветви отводится меньшее число записей данных - дерево может сегментировать данные на большое количество частных случаев. Чем больше таких частных случаев, тем меньше обучающих примеров попадает в каждый такой частный случай, и их классификация становится менее надежной. Если дерево слишком «ветвистое» - состоит из неоправданно большого числа мелких ветвей - оно не будет давать статистически обоснованных ответов. Таким образом, главным недостатком деревьев решений является принципиальная неспособность находить «лучшие» (наиболее полные и точные) правила в данных.

Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев

(CART - classification and regression trees) либо хи-квадрат индукция (CHAID - Chi-squared Automatic Induction,). Примеры: IDIS, KnowledgeSEEKER, See5/C5.0, SIPINA и т.п.

4.6.6. Системы размышлений на основе аналогичных случаев

Эти алгоритмы (другие названия: вывод путем сопос-

тавления - Memory-based Reasoning, MBR; вывод, основанный на прецедентах - Case-based Reasoning, CBR) основаны на об-

наружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия). Эти методы называют еще методом «ближайшего соседа».

Главный их минус в том, что они вообще не создают каких-нибудь моделей или правил, обобщающих предыдущий

272

опыт, - в выборе решения они базируются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов эти системы строят свои ответы.

Примеры: KATE tools (Франция), Pattern Recognition Workbench (США), КОРА (Россия).

4.6.7. Алгоритмы выявления ассоциаций Алгоритмы выявления ассоциаций (ассоциативные

правила, алгоритмы ограниченного перебора) предложены М.М. Бонгардом для поиска логических закономерностей в данных. Выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме «если <условия>, то <вывод>«. Их можно использовать для прогнозирования или оценки неизвестных параметров (значений). На основе частоты встречаемости логических закономерностей делается вывод о полезности какой-либо их комбинации (конъюнкции) для установления ассоциации в данных, для классификации, прогнозирования и т.д.

Некоторые алгоритмы поиска ассоциаций сначала сортируют данные и только после этого определяют взаимосвязь и распространенность. Единственним расхождением таких алгоритмов является скорость или эффективность нахождения ассоциаций. Это важно, в связи с огромным количеством комбинаций, что необходимо перебрать для нахождения более значимых правил. Алгоритмы поиска ассоциаций могут создавать свои базы данных распространенности, доверительности и мощности, к которым можно обращаться при запросе.

При нахождении последовательностей прибавляется переменная времени, позволяющая работать с серией событий для нахождения последовательных ассоциаций на протяжении некоторого периода времени.

Пример: WizWhy.

273

4.6.8. Нечеткая логика Нечеткая логика (многозначная логика, логика антони-

мов) применяется для наборов данных, где принадлежность данных к какой-нибудь группе является вероятностью в интервале от 0 до 1. Четкая логика манипулирует результатами, которые могут быть или истиной, или ложью. Нечеткая логика применяется в тех случаях, когда существует «может быть» в дополнении к «да» или «нет».

Областью внедрения алгоритмов нечеткой логики являются любые аналитические cистемы, в том числе :

нелинейный контроль за процессами (производство);

усовершенствование стратегий управления и координации действий, например сложное промышленное производство;

самообучающие системы (или классификаторы);

исследование рискованных и критических ситуаций;

распознавание образов;

финансовый анализ (рынки ценных бумаг);

исследование данных (корпоративные хранилища).

ВЯпонии это направление переживает бум. Здесь функционирует специально созданная лаборатория Laboratory for International Fuzzy Engineering Research (LIFE).

Программой организации является создание более близких к человеку вычислительных устройств. LIFE объединяет 48 компаний в числе которых находятся: Hitachi, Mitsubishi, NEC, Sharp, Sony, Honda, Mazda, Toyota. Из иностранных участников LIFE можно выделить: IBM, Fuji Xerox, к деятельности LIFE также проявляет интерес NASA.

Мощность и интуитивная простота нечеткой логики как методологии решения проблем гарантирует ее успешное использование во встроенных системах контроля и анализа информации. При этом происходит подключение человеческой интуиции и опыта оператора.

Вотличие от традиционной математики, которая требует на каждом шаге моделирования точных и однозначных формулирований закономерностей, нечеткая логика

274

предлагает совсем другой уровень мышления, благодаря чему творческий процесс моделирования происходит на высоком уровне абстракций, при котором постулируется лишь минимальный набор закономерностей.

Недостатками нечетких систем является:

отсутствие стандартной методики конструирования нечетких систем;

невозможность математического анализа нечетких систем существующими методами;

4.6.9. Генетические алгоритмы Генетические алгоритмы являются мощным средством

решения разных комбинаторных задач и задач оптимизации. Тем не менее, генетические алгоритмы вошли сейчас в стандартный инструментарий методов интеллектуальных вычислений. Этот метод назван так потому, что в какой-то степени имитирует процесс естественного отбора в природе. Пусть необходимо найти решения задачи, наиболее оптимальные с точки зрения некоторого критерия, где каждое решение целиком описывается определенным набором чисел или величин нечисловой природы. Скажем, если нам надо выбрать совокупность фиксированного числа параметров рынка, существенно влияющих на его динамику, это будет набор имен этих параметров. Об этом наборе можно говорить как о совокупности хромосом, определяющих качества индивида - данного решения поставленной задачи. Значения параметров, определяющих решения, называются генами. Поиск оптимального решения при этом похож на эволюцию популяции индивидов, представленных наборами хромосом.

В эволюции действуют три механизма: во-первых, отбор сильнейших - наборов хромосом, которым отвечают наиболее оптимальные решения; во-вторых, скрещивание - производство новых индивидов с помощью смешивания хромосомных наборов отобранных индивидов; и, в-третьих, мутации - случайные изменения генов у некоторых индивидов популяции. В результате изменения поколений

275

вырабатывается решение поставленной задачи, которое уже не может быть дальше улучшено.

Генетические алгоритмы имеют два слабых места. Вопервых, постановка задачи не дает возможности проанализировать статистическую значимость получаемого с их помощью решения и, во-вторых, эффективно сформулировать задачу, определить критерий отбора хромосом по силам только специалисту. В силу этих факторов, генетические алгоритмы надо рассматривать скорее как инструмент научного исследования, чем средство анализа данных для практического применения в бизнесе и финансах.

4.6.10. Эволюционное программирование Эволюционное программирование самая молодая

область интеллектуальных вычислений. Основаны на эволюционных процессах биологических организмов: популяции развиваются, подчиняясь законам естественного отбора и принципу «выживает сильнейший». Гипотезы о виде зависимости целевой переменной от других переменных формулируются системой в виде программ на некотором внутреннем языке программирования. Процесс построения таких программ строится как эволюция в мире программ (этим метод немного похож на генетические алгоритмы). Если система находит программу, которая точно выражает искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных таким образом дочерних программ те, которые повышают точность. Система «выращивает» несколько генетических линий программ, конкурирующих между собой в точности нахождения искомой зависимости. Специальный транслирующий модуль, переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (формулы, таблицы и др.), делая их легкодоступными. Для того, чтобы сделать полученные результаты более понятными для пользователянематематика, существует большой арсенал разнообразных средств визуализации выявленных зависимостей.

276

Поиск зависимости целевых переменных от других проводится в форме функций какого-нибудь определенного вида. Например, в одном из наиболее удачных алгоритмов этого типа - методе группового учета аргументов (МГУА) зависимость ищут в форме полиномов. Причем сложные полиномы заменяются несколькими простыми, учитывающих лишь некоторые признаки (группы аргументов). Обычно используются попарные объединения признаков. Этот метод не имеет больших преимуществ по сравнению с нейронными сетями с готовым набором стандартных нелинейных функций, но, полученные формулы зависимости, в принципе, поддаются анализу и интерпретации (хотя на практике это все-таки сложно). Пример: PolyAnalyst.

* * *

Помимо перечисленных алгоритмов в рамках интеллектуального анализа данных используются и другие компьютерные технологии.

Байесовы (вероятностные) сети. Моделируют вероят-

ностные причинно-следственные связи. Позволяют рассчитывать вероятность наступления того или иного события при известной априорной вероятности причин. Позволяют строить модели в режиме реального времени с учетом неполноты данных и возможностью корректировки результата при появлении дополнительной информации.

Методы эвристической самоорганизации. Методы данной группы исследуют функциональные и вероятностные взаимосвязи «входов» и «выходов» некоторой системы, т.е. позволяют моделировать сложные нелинейные процессы и системы при отсутствии априорных знаний о структуре системы.

Теория игр. Позволяет формализовать описание процессов принятия сознательных целенаправленных решений при участии одной или нескольких сторон в условиях неопределенностей, риска и конфликта, которые возникают при столкновении интересов. Задача теории игр заключается в предложении рекомендаций рационального образа действий

277

участников процесса принятия решений, т.е. в определении оптимальной стратегии для каждого из них.

Теория хаоса. Предлагает новые методы анализа данных, позволяющие выявлять скрытые зависимости там, где раньше систему считали случайной, и не имеющей каких-либо закономерностей. Применение аппарата теории хаоса позволяет качественно изучать нестабильное апериодическое поведение в нелинейных динамических системах, например, в экономических процессах.

Кластерный анализ. Подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования.

Иммунные сети. Основаны на принципах функционирования иммунной системы позвоночных, которая, выступает «вторым» интеллектом - как и нервная система, обладает такими свойствами как память, способность обучаться, умение распознавать и принимать решения о том, как вести себя в новых ситуациях. Методы, основанные на концепции искусственных иммунных сетей, используются в задачах распознавания образов, информационной безопасности, прогнозировании временных рядов и др.

Роевой интеллект. Данный подход основан на коллективном интеллекте социальных насекомых - муравьев и пчел, каждая особь которых обладает очень малыми возможностями, но, собираясь в многотысячную и многомиллионную колонию, они становятся роем, представляющим собой мощную интеллектуальную распределенную систему. Многие современные задачи управления, моделирования и прогнозирования могут быть эффективно решены с помощью автономных эмерджентных систем, построенных по такому принципу. Наиболее активными сферами применения являются социальное моделирование, экономическое прогнозирование, маркетинговые исследования.

Методы экспертных оценок. Применяются при отсут-

ствии возможности или трудо-ресурсной нецелесообразности

278

получения данных в количественном выражении. При моделировании многих процессов и систем понятие точных числовых оценок теряет всякий смысл. В таких случаях обращаются к использованию знаний и опыта экспертов - методам экспертных оценок, которые включают в себя методы получения, формализации и интеграции экспертных знаний.

Комбинированные методы. Часто производители соединяют указанные подходы. Объединение алгоритмов нейронных сетей и технологии деревьев решений способствует построению более точной модели и повышению быстродействия. Для решения каждой проблемы следует искать свой оптимальный метод.

4.6.11. Рынок систем класса Data Mining

Среди западных систем класса Data Mining наиболее известно решение Microsoft Data Mining, которое входит в состав аналитических служб Microsoft SQL Server 2005, что делает Microsoft Data Mining одним из наименее затратных способов решения интеллектуальных задач подобного класса.

Наиболее известная российская система класса Data Mining - PolyAnalyst. Разработана на основе технологий искусственного интеллекта (эволюционное программирование, генетические алгоритмы), призвана помочь в обнаружении и быстром показе взаимосвязи между разными рынками, между разными элементами рынка, между ценными бумагами и соответственно в принятии решений. Позволяет представить обнаруженные закономерности в символьной форме - как математические формулы, таблицы предсказаний, структурные законы и алгоритмы. Пакет PolyAnalyst встраивается практически в любое хранилище данных и позволяет в значительной степени автоматизировать процесс предварительного анализа и подготовки выборок данных.

Существуют и другие российские разработки в этой об-

ласти: Fortel Trade, FuziCalc, MetaStock, SuperCharts и т.п.

В рамках решений Data Mining часто выделяют различные специализированные предметные решения, например,

279