Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9068

.pdf
Скачиваний:
1
Добавлен:
25.11.2023
Размер:
2.21 Mб
Скачать

строенном по следствию, наоборот, на первом уровне располагаются узлы со след-

ствием.

Справа от дерева расположен список правил, построенный по выбранному узлу дерева (рис. 46).

Рис. 46. Дерево ассоциативных правил.

Для каждого правила отображаются поддержка и достоверность. Если дерево построено по условию, то вверху списка отображается условие правила, а список состоит из его следствий. Тогда правила отвечают на вопрос, что будет при таком условии. Если же дерево построено по следствию, то вверху списка отображается следствие правила, а список состоит из его условий. Эти правила отвечают на во-

просы, что нужно, чтобы было заданное следствие или какие товары нужно продать для того, чтобы продать товар из следствия.

81

Рис. 47. Ассоциативные правила в OLAP-кубе со значениями лифта

Задание 2. Интерпретация ассоциативных правил в Deductor Studio.

Интерпретируем ассоциативные правила.

Например, первое правило: Шина HL Mountain → Велокамера Mountain

имеет S=4,7%; C=72,2% и L=5,1.

Это означает следующее:

ожидаемая вероятность покупки набора Шина HL

Mountain+Велокамера Mountain равна 4,7%;

если клиент положил в корзину Шина HL Mountain, то с вероятностью

72,2% он купит и велокамеру Mountain;

клиент, купивший Шина HL Mountain, в 5,1 раза чаще выберет Велока-

мера Mountain, нежели любой другой товар.

Анализ наших 18 правил позволяет прийти к выводу, что они все, кроме двух,

тривиальны:

82

шины, велокамеры и велосипеды часто встречаются в условиях и след-

ствиях правил, это лидеры продаж магазина (см. популярные наборы), поэтому и

правила с ними имеют высокую достоверность (до 85%);

группа правил Шина → Велокамера и наоборот тривиальны сами по се-

бе: люди часто меняют эти запчасти вместе.

правила типа Держатель фляги → Фляга (и наоборот) тоже тривиальны,

так как никому не нужна велосипедная фляга без возможности ее закрепить на раме;

правила типа Велосипед → Фляга тоже тривиально, хотя его, возможно,

имеет ценность – никогда не будет лишним при покупке велосипеда предложить флягу и держатель к ней.

А вот правило: Пластыри для велокамеры И Шина HL Mountain → Велокаме-

ра Mountain не понятно: почему пластыри покупаются именно к шинам Mountain,

ведь есть и другие шины? Возможно, потому что велокамеры Mountain продаются чаще других камер, а это, в свою очередь, из-за популярности велосипедов катего-

рии Mountain? Утвердительные ответы на эти вопросы содержатся при анализе по-

пулярных наборов.

Однако рассмотрим тот факт, что при достоверности 42-43% встречаются три-

виальные ассоциативные правила говорит о том, что интересные правила содержат-

ся при меньших значениях достоверности.

83

Рис. 48. Первая попытка интерпретации правил

(T – тривиальное правило, ? – непонятное правило)

Попробуем сделать следующее:

запустим алгоритм a priori с интервалом допустимой достоверности от

25% до 40%;

не будем рассматривать правила, в следствиях и условиях которых со-

держатся велосипеды, шины и велокамеры: это снова будут тривиальные правила

(см. сценарий cycle.ded).

В итоге получим пять правил (рис.49).

Рис. 49. Полезные правила в примере имеют достоверность меньше 40%.

Как видно, все пять правил можно назвать полезными: они не очевидны, но понятны. Например, возьмем правило Тенниска фирменная → Шапочка велосипед-

ная.

84

Рассчитаем его улучшение: I A B

S A B

 

 

0,02

 

2,88.

S A S B

0,0714 0,0973

 

 

 

Величина 2,88 > 1, значит, с помощью правила предсказать покупку велосипед-

ной шапочки вероятнее, чем случайное угадывание.

Кроме уже изученных визуализаторов Правила, Популярные наборы и Дерево правил, в Deductor Studio к узлу Ассоциативные правила доступен визуализатор

Что-если. Он позволяет ответить на вопрос, что мы получим в качестве следствия,

если выберем данные условия, например, какие товары приобретаются совместно с выбранными товарами (рис. 50).

Рис. 50. Визуализатор «Что-если» В окне слева расположен список всех элементов транзакций. Справа от каждого

элемента указана поддержка: сколько раз данный элемент встречается в транзакци-

ях.

В правом верхнем углу расположен список элементов, входящих в условие.

Это, например, список товаров, которые приобрел покупатель. Для них можно найти следствие, нажав на кнопку Вычислить правила . Причем в условие могут вхо-

дить несколько элементов, или товаров в данном случае. Тогда в следствие попадут все товары, условия которых удовлетворяют списку ассоциативных правил. Напри-

85

мер, клиент заказал Питьевой рюкзак и Тенниску фирменную. Что еще ему можно предложить? Поскольку у нас имеются два правила, а именно

(1)Питьевой рюкзак → Фляга

(2)Тенниска фирменная → Шапочка велосипедная

то следствие попадут два элемента – Фляга и Шапочка велосипедная.

Это проиллюстрировано на рис. 51.

Рис. 51. Что еще предложить этому клиенту?

Задачи для раздела 5.

Пример построения классификатора на основе нейронной сети для оценки

недвижимости в аналитической платформе Deductor Studio Academic.

Рассмотрим построение модели классификации, относящей объекты недви-

жимости на основе их признаков к одному из трех классов «дорогие, средние, деше-

вые квартиры».

В аналитической платформе Deductor существует специальный обработчик

«Нейроcеть», который реализует модель многослойного персептрона.

86

Выполнив предварительную обработку данных, используя обработчики

«Квантование» и «Замена значений» (аналогично тому, как это было сделано в клас-

сификаторе «Дерево решений»), выберем узел Нейросеть.

На следующем шаге установим назначения полей и нажмем кнопку Настрой-

ка нормализации (рис. 52). Здесь задаются способы кодирования для непрерывных и категориальных признаков, а также диапазон изменения входных сигналов (по умолчанию от -1 до 1) и выходных (от 0 до 1).

Рис. 52. Настройка нормализации полей Следующим этапом будет разбиение исходного множества (случайным обра-

зом) на 2 подмножества: Возьмем обучающее (95%) и тестовое (5%).

Вследующем окне мастера задается архитектура многослойного персептрона

ипараметры активационной функции (рис. 53).

87

Рис. 53. Настройка структуры нейронной сети На следующем шаге выбирается алгоритм обучения многослойного персеп-

трона и обучения выберем алгоритм Back-Propagation, а коэффициенты, отвечающие за скорость и момент обучения, оставим без изменений (рис. 54).

Рис. 54. Выбор алгоритма обучения многослойного персептрона Далее необходимо задать условия, при выполнении которых обучение будет

прекращено (рис. 55). Остановка обучения происходит по достижению любого из заданных условий остановки:

считать пример распознанным, если ошибка (рассогласование между эталон-

ными реальным выходом сети) становится меньше заданного значения;

88

по достижении эпохи – установка данного режима позволяет задать число эпох (циклов обучения), по достижении которого обучение останавливается независимо от величины ошибки;

обучающее множество – остановка обучения производится по достижении на обучающем множестве заданной средней ошибки, максимальной ошибки или процента распознанных примеров;

тестовое множество – остановка обучения производится по достижении на тестовом множестве заданной средней ошибки, максимальной ошибки или

процента распознанных примеров.

Примем, что пример следует считать распознанным, если ошибка станет менее

0,05, и укажем в поле Эпоха 10000.

Рис. 55. Параметры остановки обучения нейросети Теперь все готово к процессу обучения сети. В зависимости от объема обраба-

тываемых данных и быстродействия компьютера, процесс обучения ИНС может за-

нять определенное время (часто достаточно большое).

После запуска процесса обучения строится нейронная сеть, на выходе которой получаем три класса объектов недвижимости (Дешевая, Средняя и Дорогая) (рис.56).

После того как процесс обучения сети завершится, выберем визуализаторы

Граф нейросети, Таблица сопряженности, Что-если.

89

Рис. 56. Граф нейросети задачи классификации объектов недвижимости.

Визуализатор Граф нейросети позволяет представить ИНС со всеми нейрона-

ми и синоптическими связями. При этом можно увидеть не только структуру НС, но и значения весов всех связей. В зависимости от веса их цвет меняется, а соответ-

ствующее числовое значение можно определить на цветовой шкале, расположенной в нижней части окна.

Таблица сопряженности (рис. 57) позволяет анализировать согласование зна-

чений, полученных в результате обработки исходной выборки с реальными резуль-

татами.

Рис. 57. Таблица сопряженности для ИНС В таблице сопряженности ячейки с числом правильно распознанных примеров

отображаются в зеленых ячейках, а неправильно распознанных - в красных. Чем большее число примеров попали в зеленные ячейки, тем лучше результаты класси-

фикации. Кроме этого в таблице сопряженности хорошо видно, по каким значения

выходного поля было допущено наибольшее число ошибок классификации.

90

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]