Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9068

.pdf
Скачиваний:
1
Добавлен:
25.11.2023
Размер:
2.21 Mб
Скачать

Шаг 1. Загрузка данных и проверка их качества определяется с помощью ви-

зуализаторов Статистика и различных диаграмм.

Шаг 2. Очистка данных, используя следующие обработчики:

Парциальная обработка – восстановление, редактирование,

сглаживание данных;

Факторный анализ – понижение размерности входных

факторов;

Корреляционный анализ – устранение незначащих факторов;

Дубликаты и противоречия – выявление дубликатов и противоречий;

Фильтрация – фильтрация строк таблицы по условию.

Шаг 3. Трансформация данных (так как обработчик Дерево решений работает только с дискретными значениями): преобразование выходного поля «цена 1 кв. м»

из непрерывного в дискретный тип, используя обработчик Квантование.

Квантование – это процесс, в результате которого происходит распределение значений непрерывных данных по конечному числу интервалов заданной длины.

Для разбиения нужно настроить следующие параметры квантования:

Способ – выбираем из списка способ квантования по квантилям, чтобы в каждый из квантильных интервалов попадало одинаковое количество квартир.

Интервал – указываем количество интервалов, на которое будет разбит диапазон исходных данных. Разбиваем на три интервала, так как в необходимо все объекты недвижимости разбить на 3 класса.

Значение – указываем 3 интервала, например: от 51111,11 до 60000 рублей;

от 60000 до 62857,15 рублей; от 62857,15 до75000 рублей.

Шаг 4. Применяя обработчик «Замена значений», по таблице подстановок присваиваем интервалам, полученным на предыдущем шаге метки <Дешевая квартира>, <Средняя квартира>, <Дорогая квартира>.

Шаг 5. Строим модель классификации объектов недвижимости, используя об-

работчик Дерево решений:

71

1) Определяем назначение полей

Рис. 33. Настройка назначений столбцов в обработчике «Дерево решений».

2) Выбор способа разделения исходного множества на два – обучающее и тестовое.

Рис. 34. Разбиение исходного множества на обучающее и тестовое

3) На третьем шаге откроется окно выбора параметров алгоритма построения дерева решений (рис. 35). Можно оставить настройки, предлагаемые по умолчанию,

за исключением минимального количества примеров в узле, при котором будет создаваться новый. Рекомендуется задавать этот параметр, примерно равным 1% от

72

объема обучающего множества; меньшее значение может привести к появлению

недостоверных правил, большее – к почти полному отсутствию таковых.

Рис. 35. – Настройки алгоритма дерева решений

4)На следующем шаге в качестве желаемого способа построения дерева оставим режим автоматического построения (есть еще режим интерактивного).

5)После завершения обучения дерева нужно выбрать следующие 5

визуализаторов, как показано на рис. 36.

Рис. 36. Выбор визуализаторов к узлу «Дерево решений»

73

Результатом работы данного алгоритма является список иерархических пра-

вил образующих дерево вида «Если.. , то»…(рис. 37). В результате работы алгорит-

ма было выявлено 5 правил.

Рис. 37. Визуализатор «Дерево решений» В нем строится графическое представление дерева решений. Каждое правило

читается следующим образом:

ЕСЛИ <УСЛОВИЕ> ТО <СЛЕДСТВИЕ>.

Для каждого узла решений показываются два числовых параметра: поддержка

и достоверность.

Представление дерева правил в плоском, табличном виде обеспечивает визуа-

лизатор Правила (рис. 38).

Рис. 38. Пример набора правил

Качество построенной модели можно оценить, используя таблицу сопряжен-

ности и диаграмму (рис. 39, 40).

74

Рис. 39. Таблица сопряженности для дерева решений

Рис. 40. Диаграмма «Качество классификации для модели дерево решений»

Задачи для раздела 4.

Задание 1. Генерация ассоциативных правил в Deductor Studio.

Рассмотрим пример решения конкретной задачи ассоциации из области роз-

ничной торговли.

Компания Adventure Work Cycle Russia является дистрибьютором спортивных

(серия Sport), горных (серия Mountain) и дорожных (серия Road) велосипедов и ком-

плектующих к ним компании Adventure Work Cycle на территории России и стран СНГ. Офисы компании работают в 6 городах России, а также в Украине и Казах-

стане. В большинстве регионов компания работает через своих партнеров. Цен-

тральный офис компании находится в Москве. У компании есть склад и собственная сборочная база.

Отдел маркетинга компании заинтересован в улучшении своего web-сайта, на котором расположен интернет-магазин, чтобы иметь возможность проводить кросс-

75

продажи. Поставлена задача предсказания того, какие товары покупатели могут выбрать в зависимости от того, что уже есть в их корзинах. Помимо повышения и стимулирования уровня продаж, эти прогнозы помогут наиболее правильно организовать структуру сайта, чтобы товары, покупающиеся вместе, и на сайте располагались рядом.

Отдел маркетинга предоставил данные о 5000 чеках от предыдущих покупате-

лей.

В Deductor Studio для решения задач ассоциации используется обработчик Ас-

социативные правила. В нем реализован алгоритм a priori. Обработчик требует на входе два поля: идентификатор транзакции и элемент транзакции. Например, идентификатор транзакции – это номер чека или код клиента. А элемент – это наименование товара в чеке или услуга, заказанная клиентом.

! Оба поля (идентификатор и элемент транзакции) должны быть дискретного вида.

После работы обработчика формируется результирующий набор данных следующей структуры (табл. 1).

Таблица 1.

 

Имя столбца

Метка столб-

Тип поля

Описание

 

ца

 

 

 

 

 

N

целый

Номер ассоциативно-

 

го правила

 

 

 

 

 

 

 

 

Условие ассоциатив-

 

ANTECEDENT

Условие

строковый

ного правила, заклю-

 

 

 

 

чено в ””

 

 

 

 

Следствие ассоциа-

 

CONSEQUENT

Следствие

строковый

тивного правила, за-

 

 

 

 

ключено в ””

 

 

Поддержка,

 

Число транзакций,

 

SUPPORTCOUNT

целый

удовлетворяющих

 

шт.

 

 

 

 

данному правилу

 

SUPPORT

Поддержка, %

вещественный

Поддержка ассоциа-

 

тивного правила в %

 

 

Достоверность,

 

Достоверность ассо-

 

CONFIDENCE

вещественный

циативного правила в

 

 

%

 

%

 

 

 

 

76

Вся остальная дополнительная информация, располагается в специализирован-

ных визуализаторах Правила, Популярные наборы, Дерево правил, Что-если.

Рассмотрим решение задачи в Deductor Studio по шагам.

A. В новом проекте в Deductor Studio импортируем данные из текстового файла cycle_store.ded. В наборе данных два столбца:

N

Поле

Тип поля

Назначение

 

 

 

1

ID

строковый

Код чека

 

 

 

 

2

ITEM

строковый

Товар

 

 

 

 

B. К узлу импорта добавим обработчик Ассоциативные правила. ID сделаем идентификатором транзакции, а ITEM – ее элементом (рис. 41).

Рис.41.

На следующем шаге настроим параметры построения ассоциативных правил,

что, по сути, есть параметры алгоритма a priori (рис. 42).

77

Рис.42.

Здесь для изменения доступны следующие параметры.

Минимальная и максимальная поддержка в % – ограничивают пространство поиска часто встречающихся предметных наборов. Эти границы определяют мно-

жество популярных наборов, из которых и будут создаваться ассоциативные прави-

ла.

Минимальная и максимальная достоверность в % – в результирующий набор попадут только те ассоциативные правила, которые удовлетворяют условиям мини-

мальной и максимальной достоверности.

Максимальная мощность искомых часто встречающихся множеств – пара-

метр ограничивает длину k-предметного набора. Например, при установке значения

4 шаг генерации популярных наборов будет остановлен после получения множества

4-предметных наборов. В конечном итоге это позволяет избежать появления длин-

ных ассоциативных правил, которые трудно интерпретируются.

Пока что оставим все настройки на данной вкладке по умолчанию. Нажатие на кнопку Пуск приведет к работе алгоритма поиска ассоциативных правил. По окон-

чании его работы справа в полях появится следующая информация (рис. 43): 78

Количество множеств – число популярных наборов, удовлетворяющих заданным условиям минимальной поддержки и достоверности;

Количество правил – число сгенерированных ассоциативных правил.

Рис. 43.

Далее выбираем все доступные специализированные визуализаторы и визуали-

затор Таблица (рис. 44).

Рис. 44. Доступные визуализаторы

79

Все эти визуализаторы, кроме Что-если, отображают результаты работы алго-

ритма в различных формах. Рассмотрим их подробнее.

На вкладке Популярные наборы, как следует из названия, отображается множе-

ство найденных популярных предметных наборов в виде списка. Кнопка пред-

лагает на выбор несколько вариантов сортировки списка, а кнопка вызывает окно настройки фильтра множеств. Например, задав в фильтре минимальное значение поддержки 6% и отсортировав их по убыванию поддержки, получим следующие 16

популярных наборов (рис. 45).

Рис. 45.

На вкладке Дерево правил предлагается еще один удобный способ отображения множества ассоциативных правил, которое строится либо по условию, либо по след-

ствию. При построении дерева правил по условию, на первом (верхнем) уровне находятся узлы с условиями, а на втором уровне – узлы со следствием. В дереве, по-

80

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]