Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8879

.pdf
Скачиваний:
5
Добавлен:
25.11.2023
Размер:
1.99 Mб
Скачать

говая точка приносит наибольшую суму продаж? Постройте кросс-диаграмму сумм продаж: общие продажи, продажи по торговым точкам, продажи по то-

варным группам.

2.То же, что в п.1, но за последние три месяца от имеющихся данных.

3.То же, что в п.1, но за последние три недели от имеющихся данных.

4.Найти сумму максимальной и средней стоимости покупки за последний месяц от имеющихся данных.

5.Сформировать многомерный отчет и график загруженности торговых точек по времени суток и торговым точкам. На какие часы приходятся пики продаж?

6.То же, что в п.5, но за последние три месяца от имеющихся данных.

7.Сформировать многомерный отчет и график загруженности торговых точек по дням недели.

8.То же, что в п.7, но за последний месяц от имеющихся данных.

9.Сформировать многомерный отчет и график загруженности торговых точек по дням месяца.

10.То же, что в п.9, но за последние три месяца от имеющихся данных.

11.20 самых продаваемых товаров.

12.То же, что в п.11, но за последние три недели от имеющихся данных.

13.10 самых продаваемых товаров по воскресеньям.

14.5 самых популярных товаров в каждой товарной группе.

15.То же, что в п.14, но за последнюю неделю от имеющихся данных.

16.Товары, дающие 50% объема продаж.

17.То же, что в п.16, но за последние три месяца от имеющихся данных.

18.То же, что в п.16, но за последнюю неделю.

19.10 самых продаваемых товаров с 18 до 21 часа.

20.10 товаров, пользующихся наименьшим спросом осенью.

21.Товары, дающие 50% объема продаж в летние месяцы.

101

Раздел 3.

Задание 1. Классификация на основе Дерева решений

Разделить все районы Нижегородского региона на различные классы по уровню дохода бюджета при помощи инструментов Квантование и Дерево решений

(данные взять из файла показатели.txt или из созданного ранее ХД Регион).

Для этого:

а) Нужно найти средние значения показателей по каждому району за весь исследуемый период;

б) Значения поля «доход бюджета» при помощи обработчика «Квантование» нужно разбить на три диапазона «низкий доход», «средний доход», «высокий доход».

в) С помощью обработчика «Дерево решений» получить правила, применяя которые можно определить к какому их трех возможных уровней дохода будет относиться произвольный район.

г) Оценить качество построенной классификационной модели по таблице сопряженности и соответствующей ей диаграмме.

Задание 2. Классификация на основе Дерева решений

1) Построить классифицирующее Дерево решений (рис. 4.36) для отнесения водных объектов на основе рассчитанного ранее в практической работе 3 показателя ИЗВ (индекс загрязнения воды) к определенному классу вод, используя критерии,

описанные в таблице.

Таблица. Классы качества вод в зависимости от значения ИЗВ

Значение ИЗВ

Воды

до 0,2

Очень чистые

0,2

– 1,0

Чистые

 

 

 

1,0

– 2,0

Умеренно загрязненные

2,0

– 4,0

Загрязненные

4,0

– 6,0

Грязные

6,0

– 10,0

Очень грязные

2) Результаты классификации отобразить на диаграмме «Процентное соотно-

шение качества вод региона» (рис. 63). Ответить на вопрос: какой процент водных объектов Нижегородской области относится к классу Загрязненных вод.

102

Рис. 63. Дерево решений

Рис. 64. Диаграмма «Процентное соотношение качества вод региона»

Задание 3. Построение модели отклика получателей рассылки на актив-

ных и неактивных при помощи алгоритма построения дерева решений.

Торговая компания, осуществляющая продажу товаров, располагает информа-

цией о своих клиентах и их покупках. Компания провела рекламную рассылку 13 504 клиентам и получила отклик в 14,5 % случаев. Необходимо построить модели отклика и проанализировать результаты, чтобы предложить способы минимизации издержек на новые почтовые рассылки.

Данные находятся в файлах responses1.txt (обучающее множество) и responses2.txt (тестовое множество). Они представлены таблицами со следующими полями:

Таблица 1 – Поля наборов данных «Отклики»

N

Поле

Описание

Тип

1

Код клиента

Уникальный идентификатор

целый

2

Пол

Пол клиента

строковый

103

3

Сколько лет клиенту

Число лет с момента первой покупки. Если

целый

 

 

менее года, то в поле стоит 0

 

4

Кол-во позиций товаров

Сколько уникальных товаров приобретал клиент

целый

5

Доход с клиента, тыс. ед.

Суммарная стоимость всех заказов клиента

вещест.

6

Число покупок в тек. году

Сколько раз клиент делал заказ в текущем году

целый

7

Обращений в службу

Сколько раз клиент обращался в службу поддержки

целый

 

поддержки

 

 

8

Задержки платежей

Задержки клиента фиксируются, когда длительное

целый

 

 

время после заказа оплата не поступает

 

9

Дисконтная карта

Является ли клиент участником дисконтных про-

целый

 

 

грамм, дающих право на скидки

 

10

Возраст

Возраст клиента

целый

11

Отклик

Отклик клиента на последнюю рассылку.

целый

 

 

Значение «1» означает, что клиент совершил покуп-

 

 

 

ку после прямой адресной рассылки.

 

12

Дата отклика

Информационное поле (пустое, если отклика не было)

дата

1. Построить и изучить Матрицу корреляции для оценки влияния входных перемен-

ных на выходную.

2.Для получения правил классификации запустить обработчик Дерево решений.

3.Изучите визуализаторы «Дерево решения», «Правила», «Значимость атрибутов», «Матрица классификации».

4.Изменяя порог отсечения построить новые модели, выбрать модель, лучшую с точки зрения точности и интерпретации. Выписать наиболее значимые правила. 5.Построить дерево решений на сбалансированном обучающем множестве и по-

смотреть те же визуализаторы и сделать вывод о качестве моделей.

6. Построить интерактивное дерево решений на сбалансированной выборке, приняв во внимание пожелания экспертов:

Первым атрибутом должен быть «Сколько лет клиент».

Вторым атрибутом – «Доход с клиента». Всех клиентов нужно разбить на 3

категории: малоприбыльные (до 20 тыс. ед.), дающие умеренный (от 20 тыс.

до 50 тыс. ед.) и высокий доход (свыше 50 тыс.ед.).

7. Изучить визуализаторы для интерактивного дерева. Выписать наиболее значи-

мые и интересные правила.

8. Прогнать через лучшую модель тестовое множество и сделать выводы о каче-

стве классификации.

9. Проведенное исследование оформить в виде отчета.

104

Таблица транзакций:

Раздел 4.

Задание 1.

Дана небольшая база:

Т01

Сливы, салат, помидоры

Т02

Сельдерей, конфеты,

Т03

Конфеты

Т04

Яблоки, морковь, помидоры, картофель, конфеты

Т05

Яблоки, апельсины, салат, конфеты, помидоры

Т06

Персики, апельсины, сельдерей, помидоры

Т07

Фасоль, салат, помидоры

Т08

Апельсины, салат, морковь, помидоры, конфеты

Т09

Яблоки, бананы, сливы, морковь, помидоры, лук, кон-

 

феты

Т010

Яблоки, картофель

1)Приняв пороговое значение поддержки, равное 35%, найдите популярные трех-предметные наборы.

2)Для данных таблицы 1 нужно рассчитать показатели: Поддержка (S), Досто-

верность (С), Лифт (L), Леверидж (Рычаг) (T), Улучшение (I) для наборов: а)

салат -> помидоры; б) конфеты -> помидоры.

Задание 2.

Для транзакций (см. таблицу) найти ассоциативные правила, используя метод apriori (Порог=4). Выявить значимые правила (Поддержка ≥ 20%, достоверность ≥

80%)

1

a, b, c, d, e

2

a, b, c

3

a, c, d, e

4

b, c, d, e

5

b, c

6

b, d, e

7

c, d, e

Задание 3.

1)Для данных таблицы рассчитать показатели: Поддержка (S), Достоверность (С),

Лифт (L), Леверидж (Рычаг) (T), Улучшение (I) для всех наборов. Количество набо-

ров можно рассчитать по формуле:

105

2)Перечислить правила, у которых поддержка ≥ 20%, достоверность ≥ 80%

3)Найти ассоциативные правила, используя метод a-priori (Порог=4). Выявить значи-

мые правила (Поддержка ≥ 20%, достоверность ≥ 80%)

4)Построить FP - дерево

Т01

Капуста, перец, кукуруза

Т02

Спаржа, кабачки, кукуруза

Т03

Конфеты

Т04

Кукуруза, помидоры, фасоль, кабачки

Т05

Перец, кукуруза, помидоры, фасоль

Т06

Кабачки, спаржа, фасоль, помидоры

Т07

Помидоры, кукуруза

Т08

Капуста, помидоры, перец

Т09

Кабачки, спаржа, фасоль

Т010

Фасоль, кукуруза

Т011

Перец, капуста, фасоль, кабачки

Т012

Спаржа, фасоль, кабачки

Т013

Кабачки, кукуруза, спаржа, фасоль

Т014

Кукуруза, перец, помидоры, фасоль, капуста

Задание 4.

1.Загрузить данные transactions.txt

2.Настройки параметров построения ассоциативных правил:

Поддержка: 1%< S<20%

Достоверность: 40%< S<90%

Записать:

Количество популярных наборов =

Количество популярных наборов, удовлетворяющих поддержке >6% =

Количество правил =

Товары – лидеры продаж, (имеющие поддержку в нашей задаче)>10%:

Указание: используйте фильтр в визуализаторе «Популярные наборы».

Тривиальные правила (включающие лидеры продаж):

Тривиальные правила (экспертное мнение):

Полезные правила:

106

Непонятные правила:

3.Изменить настройки параметров построения ассоциативных правил Поддержка: 1%< S<100%

Допустимая достоверность: 40%< S<90%

Записать:

Количество популярных наборов =

Количество правил =

Тривиальные правила (включающие лидеры продаж):

Тривиальные правила (экспертное мнение):

Полезные правила:

Непонятные правила:

Для Полезных правил найти и проанализировать показатели значимости: S, C, L, T, I

4.Изменить настройки параметров построения ассоциативных правил Поддержка: 1%< S<25%

Допустимая достоверность: 40%< S<90%

Записать:

Количество популярных наборов =

Количество правил =

Тривиальные правила (включающие лидеры продаж):

Тривиальные правила (экспертное мнение):

Полезные правила:

Непонятные правила:

Для Полезных правил найти и проанализировать показатели значимости: S, C, L, T, I

5.Изменить настройки параметров построения ассоциативных правил Поддержка: 1%< S<25%

Допустимая достоверность: 25%< S<40%

Записать:

107

Количество популярных наборов =

Количество правил =

Тривиальные правила (включающие лидеры продаж):

Тривиальные правила (экспертное мнение):

Полезные правила:

Непонятные правила:

Для Полезных правил найти и проанализировать показатели значимости: S, C, L, T, I

6.Изменить настройки параметров построения ассоциативных правил Поддержка: 1%< S<25%

Допустимая достоверность: 1%< S<30%

Записать:

Количество популярных наборов =

Количество правил =

Тривиальные правила (включающие лидеры продаж):

Тривиальные правила (экспертное мнение):

Полезные правила:

Непонятные правила:

Для Полезных правил найти и проанализировать показатели значимости: S, C, L, T, I

7.Сделать вывод, оформить отчет:

Какие полезные правила выявлены:

Какое максимальное значение лифта было зафиксировано? Какое прави-

ло имеет максимальный лифт?

Заказчика, в частности, интересует, какие товары покупают к поздрави-

тельной открытке. Сколько таких товаров? Какая из ассоциаций здесь представляет наибольший интерес (имеет максимальный лифт)

как полезные правила применять на практике.

108

Задание 5. Ответить на вопросы теста.

1.[……...............................] – это некоторое множество событий, происходящих совместно

2.Задача ассоциации впервые возникла

в торговле при анализе рыночной корзины

при анализе веб-логов

при исследовании действия побочных эффектов лекарств

3.Предметный набор {карандаш, ручка, блокнот} является

□ 1-предметным □ 2-предметным □ 3-предметным □ k-предметным

4.Отметьте верные суждения: □ лифт ассоциативного правила показывает, какой процент транзакций поддерживает данное правило

достоверность позволяет оценить полезность правила

правило со значением показателя улучшения большим 1 говорит о том, что правило полезнее случайного угадывания

лифт ассоциативного правила A>B равен лифту правила B>A

S(не A)=1–S(A), где S – поддержка набора A

5.Из общего количества 1000 покупок в магазине было приобретено 300 мобильных телефонов, а 100 человек, из купивших телефон, приобрели и чехол к нему. Поддержка правила Телефон >

Чехол равна

6.Часто встречающееся множество или популярный предметный набор это:

□ предметный наборы с поддержкой, больше либо равной заданного порога; □ предметный набор с поддержкой, меньше либо равной заданного порога; □ предметный набор с достоверно-

 

стью, больше либо равной заданного порога; □ предметный набор с достоверностью, меньше ли-

 

бо равной заданного порога.

 

7.

Для расчета левережда используется достоверность: □ да

□ нет

8.Один из первых популярных алгоритмов генерации ассоциативных правил это:

□ back propagatin

□ a posteriori

□ SOM

□ a priori □ FPG

□ a posteriori

9.В ассоциативном правиле A B вероятность того, что из наличия в транзакции товара A следует наличие в ней товара B показывает значение

 

□ достоверности;

□ левереджа;

□ улучшения; □ лифта; □ поддержки

10.

 

 

 

 

 

 

 

Следствие В

Условие А

 

Поддержка А В

ДостоверностьА В

Поддержка В

 

 

карандаши

 

4%

 

29%

17%

 

конфеты

зубная паста

 

3%

 

20%

17%

 

 

открытка

 

1%

 

45%

17%

 

Какова ожидаемая вероятность того, что клиент купит конфеты:

 

11.Дана небольшая база:

Приняв пороговое значение поддержки, равное 30%, найдите все популярные наборы (начиная с двух-предметных) и выберите правильный вариант из списка:

АВ,AF,AD,CD,CG,CF,ABD,DFG

AB,AC,AD,BD,CD,CF,ABC,ABD

AB,AC,AD,CD,CG,DF,CDG,ABC

AB,AC,AD,CD,CG,DF,DG,ACD

AB,AC,AD,CD,CG,DF,DG,ACD, CDG

Свое решение:

109

Раздел 5.

Задание 1.

Построить нейронную сеть, позволяющую аппроксимировать заданную много-

мерную нелинейную функцию:

Подготовить обучающую выборку средствами приложения Microsoft Excel и

оформить ее в виде текстового файла с разделителями.

Рекомендации: Чтобы создать набор случайных чисел, нужно использовать функцию Excel СЛЧИС(). Затем случайные числа следует перевести в нужный диа-

пазон и рассчитать значение заданной функции в соседнем столбце.

Провести обучение нескольких нейронных сетей (с различной архитектурой) с

помощью Deductor по алгоритму обратного распространения;

Проверить качество каждой обученной сети с помощью диаграммы рассеяния.

Выбрать наилучшую модель и оценить точность аппроксимации.

Общее задание: f x1 x2 (использовать готовый файл multi.txt)

Индивидуальные задания:

1.

f

x1 x2

x

4

x

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.

f

x1

20Sin(x2 ) 5x3

 

x4

e x5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

x

2

 

 

 

 

 

 

 

 

 

 

 

3.

f

 

1

 

2

Sin(x

4

x

5

)

 

 

 

 

 

 

 

 

x3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4.f x1 x2 x3 x4 x52

5.

f 0,5Cos(x

x

 

)2

 

 

 

1

 

 

x

 

2

 

 

 

 

 

5

 

 

 

 

 

 

1

 

 

 

x

 

x

 

2

 

 

 

 

 

 

 

3

4

 

 

 

 

 

 

 

 

 

 

 

 

 

6.f 5x1 Cos(x2 x3 ) Sin(x4 x25 )

7.f 3Cos(x1 x2 ) 2Sin(x3 ) ln x4 10x52

110

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]