ЛР1_ИАД_Ибрагимова_Шакиров_МО417
.docxМинистерство науки и высшего образования Российской Федерации
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«Уфимский государственный авиационный технический университет»
Кафедра вычислительной математики и кибернетики
Лабораторная работа №1
по дисциплине: «Интеллектуальный анализ данных»
Система интеллектуального анализа данных
«RapidMiner»
Выполнили:
студенты группы МО-417
Шакиров А.Р.
Ибрагимова К.Б.
Проверила:
Харисова Э. А.
Уфа 2021
Цель
Приобрести навыки подготовки набора данных для его интеллектуального анализа с помощью системы RapidMiner.
Задачи:
1. Выполнить обучающее задание в соответствии с настоящим руководством по выполнению лабораторной работы;
2. Выполнить задание для самостоятельной работы в соответствии с настоящим руководством по выполнению лабораторной работы;
З. Оформить отчет о выполнении лабораторной работы в соответствии с требованиями к его оформлению.
Обучающее задание
Создадим новый проект в программе RapidMiner версии 9.10. Обработка данных RapidMiner производится при использовании операторов, которые поочерёдно применяются к источнику данных.
Импортируем данные с локального источника данных для аналитической обработки из файла Lab01DataSet.csv выбрав кнопку Import Data во вкладке Repository (Рисунок 1-2).
Рисунок 1 – Кнопка Import Data во вкладке Repository
Рисунок 2 – Выбор источника данных
В окне с параметрами распознания необходимо выставить все параметры в соответствии с Рисунком 3. После возможно форматирование колонок. Для изменения имени, типа или удаления колонки необходимо нажать на шестеренку в заголовке колонки. (Рисунок 3-4).
Рисунок 3 – Параметры распознавания файла
Рисунок 4 – Форматирование колонок
При правильном выполнении настроек импортирования файл появится во вкладке Repository, после чего его можно перетащить на вкладку Process, чтобы пРисуноктупить к анализу. Соединим порт «out» исходных данных и «res» главного процесса, затем нажмем на RunProcess (Рисунок 5).
Рисунок 5 – Перенос набора данных на поле Main Process
После окончания расчетов программа переключится на рабочую область «Results» и по умолчанию будет открыта вкладка Data, которая содержит полученные данные (Рисунок 6)
Рисунок 6 – Вкладка Data рабочей области Results
На вкладке Statistics мы увидим базовые статистические данные по каждому атрибуту, а также количество отсутствующих (или нераспознанных) атрибутов (Рисунок 7).
Рисунок 7 – Вкладка статистика
Произведем замену отсутствующих значений атрибута OnIine_Gaming на значение N, соответствующее моде данного атрибута используя оператор Replace Missing. Необходимо его настроить как на Рисунке 8.
Рисунок 8 – Настройка параметров оператора Replace Missing
Результат выполнения процесса (Рисунок 9). Все нераспознанные наблюдения атрибута Online_Gaming заменились на N.
Рисунок 9 – Результаты после замены отсутствующих значений
Произведем удаление наблюдений с отсутствующими значениями атрибута OnIine_Shopping. Для этого используем оператор Filter Examples (Рисунок 10).
Рисунок 10 – Добавление оператора Filter Examples
Настроим параметры оператора Filter Examples (Рисунок 11).
Рисунок 11 – Настройка параметров оператора Filter Examples
Результат выполнения процесса (Рисунок 12). Все наблюдения с отсутствующим атрибутом Online_Shopping были удалены.
Рисунок 12 – Результаты процесса после удаления части наблюдений
Произведем удаление 50% наблюдений из результирующего набора данных используя оператор Sample (Рисунок 13).
Рисунок 13 – Настройка параметров оператора Sample
Результат выполнения процесса (Рисунок 14). Число наблюдений сократилось в два раза.
Рисунок 14 – Результаты процесса после удаления части наблюдений
Произведем замену значений атрибута Twitter, не соответствующие типу данного атрибута с помощью оператора Replace (Рисунок 15).
Рисунок 15 – Настройка параметров оператора Replace
Результат выполнения процесса (Рисунок 16).
Рисунок 16 – Результаты процесса после замены значений атрибута Twitter
Произведем удаление части атрибутов набора данных. Для этого используем оператор Select Attributes. Проведем настройку оператора на Рисунокунках 17-18.
Рисунок 17 – Настройка параметров оператора Select Attributes
Рисунок 18 – Настройка параметров оператора Select Attributes
Результат выполнения процесса (Рисунок 19).
Рисунок 19 – Результаты процесса после удаления части атрибутов
Задание для самостоятельной работы
Для проведения анализа был выбран набор данных с сайта Kaggle.com , предоставляющий статистику о более чем 9000 укусах животных, которые произошли вблизи Луисвилла, штат Кентукки, с 1985 по 2017 год.
№ |
Название |
Описание |
Тип атрибута |
Диапазон значений |
1 |
bite_date |
Дата, когда произошел укус |
Полиномиальный |
[1985-1700] |
2 |
SpeciesIDDesc |
Вид животного, которое укусило |
Полиномиальный |
[DOG, CAT, BAT RACCOON, HORSE, FERRET, RABBIT, SKUNK] |
3 |
BreedIDDesc |
Порода (если известна) |
Полиномиальный |
[PIT BULL, GERM SHEPHERD, LABRADOR RETRIV, BOXER, CHICHAUHUA] |
4 |
GenderIDDesc |
Пол (животного) |
Биномиальный |
[MALE, FEMALE] |
5 |
color |
окрас животного |
Полиномиальный |
[BLACK, BROWN, WHITE, BLK WHT, TAN] |
6 |
vaccination_yrs |
сколько лет прошло с момента последней вакцинации |
Числовой |
[1-32] |
7 |
vaccination_date |
дата последней вакцинации |
Полиномиальный |
[1985-1700] |
8 |
victim_zip |
почтовый индекс жертвы |
Полиномиальный |
[40216-40272] |
9 |
AdvIssuedYNDesc |
Была ли консультанция |
Биномиальный |
[YES,NO] |
10 |
WhereBittenIDDesc |
Где на теле жертвы укус |
Полиномиальный |
[BODY, HEAD, UNKNOWN] |
11 |
quarantine_date |
было ли животное помещено на карантин |
Полиномиальный |
[1985-1700] |
12 |
DispositionIDDesc |
было ли животное освобождено из карантина |
Полиномиальный |
[RELEASED, KILLED, UNKNOWN] |
13 |
headsentdate |
дата отправки головы животного в лабораторию |
Полиномиальный |
[1985-1700] |
14 |
release_date |
дата, когда животное было выпущено на свободу |
Полиномиальный |
[1985-1700] |
15 |
ResultsIDDesc |
результаты лабораторных анализов (на бешенство) |
Биномиальный |
[NEGATIVE, POSITIVE]- |
Импортируем данные с локального источника данных для аналитической обработки (Рисунок 20).
Рисунок 20 – Результат импортирования
Случайным образом удалим 30 значений атрибутов:
vaccination_yrs – численный тип данных
SpeciesIDDesc – полиномиальный
BreedIDDesc – – полиномиальный
Color – полиномиальный
victim_zip – полиномиальный
GenderIDDesc – полиномиальный
AdvIssuedYNDesc – биномиальный
ResultsIDDesc – биномиальный
Рисунок 21 – Результат удаление значений атрибутов
Заменим 15 значений атрибутов на значения, не соответствующие типу данных:
vaccination_yrs – численный тип данных
SpeciesIDDesc – полиномиальный
BreedIDDesc – – полиномиальный
Color – полиномиальный
victim_zip – полиномиальный
GenderIDDesc – полиномиальный
Рисунок 22 – Результат замены значений атрибутов vaccination_yrs и SpeciesIDDesc
Определим описание базовых статистических показателей атрибутов набора данных с удалёнными и изменёнными значениями.
Рисунок 23 – Базовые статистические показатели атрибута
Заменим отсутствующие значения у половины атрибутов:
SpeciesIDDesc – полиномиальный
BreedIDDesc – – полиномиальный
ResultsIDDesc – биномиальный
vaccination_yrs – числовой
Атрибут SpeciesIDDesc имеет полиномиальный тип данных. Значением для замены будет мода, которую можно посмотреть на вкладке статистика. Модой для атрибута SpeciesIDDesc будет значение «DOG».
Рисунок 24 – Мода атрибута SpeciesIDDesc
Для замены отсутствующих показателей воспользуемся оператором ReplaceMissingValues.
Рисунок 25 – Добавление и настройка оператора Replace Missing Values для SpeciesIDDesc
Атрибут BreedIDDesc имеет полиномиальный тип данных. Значением для замены будет мода, которую можно посмотреть на вкладке статистика. Модой для атрибута BreedIDDesc будет значение «PIT BULL».
Рисунок 26 – Мода атрибута BreedIDDesc
Для замены отсутствующих показателей воспользуемся оператором ReplaceMissingValues.
Рисунок 27 – Добавление и настройка оператора Replace Missing Values для BreedIDDesc
Атрибут ResultsIDDesc имеет биномиальный тип данных. Значением для замены будет мода, которую можно посмотреть на вкладке статистика. Модой для атрибута ResultsIDDesc
будет значение «NEGATIVE».
Рисунок 28 – Мода атрибута ResultsIDDesc
Рисунок 29 – Добавление и настройка оператора Replace Missing Values для ResultsIDDesc
Атрибут vaccination_yrs имеет численный тип. Построим график распределения данных для этого атрибута. На графике видно, что распределение ассиметричное, необходимо рассчитать медиану. Значением для замены атрибута vaccination_yrs будет 1.
Рисунок 30 – График распределения vaccination_yrs
Рисунок 31 – Добавление и настройка оператора Replace Missing Values для vaccination_yrs
Результат замены отсутствующих значений у половины атрибутов.
Рисунок 32 – Результат применения операторов Replace Missing Values
Заменим значения не соответствующих типу атрибутов:
BreedIDDesc – – полиномиальный
Color – полиномиальный
GenderIDDesc – биномиальный
vaccination_yrs – численный тип данных
Для BreedIDDesc значением для замены будет мода – WEINER DOG.
Рисунок 33 – Оператор Replace для атрибута BreedIDDesc
Для Color значением для замены будет мода – BLACK.
Рисунок 34 – Оператор Replace для атрибута Color
Для GenderIDDesc значением для замены будет мода – MALE.
Рисунок 35 – Оператор Replace для атрибута GenderIDDesc
Для vaccination_yrs значением для замены будет медиана – 1.
Рисунок 36 – Оператор Declare Missing Value для атрибута vaccination_yrs
Рисунок 37 – Оператор Replace Missing Values для атрибута vaccination_yrs
Результат замены значений не соответствующих типу атрибутов.
Рисунок 38 – Результат для атрибутов
Удалим атрибуты, в которых остались либо отсутствующие значения, либо значения, не соответствующие типу атрибута.
Рисунок 39 – Выбор атрибутов
Рисунок 40 – Настройка оператора Select Attributes
Результат удаления атрибутов
Рисунок 41 – Результат после применения оператора Select Attributes
Рисунок 42 – Итоговый процесс
Вывод
В ходе лабораторной работы мы приобрели навыки подготовки набора данных для его интеллектуального анализа с помощью системы RapidMiner.