Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СПИТ МО-317 Шакиров А.Р. ЛР4.docx
Скачиваний:
27
Добавлен:
28.08.2022
Размер:
5.48 Mб
Скачать

УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

ФАКУЛЬТЕТ ИНФОРМАТИКИ И РОБОТОТЕХНИКИ

КАФЕДРА ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И КИБЕРНЕТИКИ

УТВЕРЖДАЮ

Проректор университета по научной работе

ФИО

"___" ______________ _______г.

Лабораторная работа № 4

«Изучение методов интеллектуального анализа данных»

по предмету: СОВРЕМЕННЫЕ ПРОБЛЕМЫ

ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

Преподаватель

Г. Р. Шахмаметова

Исполнитель

А.Р. Шакиров

Уфа - 2021

Цель

Получение навыков:

  1. предобработки, трансформации, отображения данных при их подготовке к интеллектуальному анализу данных;

  2. в области описательной аналитики – классификации объектов, кластеризации, сегментации, поиске ассоциативных правил;

  3. в области прогнозирующей аналитики.

Ход работы

  1. Импорт данных

Импортируем данные из файла TestForPPP.txt с помощью Мастера импорта. После настройки параметров импорта и выполнения импорта данных вызовем способ отображения данных – диаграмма (рис. 1).

Рис.1. Диаграмма синуса

  1. Предобработка данных

Проведём обработку на данных из файла TestForPPP.txt.

Восстановление пропущенных данных

С помощью мастера Обработки и метода заполнения пропусков изменим данные, добавив пропущенные значения (рис. 2).

Рис.2. Диаграмма синуса после восстановление данных

Удаление аномалий

Аномалии встречаются в «сырых» данных не реже шумов. Если они присутствуют при построении модели, то оказывают на нее весьма большое влияние. Т.е. предварительно их необходимо устранить. Также они портят статистическую картину распределения данных.

С помощью мастера Обработки и метода редактирования выбросов изменим данные, удалив аномалии (рис. 3).

Рис.3. Диаграмма аномалий

Спектральная обработка

Платформа Deductor Studio предлагает несколько видов спектральной обработки: сглаживание данных путем указания полосы пропускания, вычитание шума путем указания степени вычитания шума и вейвлет преобразование путем указания глубины разложения и порядка вейвлета.

С помощью мастера обработки данных и метода спектральной обработки изменим исходные данные (рис. 4).

Рис.3. Диаграмма аномалий после применения сглаживания

Удаление шумов

Шумы в данных не только скрывают общую тенденцию, но и проявляют себя при построении модели прогноза. Из-за них модель может получиться с плохими обобщающими качествами.

Произведем удаление шумов с помощью мастера обработки данных и метода спектральной обработки и в качестве типа обработки данных «Вычитание шума» (рис. 5).

Рис.5. Диаграмма шумов

  1. Группировка данных

Группировка позволяет объединять записи по полям – измерениям и агрегируя данные в полях фактах для дальнейшего анализа. Используем в качестве исходных данных файл banks.txt

Группировка по городам

После импорта данных запустим мастер обработки и вызовем в качестве обработки группировку данных. На втором шаге мастера установим назначение поля «ГОРОД» как измерение, а назначение поля «ПРИБЫЛЬ» как факт. В качестве метода агрегации у поля «ПРИБЫЛЬ» следует указать Сумму. Таким образом, после обработки получим суммарные данные по прибыли всех банков по каждому городу (рис. 6).

Рис.6. Результат группировки по городам

Группировка по банкам

После вызова мастера обработки и выбрав метод группировки, установим назначение поля «БАНК» как измерение, а назначение поля «ПРИБЫЛЬ» как факт. В качестве метода агрегации у поля «ПРИБЫЛЬ» следует указать Сумму. Таким образом, после обработки получим суммарные данные по прибыли всех банков (рис. 7).

Рис.7. Результат группировки по банкам

  1. Преобразование данных к скользящему окну

Скользящее окно – инструмент для генерации смежных временных рядов, что бывает необходимым при построении нейронный сетей. Используем данные из файла «Sliding.txt».

В мастере преобразования вызовем метод скользящее окно (рис. 8).

Рис.8. Скользящее окно

  1. Фильтрация данных

Фильтрация необходима для разбиения данных на какие-либо группы для последующей обработки или анализа данных уже отдельно по каждой группе. Также некоторые данные могут не подходить для дальнейшего анализа в силу накладываемых условий. В этом случае также возникает необходимость фильтрации записей.

Воспользуемся данными файла Credit.txt. Находясь на узле импорта данных, из текстового файла запустить Мастер обработки. В нем в качестве метода обработки выберем Фильтрацию (рис. 9).

Рис.9. Фильтрация данных

  1. Кросс-таблица

Данный обработчик предназначен для преобразования исходной структуры таблицы данных в удобную для работы форму. С его помощью задаются новые поля таблицы из уже существующих, на основе преобразования значений выбранного поля в новые поля с помощью встроенного обработчика фильтрации.

Используем кросс-таблицу, используя данные о стоимости продуктов входящих в потребительскую корзину за четыре месяца basket_of_goods.txt.

Вызовем Мастер обработки и в появившемся окне выберем обработчик Кросс – таблица (рис. 10).

Рис.10. Кросс – таблица

  1. Многомерная диаграмма

Многомерная диаграмма является одним из самых наглядных визуализаторов используемых при анализе данных. Она позволяет просмотреть трехмерную зависимость параметров рассматриваемых данных. Для ее построения используется визуализатор Многомерная диаграмма.

Рассмотрим построение многомерной диаграммы на примере данных из файла fuel.txt (рис. 11).

Рис.11.Многомерная диаграмма

  1. Классификация с помощью деревьев решений

Деревья решений применяются для решения задачи классификации. Дерево представляет собой набор условий (правил), согласно которым данные относятся к тому или иному классу. Также после построения присутствует информация о достоверности того или иного правила, его значимость. С помощью данного инструмента можно узнать ранг значимости каждого фактора.

Классификация на демократов и республиканцев

Для решения задачи запустим мастер обработки. Выберем в качестве обработки дерево решений и проанализируем данные на полученных визуализаторах.

Сначала посмотрим на таблицу сопряженности. По диагонали таблицы расположены примеры, которые были правильно распознаны, в остальных ячейках те, которые были отнесены к другому классу. В данном случае дерево правильно классифицировало практически все примеры (рис. 12).

Рис.12.Многомерная диаграмма

Дерево решений получилось не очень громоздкое, большая часть факторов (законопроектов) была отсечена, т.е. влияние их на принадлежность к партии минимальная или его вообще нет. Самым значимым фактором оказалась позиция, занимаемая депутатами по пакету законов касающихся врачей (рис. 13).

Рис.13. Дерево решений

Значимость факторов или атрибутов можно подробно изучить в визуализаторе «Значимость атрибутов» (рис. 14). С помощью данного визуализатора можно определить, насколько сильно выходное поле зависит от каждого из входных факторов. Чем больше значимость атрибута, тем больший вклад он вносит при классификации. В данном случае самый большой вклад вносит закон о врачах.

Рис.14. Значимость атрибутов

На визуализаторе «Правила» представлен список всех правил, согласно которым можно отнести депутата к той или иной партии. Правила можно сортировать по поддержке, достоверности и фильтровать по выходному классу (рис. 15)

Рис.15. Значимость атрибутов

Соседние файлы в предмете Современные проблемы информационных технологий