Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

СПИТ МО-317 Шакиров А.Р. ЛР5

.docx
Скачиваний:
19
Добавлен:
28.08.2022
Размер:
407.08 Кб
Скачать

УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

ФАКУЛЬТЕТ ИНФОРМАТИКИ И РОБОТОТЕХНИКИ

КАФЕДРА ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И КИБЕРНЕТИКИ

УТВЕРЖДАЮ

Проректор университета по научной работе

ФИО

"___" ______________ _______г.

Лабораторная работа № 5

«Поиск и подготовка данных, проведение ИАД, интерпретация полученных результатов»

по предмету: СОВРЕМЕННЫЕ ПРОБЛЕМЫ

ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

Преподаватель

Г. Р. Шахмаметова

Исполнитель

А. Р. Шакиров

Уфа - 2021

Цель

Целью является получение навыков самостоятельного анализа данных, извлечения неявных закономерностей из данных, интерпретации полученных результатов. Данная работа закрепляет навыки, полученные в лабораторной работе № 4.

Ход работы

  1. Для выполнения работы были выберем следующие файлы:

Traffic – почасовые данные о количестве транспортных средств на одном из 4 перекрестков, взятые с интернет-ресурса Kaggle. Содержит в сумме 48120 наблюдений.

Рис. 1. Представление импортированного файла Traffic в виде таблицы

Грибы – данные из набора лабораторной работы №4, в которых описаны: класс, форма шапки, поверхность шляпки, цвет шляпки, синие пятна, запах, форма крепления гименофора к ножке, частота гименофора, размер гименофора, цвет гименофора, форма ножки, корень ножки, поверхность ножки выше кольца, поверхность ножки ниже кольца, цвет ножки выше кольца, цвет ножки ниже кольца, тип покрывала, цвет покрывала, количество колец, остатки частного покрывала, цвет спор, частота грибницы и место обитания. Всего 8124 наблюдения.

Рис. 2. Представление импортированного файла Грибы в виде таблицы

Чеки – данные из набора лабораторной работы №4, где описаны какие покупки были сделаны по каждому из чеков. Содержит 5000 связей вида «номер чека – товар».

Рис. 3. Представление импортированного файла Чеки в виде таблицы

  1. Выясним закономерность количества транспортных средств на первом перекрестке в зависимости от часа.

Сначала преобразуем данные, сформировав кросс-таблицу, чтобы распределить наблюдения на каждом из перекрестков по столбцам.

Рис. 4. Кросс-таблица количества транспортных средств по перекресткам

Далее проводим автокорреляцию по первому перекрестку с количеством отсчетов равным количеству часов в сутках – 24.

Рис. 5. Диаграмма автокорреляции по первому перекрестку

На диаграмме видим очень высокий уровень корреляции данных с разницей в 1 сутки. Это означает, что количество транспорта на первом перекрестке сильно зависит от времени суток.

  1. Далее проводим прогнозирование количества транспорта на 1 перекрестке на следующие 24 часа.

Для этого сначала проводим трансформацию данных скользящим окном с глубиной погружения – 24. Далее обучаем нейросеть.

Затем проводим собственно прогнозирование на следующие 24 часа.

Рис. 6. Диаграмма прогноза количества транспорта на первом перекрестке

  1. Проведем классификацию грибов по признаку съедобности с помощью дерева решений.

Построим дерево решений, в качестве входных данных которого все признаки грибов, кроме съедобности, который в свою очередь является выходными данными.

Рис. 7. Дерево решений для классификации съедобности гриба

В результате исследования, если у гриба присутствует запах, то мы можем сразу определить класс гриба.

Признак запаха имеет значимость чуть выше 90%.

Рис. 8. Значимость атрибутов в дереве решений

Получившееся дерево решений абсолютно точно классифицировало грибы.

Рис. 9. Таблица сопряженности

  1. Выясним закономерности покупки товаров.

В наборе данных Чеки выполним поиск ассоциативных правил, где идентификатором транзакции является идентификатор чека, а элементом – купленный товар. Поддержку задаем от 3% до 80%, а уровень достоверности – от 60% до 90%.

Рис. 10. Таблица ассоциативных правил

Получили 5 правил. Например, если покупатель купил «Мыло жидкое», то с вероятностью 8,17% купил и «Мыло кусковое», и эта информация достоверна на 83,5%.

  1. Проведем классификацию перекрестков по количеству машин и времени наблюдения.

Построим дерево решений, в качестве входных данных которого количество машин и время наблюдения.

Рис. 11. Дерево решений для классификации перекрестков

Дерево решений успешно классифицировало около 85% данных.

Рис. 12. Таблица сопряженности

ВЫВОД

В ходе лабораторной работы были получены навыки предобработки, трансформации, отображения данных при их подготовке к интеллектуальному анализу данных. Также были получены навыки в области описательной аналитики – классификации объектов, кластеризации, сегментации, поиске ассоциативных правил; и в области прогнозирующей аналитики.