Доклад 1
.docxМИНОБРНАУКИ РОССИИ
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ
ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
«ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА)
Кафедра информационных систем
ДОКЛАД
по дисциплине «Большие данные»
Тема: «Подходы к анализу данных»
Студент гр. 93— |
— |
Студент гр. 93— |
— |
Преподаватель |
Холод И. И. |
Санкт-Петербург
2022
Общая информация.
Данные размещены Департаментом финансов Нью-Йорка и содержат информацию о парковочных талонах, выданных в городе в 2013—2017 гг. Набор предоставлен под лицензией CC0 и может быть использован для любых задач. Данные можно загрузить здесь.
Целевая задача.
Проанализировав набор данных, выяснить, в какое время чаще всего выдавались талоны за неправильную парковку в 2017 году.
Метаинформация.
Данные представлены в виде таблицы формата CSV. В таблице представлено 43 атрибута и 10,8 млн векторов. Значения могут иметь тип числа, строки или даты и времени.
Ограничения данных.
Summons Number: Number |
— |
Plate ID: Plain Text |
Пропущено 1 значение. |
Registration State: Plain Text |
— |
Plate Type: Plain Text |
— |
Issue Date: Date & Time |
— |
Violation Code: Number |
— |
Vehicle Body Type: Plain Text |
Пропущено 42,7 тыс. значений. |
Vehicle Make: Plain Text |
Пропущено 73 тыс. значений. |
Issuing Agency: Plain Text |
— |
Street Code1: Number |
Не задано ≤ 2,6 млн значений. |
Street Code2: Number |
Не задано ≤ 3,4 млн значений. |
Street Code3: Number |
Не задано ≤ 3,5 млн значений. |
Vehicle Expiration Date: Number |
— |
Violation Location: Plain Text |
Пропущено 2,07 млн значений. Не задано ≤ 2,5 млн значений. |
Violation Precinct: Number |
Не задано ≤ 2,07 млн значений. |
Issuer Precinct: Number |
Не задано ≤ 4,9 млн значений. |
Issuer Code: Number |
Не задано 2,08 млн значений. |
Issuer Command: Plain Text |
Пропущено 2,06 млн значений. |
Issuer Squad: Plain Text |
Пропущено 2,06 млн значений. Не задано ≤ 1,08 млн значений. |
Violation Time: Plain Text |
Пропущено 63 значения. Обнаружено 1744 уникальных значения из 1440 возможных. |
Time First Observed: Plain Text |
Пропущено 9,96 млн значений. Обнаружено 2131 уникальное значение из 1440 возможных. |
Violation County: Plain Text |
Пропущено 39,5 тыс. значений. |
Violation In Front Of Or Opposite: Plain Text |
Пропущено 2,16 млн значений. |
House Number: Plain Text |
Пропущено 2,29 млн значений. Не задано 324 тыс. значений. |
Street Name: Plain Text |
Пропущено 4009 значений. |
Intersecting Street: Plain Text |
Пропущено 7,44 млн значений. |
Date First Observed: Number |
Не задано 10,6 млн значений. |
Law Section: Number |
— |
Sub Division: Plain Text |
Пропущено 773 значения. |
Violation Legal Code: Plain Text |
Пропущено 8,74 млн значений. Не совпадает 63 значения. |
Days Parking In Effect: Plain Text |
Пропущено 2,71 млн значений. |
From Hours In Effect: Plain Text |
Пропущено 5,45 млн значений. |
To Hours In Effect: Plain Text |
Пропущено 5,45 млн значений. |
Vehicle Color: Plain Text |
Пропущено 152 тыс. значений. |
Unregistered Vehicle?: Plain Text |
Пропущено 9,68 млн значений. |
Vehicle Year: Number |
Не задано 2,32 млн значений. |
Meter Number: Plain Text |
Пропущено 9,02 млн значений. |
Feet From Curb: Number |
— |
Violation Post Code: Plain Text |
Пропущено 3,19 млн значений. |
Violation Description: Plain Text |
Пропущено 1,13 млн значений. |
No Standing or Stopping Violation: Plain Text |
Нет данных. |
Hydrant Violation: Plain Text |
Нет данных. |
Double Parking Violation: Plain Text |
Нет данных. |
ML-алгоритм для решения задачи.
Для решения целевой задачи планируется использовать метод К-средних, который пытается сгруппировать данные в кластеры. Для выбора подходящего значения К будет использован метод локтя.
Необходимые настройки данных.
Для алгоритма необходимо наличие в модели данных, которые можно преобразовать в числа, чтобы работать с ними.
Ожидаемые модели знаний.
Предполагается, что алгоритм должен построить облака точек, где цвет каждой точки указывает на кластер, в котором она состоит, а плотность облака указывает на частоту времени выдачи штрафа.
Методы и критерии оценки моделей.
Для оценки данных будут использованы результаты, полученные стандартным алгоритмом непосредственно из исходных данных.
Система хранения.
Все алгоритмы вместе с набором данных планируется хранить на облачной платформе Yandex.Cloud.
Система анализа данных.
Алгоритмы анализа данных планируется писать с использованием языка программирования Python в среде разработке Jupyter Notebook с использованием библиотеки scikit-learn для обработки данных, а также библиотек NumPy, pandas и Matplotlib для визуализации и работы с данными.