Доклад 1

.docx

Скачиваний:

Добавлен:

19.06.2023

Размер:

30.63 Кб

Скачать

☆

МИНОБРНАУКИ РОССИИ

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ

ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

«ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА)

Кафедра информационных систем

ДОКЛАД

по дисциплине «Большие данные»

Тема: «Подходы к анализу данных»

Студент гр. 93—	—
Студент гр. 93—	—
Преподаватель	Холод И. И.

Санкт-Петербург

2022

Общая информация.

Данные размещены Департаментом финансов Нью-Йорка и содержат информацию о парковочных талонах, выданных в городе в 2013—2017 гг. Набор предоставлен под лицензией CC0 и может быть использован для любых задач. Данные можно загрузить здесь.

Целевая задача.

Проанализировав набор данных, выяснить, в какое время чаще всего выдавались талоны за неправильную парковку в 2017 году.

Метаинформация.

Данные представлены в виде таблицы формата CSV. В таблице представлено 43 атрибута и 10,8 млн векторов. Значения могут иметь тип числа, строки или даты и времени.

Ограничения данных.

Summons Number: Number	—
Plate ID: Plain Text	Пропущено 1 значение.
Registration State: Plain Text	—
Plate Type: Plain Text	—
Issue Date: Date & Time	—
Violation Code: Number	—
Vehicle Body Type: Plain Text	Пропущено 42,7 тыс. значений.
Vehicle Make: Plain Text	Пропущено 73 тыс. значений.
Issuing Agency: Plain Text	—
Street Code1: Number	Не задано ≤ 2,6 млн значений.
Street Code2: Number	Не задано ≤ 3,4 млн значений.
Street Code3: Number	Не задано ≤ 3,5 млн значений.
Vehicle Expiration Date: Number	—
Violation Location: Plain Text	Пропущено 2,07 млн значений. Не задано ≤ 2,5 млн значений.
Violation Precinct: Number	Не задано ≤ 2,07 млн значений.
Issuer Precinct: Number	Не задано ≤ 4,9 млн значений.
Issuer Code: Number	Не задано 2,08 млн значений.
Issuer Command: Plain Text	Пропущено 2,06 млн значений.
Issuer Squad: Plain Text	Пропущено 2,06 млн значений. Не задано ≤ 1,08 млн значений.
Violation Time: Plain Text	Пропущено 63 значения. Обнаружено 1744 уникальных значения из 1440 возможных.
Time First Observed: Plain Text	Пропущено 9,96 млн значений. Обнаружено 2131 уникальное значение из 1440 возможных.
Violation County: Plain Text	Пропущено 39,5 тыс. значений.
Violation In Front Of Or Opposite: Plain Text	Пропущено 2,16 млн значений.
House Number: Plain Text	Пропущено 2,29 млн значений. Не задано 324 тыс. значений.
Street Name: Plain Text	Пропущено 4009 значений.
Intersecting Street: Plain Text	Пропущено 7,44 млн значений.
Date First Observed: Number	Не задано 10,6 млн значений.
Law Section: Number	—
Sub Division: Plain Text	Пропущено 773 значения.
Violation Legal Code: Plain Text	Пропущено 8,74 млн значений. Не совпадает 63 значения.
Days Parking In Effect: Plain Text	Пропущено 2,71 млн значений.
From Hours In Effect: Plain Text	Пропущено 5,45 млн значений.
To Hours In Effect: Plain Text	Пропущено 5,45 млн значений.
Vehicle Color: Plain Text	Пропущено 152 тыс. значений.
Unregistered Vehicle?: Plain Text	Пропущено 9,68 млн значений.
Vehicle Year: Number	Не задано 2,32 млн значений.
Meter Number: Plain Text	Пропущено 9,02 млн значений.
Feet From Curb: Number	—
Violation Post Code: Plain Text	Пропущено 3,19 млн значений.
Violation Description: Plain Text	Пропущено 1,13 млн значений.
No Standing or Stopping Violation: Plain Text	Нет данных.
Hydrant Violation: Plain Text	Нет данных.
Double Parking Violation: Plain Text	Нет данных.

ML-алгоритм для решения задачи.

Для решения целевой задачи планируется использовать метод К-средних, который пытается сгруппировать данные в кластеры. Для выбора подходящего значения К будет использован метод локтя.

Необходимые настройки данных.

Для алгоритма необходимо наличие в модели данных, которые можно преобразовать в числа, чтобы работать с ними.

Ожидаемые модели знаний.

Предполагается, что алгоритм должен построить облака точек, где цвет каждой точки указывает на кластер, в котором она состоит, а плотность облака указывает на частоту времени выдачи штрафа.

Методы и критерии оценки моделей.

Для оценки данных будут использованы результаты, полученные стандартным алгоритмом непосредственно из исходных данных.

Система хранения.

Все алгоритмы вместе с набором данных планируется хранить на облачной платформе Yandex.Cloud.

Система анализа данных.

Алгоритмы анализа данных планируется писать с использованием языка программирования Python в среде разработке Jupyter Notebook с использованием библиотеки scikit-learn для обработки данных, а также библиотек NumPy, pandas и Matplotlib для визуализации и работы с данными.