Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Доклад 1

.docx
Скачиваний:
8
Добавлен:
19.06.2023
Размер:
30.63 Кб
Скачать

МИНОБРНАУКИ РОССИИ

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ

ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

«ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА)

Кафедра информационных систем

ДОКЛАД

по дисциплине «Большие данные»

Тема: «Подходы к анализу данных»

Студент гр. 93—

Студент гр. 93—

Преподаватель

Холод И. И.

Санкт-Петербург

2022

Общая информация.

Данные размещены Департаментом финансов Нью-Йорка и содержат информацию о парковочных талонах, выданных в городе в 2013—2017 гг. Набор предоставлен под лицензией CC0 и может быть использован для любых задач. Данные можно загрузить здесь.

Целевая задача.

Проанализировав набор данных, выяснить, в какое время чаще всего выдавались талоны за неправильную парковку в 2017 году.

Метаинформация.

Данные представлены в виде таблицы формата CSV. В таблице представлено 43 атрибута и 10,8 млн векторов. Значения могут иметь тип числа, строки или даты и времени.

Ограничения данных.

Summons Number: Number

Plate ID: Plain Text

Пропущено 1 значение.

Registration State: Plain Text

Plate Type: Plain Text

Issue Date: Date & Time

Violation Code: Number

Vehicle Body Type: Plain Text

Пропущено 42,7 тыс. значений.

Vehicle Make: Plain Text

Пропущено 73 тыс. значений.

Issuing Agency: Plain Text

Street Code1: Number

Не задано ≤ 2,6 млн значений.

Street Code2: Number

Не задано ≤ 3,4 млн значений.

Street Code3: Number

Не задано ≤ 3,5 млн значений.

Vehicle Expiration Date: Number

Violation Location: Plain Text

Пропущено 2,07 млн значений.

Не задано ≤ 2,5 млн значений.

Violation Precinct: Number

Не задано ≤ 2,07 млн значений.

Issuer Precinct: Number

Не задано ≤ 4,9 млн значений.

Issuer Code: Number

Не задано 2,08 млн значений.

Issuer Command: Plain Text

Пропущено 2,06 млн значений.

Issuer Squad: Plain Text

Пропущено 2,06 млн значений. Не задано ≤ 1,08 млн значений.

Violation Time: Plain Text

Пропущено 63 значения. Обнаружено 1744 уникальных значения из 1440 возможных.

Time First Observed: Plain Text

Пропущено 9,96 млн значений. Обнаружено 2131 уникальное значение из 1440 возможных.

Violation County: Plain Text

Пропущено 39,5 тыс. значений.

Violation In Front Of Or Opposite: Plain Text

Пропущено 2,16 млн значений.

House Number: Plain Text

Пропущено 2,29 млн значений.

Не задано 324 тыс. значений.

Street Name: Plain Text

Пропущено 4009 значений.

Intersecting Street: Plain Text

Пропущено 7,44 млн значений.

Date First Observed: Number

Не задано 10,6 млн значений.

Law Section: Number

Sub Division: Plain Text

Пропущено 773 значения.

Violation Legal Code: Plain Text

Пропущено 8,74 млн значений. Не совпадает 63 значения.

Days Parking In Effect: Plain Text

Пропущено 2,71 млн значений.

From Hours In Effect: Plain Text

Пропущено 5,45 млн значений.

To Hours In Effect: Plain Text

Пропущено 5,45 млн значений.

Vehicle Color: Plain Text

Пропущено 152 тыс. значений.

Unregistered Vehicle?: Plain Text

Пропущено 9,68 млн значений.

Vehicle Year: Number

Не задано 2,32 млн значений.

Meter Number: Plain Text

Пропущено 9,02 млн значений.

Feet From Curb: Number

Violation Post Code: Plain Text

Пропущено 3,19 млн значений.

Violation Description: Plain Text

Пропущено 1,13 млн значений.

No Standing or Stopping Violation: Plain Text

Нет данных.

Hydrant Violation: Plain Text

Нет данных.

Double Parking Violation: Plain Text

Нет данных.

ML-алгоритм для решения задачи.

Для решения целевой задачи планируется использовать метод К-средних, который пытается сгруппировать данные в кластеры. Для выбора подходящего значения К будет использован метод локтя.

Необходимые настройки данных.

Для алгоритма необходимо наличие в модели данных, которые можно преобразовать в числа, чтобы работать с ними.

Ожидаемые модели знаний.

Предполагается, что алгоритм должен построить облака точек, где цвет каждой точки указывает на кластер, в котором она состоит, а плотность облака указывает на частоту времени выдачи штрафа.

Методы и критерии оценки моделей.

Для оценки данных будут использованы результаты, полученные стандартным алгоритмом непосредственно из исходных данных.

Система хранения.

Все алгоритмы вместе с набором данных планируется хранить на облачной платформе Yandex.Cloud.

Система анализа данных.

Алгоритмы анализа данных планируется писать с использованием языка программирования Python в среде разработке Jupyter Notebook с использованием библиотеки scikit-learn для обработки данных, а также библиотек NumPy, pandas и Matplotlib для визуализации и работы с данными.