5
.docxМИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ
Ордена трудового Красного Знамени федеральное государственное бюджетное
образовательное учреждение высшего образования
«Московский технический университет связи и информатики»
Отчет по лабораторной работе №5
по дисциплине «Большие данные»
Выполнил:
студентка группы
Проверил:
Москва, 2021
Содержание
1 Задание на лабораторную работу 2
2 Выполнение лабораторной работы 3
1 Задание на лабораторную работу
Перенести файл с хостовой машины на виртуальную (HDP) , воспользовавшись SSH подключением
Считать csv-файл в формате DataFrame
Вывести первые n-записей
Применить фильтр к данным
Вывести данные с группировкой
Вывести данные с группировкой и агрегированием
Визуализировать данные при помощи специальной переменной Zeppelin z (z.show). Испробовать не только столбчатые диаграммы
2 Выполнение лабораторной работы
Перенесем датасет bce_Data с хостовой машины на виртуальную (HDP), воспользовавшись SSH подключением. Процедура представлена на рисунке 1
Рисунок 1 – Перенос датасета
Считаем csv-файл в формате DataFrame и выведем первые 10 записей, рисунок 2
Рисунок 2 – Чтение и вывод записей
Применим фильтр и выведем 10 записей, где поле State == Maine, рисунок 3
Рисунок 3 – Применение фильтра
Произведем группировку поля Value по среднему арифметическому, рисунок 4
Рисунок 4 – Применение группировки
Произведем группировку и агрегацию по полю Port Name, рисунок 5-6
Рисунок 5 – Группировка и агрегация №1
Рисунок 6 – Группировка и агрегация № 2
Визуализируем данные при помощи специальной переменной Zeppelin z (z.show), рисунки 7 – 10
Рисунок 7 – Визуализация №1
Рисунок 8 – Визуализация №2
Рисунок 9 – Визуализация №3
Рисунок 10 – Визуализация №4