Добавил:
Я и кто? Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лабораторная работа №5

.docx
Скачиваний:
5
Добавлен:
02.02.2023
Размер:
536.39 Кб
Скачать

Министерство цифрового развития, связи и массовых коммуникаций

Российской Федерации Ордена Трудового Красного Знамени

федеральное государственное бюджетное образовательное

учреждение высшего образования

Московский технический университет связи и информатики

Кафедра «Математическая кибернетика и информационные технологии»

Лабораторная работа №5

по дисциплине

«Большие данные»

Москва 2022

Оглавление

1. Задание на лабораторную работу 3

2. Выполнение лабораторной работы 4

  1. Задание на лабораторную работу

  • Установить виртуальную машину HDP Sandbox

  • Запустить виртуальную машину. В результате запуска она выдает окно с доступом к «менеджеру», похожему на то, что было у Cloudera. Полученные пути нужно открыть на своей хостовой машине. Нам понадобятся как приветствующий экран, так и информация для ssh-подключения

  • На открывшейся веб-странице выбираем «Launch Dashboard» и в интерфейсе Ambari вводим логин и пароль: maria_dev (одинаковый, для обоих полей ввода). Теперь возможно ознакомится с состоянием сервисов у запущенной виртуальной машины

  • Среди сервисов необходимо убедится в наличии Spark2 и Zeppelin. Находим второй и среды Quick Links находим Zeppelin UI, он не откроется, но мы сможем узнать, по какому порту необходимо обращаться. Заменяем выделенное на localhost и у нас открывается интерфейс блокнота.

  • Для переноса файлов с хостовой машины (вашей основной системы) на виртуальную (HDP) необходимо воспользоваться SSH подключением

  • После копирования файла вы сможете обращаться к нему в виртуальной машине, что и понадобится нам при работе со Spark.

  1. Выполнение лабораторной работы

Чтение и вывод записей представлены на рисунке 1

Рисунок 2 – Чтение и вывод записей

Далее применим фильтр и выведем 10 записей, где поле State == Maine, Полученный результат представлен на рисунке 2.

Рисунок 2 – Применение фильтра

Далее произведем группировку поля Value по среднему арифметическому полученный результат представлен на рисунке 3.

Рисунок 3 – Применение группировки

Произведем группировку и агрегацию по полю Port Name. Полученный результат представлен на рисунках 4-5

Рисунок 4 – Группировка и агрегация

Рисунок 5 – Группировка и агрегация

Визуализируем данные при помощи специальной переменной Zeppelin z Результат представлен на рисунках 6 – 7.

Рисунок 6 – Вывод графиков

Рисунок 7 – Вывод графиков