Добавил:

unit_man Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский технический университет связи и информатики

Предмет:

Большие данные

Файл:

Лабораторная работа 2

.docx

Скачиваний:

Добавлен:

12.02.2024

Размер:

2.26 Mб

Скачать

☆

МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ

Ордена Трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования

«Московский технический университет связи и информатики»

Кафедра «Математическая кибернетика и информационные технологии»

Дисциплина «Большие данные»

Лабораторная работа 2

Выполнил:

студент группы БСТ2104

Станишевский И.А.

Проверила: Тимофеева А. И.

Москва, 2023 г.

Содержание

Цель работы 3

Ход выполнения работы 3

Hadoop streaming 9

Доп задание: 10

Вывод: 11

Цель работы 3

Ход выполнения работы 3

Hadoop streaming 8

Доп задание: 10

Вывод: 10

Цель работы

Получить навыки работы с MapReduce и YARN.

Ход выполнения работы

После очищение директорий будем работать с файлом yarn. Используем команду yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar

Рисунок 1 – Вывод всех доступных тестовых сценариев

Используем команду yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar pi 5 123456789, где 5 – количество контейнеров, работающих параллельно, 123456789 – количество точек записанных для обработки в каждый контейнер.

Рисунок 2 – Вывод посдчета значения π с помощью метода Монте-Карло

Команда вычислила значение π за 16.252 секунды. Чему равно полученное значение? Ответ: 3.14159321930849829571

Рисунок 3 – Вывод резульатат работы команды для посдчета значения π

Увеличьте количество точек в 10 раз и сравним точность.

Рисунок 4 – Вывод посдчета значения π с помощью метода Монте-Карло

Команда вычислила значение π за 31.303 секунды. Ответ: 3.14159277542849425640. Точность изменилась с 6 знака после запятой.

Рисунок 5 – Вывод резульатат работы команды для посдчета значения π

В Ambari в ResourceManager UI. Во вкладке Applications содержится история запуска всех YARN-приложений найдем свой запуск и кликните на его application ID.

Рисунок 6 – Вывод истории запусков

Рисунок 7 – Вывод информацию о статусе приложения

Рисунок 8 – Вывод информации о Job

Увеличим количество создаваемых точек, и зайдём в UI, чтобы увидеть подробную информацию в процессе работы приложения. Используем команду jar/usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce examples.jar pi 5 12345678987

Рисунок 9 – Вывод информации Использование памяти

Рисунок 10 – Вывод информации Использование VCore

Рисунок 11 – Вывод информации Запуск контейнеров

Заполним таблицу:

Resource Usage	Информация по нодам
Сколько памяти занимает приложение на каждой ноде?	1 – 4 GB 2 – 1 GB 3 – 1 GB
Сколько виртуальных ядер выделено под задачу на каждой ноде?	1 – 4 VCore 2 – 1 VCore 3 – 1 VCore
Какое количество контейнеров создано для решения задачи на каждой ноде?	1 – 4 containers 2 – 1 containers 3 – 1 containers

Ответьте на вопрос: О серверах с каким запущенным сервисом YARN была получена информация? 6,4,5 node6.mtuci.cloud.ru:8042

Запустим задачу ещё раз, нажмите ctrl+C или создайте ещё один терминал и подключитесь к ноде. Выполните команду yarn top.

Рисунок 11 – Вывод информации yarn top

Рисунок 12 – Вывод информации yarn top

Проверим статус нашей задачи

Рисунок 13 – Вывод информации yarn top

Выполните запуск любого другого тестового сценария. Выберем сценарий teragen. Это команда нужна для создания данных для программы TeraSort.

Рисунок 14 – Выполнение сценария teragen

Рисунок 15 – Вывод информации Использование памяти

Рисунок 16 – Вывод информации Использование VCore

Рисунок 17 – Вывод информации Запуск контейнеров

Заполним таблицу:

Resource Usage	Информация по нодам
Сколько памяти занимает приложение на каждой ноде?	1 – 1 GB 2 – 0 GB 3 – 0 GB
Сколько виртуальных ядер выделено под задачу на каждой ноде?	1 – 1 VCore 2 – 0 VCore 3 – 0 VCore
Какое количество контейнеров создано для решения задачи на каждой ноде?	1 – 1 containers 2 – 0 containers 3 – 0 containers

Рисунок 18 – Вывод информации teragen

Hadoop streaming

Создать Hadoop-streaming программу, которая бы удаляла из текста все вхождения следующих слов. Реализация программы будет на языке python.

Создадим файл, который будет использоваться для удаления слов

Рисунок 19 – Код для выполнения Hadoop-streaming

Запустим его в Hadoop

Рисунок 20 – Запуск команды

Вывод результата работы программы

Рисунок 21 – Вывод результата работы программы

Доп задание:

Посчитайте число вхождений слов длиной от 6 до 9 символов. Результат приведите к нижнему регистру и отсортируйте по убыванию числа вхождений, в случае равенства – лексикографически.

Создадим файл, который будет подсчитывать слова

Рисунок 22 – Код для выполнения Hadoop-streaming

Рисунок 23 – Запуск команды

Рисунок 24 – Вывод результата работы программы

Вывод:

Получил навыки работы с MapReduce и YARN.

Соседние файлы в предмете Большие данные

#
12.02.2024446.54 Кб6sql дополнительно .docx
#
12.02.20241.43 Mб18Лабораторная работа 1.docx
#
12.02.20242.26 Mб25Лабораторная работа 2.docx
#
12.02.20247.97 Mб18Лабораторная работа 3.docx
#
12.02.2024473.05 Кб26Лабораторная работа 4.docx
#
12.02.2024778.38 Кб19Лабораторная работа 5.docx
#
12.02.20241.96 Mб30Лабораторная работа 6.docx
#
12.02.20241.82 Mб18Лабораторная работа 7.docx