3
.docxМИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ
Ордена трудового Красного Знамени федеральное государственное бюджетное
образовательное учреждение высшего образования
«Московский технический университет связи и информатики»
Отчет по лабораторной работе №3
по дисциплине «Большие данные»
Выполнил: студент группы
Проверил:
Москва, 2021
Содержание
1 Цель работы 3
2 Задание на лабораторную работу 3
3 Выполнение лабораторной работы 3
3.1 Создание WordCount.jar 3
3.2 Использование WordCount для подсчета слов в файле 4
Цель работы
Ознакомится с процессом MapReduce на примере подсчета слов в файле.
Задание на лабораторную работу
Написать программу для подсчета количества слов на языке java или воспользоваться примерами программ.
Выполнение лабораторной работы
Создание WordCount.jar
При помощи среды Eclipce создадим файл WordCount.jar:
Создадим Java Project
Подключим Hadoop библиотеки к данному проекту
Создадим в этом проекте класс WordCount и загрузим в него готовый код, взятый с Apache
Экспортируем данный класс в виде .jar файла в home/cloudera
Результат работы представлен на рисунке 1
Рисунок 1 – Созданный файл WordCount.jar
Использование WordCount для подсчета слов в файле
Создадим несколько текстовых файлов для использования в качестве входных данных, рисунок 2
Рисунок 2 – Входные данные для анализа
Данные файлы хранятся в /home/cloudera/ , рисунок 3
Рисунок 3 – Созданные файлы
Добавим наши входные файлы в HDFS
Для этого создадим новую папку input, рисунок 4
Рисунок 4 – Создание новой папки
Перенесем все наши входные файлы для анализа в созданную папку input на HDFS, рисунок 5
Рисунок 5 – Добавление файлов на HDFS
Запустим программу MapReduce на Hadoop, рисунки 6-7
Рисунок 6 – Запуск MapReduce на Hadoop (часть 1)
Рисунок 7 – Запуск MapReduce на Hadoop (часть 2)
Проведем такую процедуру также для file1.txt и file2.txt
Результат работы подсчета слов для file0.txt , рисунок 8
Рисунок 8 – Результат file0.txt
Результат работы подсчета слов для file1.txt , рисунок 9
Рисунок 9 – Результат file1.txt
Результат работы подсчета слов для file2.txt , рисунок 10
Рисунок 10 – Результат file2.txt