Покроковий приклад запуску WordCount у Cloudera QuickStart. – Кібербезпека та кібергігієна

Крок 1. Підготувати вхідний файл у HDFS

Спочатку створимо локальний текстовий файл (наприклад input.txt):

echo “Hadoop MapReduce Hadoop BigData” > input.txt

Тепер створимо директорію у HDFS для вхідних даних:

hdfs dfs -mkdir -p /user/cloudera/input

Завантажимо файл у HDFS:

hdfs dfs -put input.txt /user/cloudera/input/

Перевіримо:

hdfs dfs -ls /user/cloudera/input

🔹 Крок 2. Запустити WordCount

Тепер запускаємо приклад WordCount:

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar wordcount \
/user/cloudera/input /user/cloudera/output

⚠ Якщо директорія /user/cloudera/output вже існує – видаліть її:

hdfs dfs -rm -r /user/cloudera/output

🔹 Крок 3. Переглянути результати

Після виконання подивимось результати у HDFS:

hdfs dfs -ls /user/cloudera/output
hdfs dfs -cat /user/cloudera/output/part-r-00000

Ви побачите щось таке:

BigData 1
Hadoop 2
MapReduce 1

✅ Отримали підрахунок слів у тексті.
Це – базовий приклад MapReduce у Cloudera QuickStart.