1. Підготуйте HDFS-директорії
# Перевіримо, що HDFS запущено та доступне
hdfs dfs -ls /
# Створимо директорію для зразків
hdfs dfs -mkdir -p /user/quickstart/input
2. Завантажте текстовий файл у HDFS
Можемо взяти якийсь локальний файл, наприклад /etc/passwd, або створити свій:
# Приклад із системного файлу
hdfs dfs -put /etc/passwd /user/quickstart/input/
# Або створимо свій:
echo -e “hello world\nhello hadoop\nmapreduce example” > sample.txt
hdfs dfs -put sample.txt /user/quickstart/input/
Перевіримо вміст:
hdfs dfs -ls /user/quickstart/input
hdfs dfs -cat /user/quickstart/input/sample.txt
3. Запустіть MapReduce-завдання WordCount
У Cloudera QuickStart VM вже встановлено набір зразків:
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar wordcount \
/user/quickstart/input \
/user/quickstart/output_wordcount
Перший аргумент wordcount — назва зразка.
Другий — шлях до вхідних даних у HDFS.
Третій — каталог для результатів (повинен бути відсутнім до запуску).
4. Перегляньте результати
hdfs dfs -ls /user/quickstart/output_wordcount
hdfs dfs -cat /user/quickstart/output_wordcount/part-r-00000
Вивід покаже кількість входжень кожного слова.
5. Очистка
Щоб видалити результати перед новим запуском:
hdfs dfs -rm -r /user/quickstart/output_wordcount
