Пошук:

1. Підготуйте HDFS-директорії
# Перевіримо, що HDFS запущено та доступне
hdfs dfs -ls /

# Створимо директорію для зразків
hdfs dfs -mkdir -p /user/quickstart/input

2. Завантажте текстовий файл у HDFS

Можемо взяти якийсь локальний файл, наприклад /etc/passwd, або створити свій:

# Приклад із системного файлу
hdfs dfs -put /etc/passwd /user/quickstart/input/

# Або створимо свій:
echo -e “hello world\nhello hadoop\nmapreduce example” > sample.txt
hdfs dfs -put sample.txt /user/quickstart/input/

Перевіримо вміст:

hdfs dfs -ls /user/quickstart/input
hdfs dfs -cat /user/quickstart/input/sample.txt

3. Запустіть MapReduce-завдання WordCount

У Cloudera QuickStart VM вже встановлено набір зразків:

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar wordcount \
/user/quickstart/input \
/user/quickstart/output_wordcount

Перший аргумент wordcount — назва зразка.

Другий — шлях до вхідних даних у HDFS.

Третій — каталог для результатів (повинен бути відсутнім до запуску).

4. Перегляньте результати
hdfs dfs -ls /user/quickstart/output_wordcount
hdfs dfs -cat /user/quickstart/output_wordcount/part-r-00000

Вивід покаже кількість входжень кожного слова.

5. Очистка

Щоб видалити результати перед новим запуском:

hdfs dfs -rm -r /user/quickstart/output_wordcount