Приклад MapReduce Grep у Cloudera QuickStart. – Кібербезпека та кібергігієна

Крок 1. Підготувати вхідний файл у HDFS

Створимо файл з текстом:

echo -e “hadoop\nhdfs\nmapreduce\nhive\nhbase\nspark\nhcatalog” > grep_input.txt

Завантажимо його у HDFS:

hdfs dfs -mkdir -p /user/cloudera/grep_input
hdfs dfs -put grep_input.txt /user/cloudera/grep_input/

🔹 Крок 2. Запустити Grep

Приклад запуску пошуку слів, які починаються з h:

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep \
/user/cloudera/grep_input /user/cloudera/grep_output ‘h.*’

Якщо директорія /user/cloudera/grep_output існує – видаляємо:

hdfs dfs -rm -r /user/cloudera/grep_output

🔹 Крок 3. Переглянути результати

Подивимось файли у вихідній директорії:

hdfs dfs -ls /user/cloudera/grep_output

Виведемо результат:

hdfs dfs -cat /user/cloudera/grep_output/part-r-00000

Отримаємо приблизно таке:

hadoop 1
hdfs 1
hive 1
hbase 1
hcatalog 1

✅ Таким чином Grep-програма знайшла всі слова, що починаються на “h”.