Крок 1. Підготувати вхідний файл у HDFS
Створимо файл з текстом:
echo -e “hadoop\nhdfs\nmapreduce\nhive\nhbase\nspark\nhcatalog” > grep_input.txt
Завантажимо його у HDFS:
hdfs dfs -mkdir -p /user/cloudera/grep_input
hdfs dfs -put grep_input.txt /user/cloudera/grep_input/
🔹 Крок 2. Запустити Grep
Приклад запуску пошуку слів, які починаються з h:
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep \
/user/cloudera/grep_input /user/cloudera/grep_output ‘h.*’
Якщо директорія /user/cloudera/grep_output існує – видаляємо:
hdfs dfs -rm -r /user/cloudera/grep_output
🔹 Крок 3. Переглянути результати
Подивимось файли у вихідній директорії:
hdfs dfs -ls /user/cloudera/grep_output
Виведемо результат:
hdfs dfs -cat /user/cloudera/grep_output/part-r-00000
Отримаємо приблизно таке:
hadoop 1
hdfs 1
hive 1
hbase 1
hcatalog 1
✅ Таким чином Grep-програма знайшла всі слова, що починаються на “h”.
