close
經歷了先前不斷地幫Hadoop 架設環境和debug.. 終於要進入正題了
Wordcount是Hadoop裡面最經典的功能 source code在官網也有 今天就拿hadoop內建的Wordcount練習吧
首先我上了CNN隨機抓了一篇文章 存成Hadoop_test.txt 放在隨身碟裡插在Master01
首先建立一個叫in的資料夾
hadoop fs -mkdir /in
接著要把他放進HDFS的資料夾裡準備進行wordcount
hadoop fs -put /mnt/Hadoop_tmp/Hadoop_test.txt /in
呼叫wordcount指令
hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /in /out
MapReduce結束
到master01:50070觀看結果
很明顯的可以看出wordcount雖然能快速地計算出字數統計 但是在選字方面的code仍須改進
像是圖片裡"I "assess" "boot 這些帶有符號的字都被算成是一個獨立的字體
反而不會被計算進 I assess boot的統計裡
這也是之後再MapReduce的程式設計開發要補足的地方
全站熱搜