close

經歷了先前不斷地幫Hadoop 架設環境和debug.. 終於要進入正題了

Wordcount是Hadoop裡面最經典的功能 source code在官網也有 今天就拿hadoop內建的Wordcount練習吧

首先我上了CNN隨機抓了一篇文章 存成Hadoop_test.txt 放在隨身碟裡插在Master01

 

首先建立一個叫in的資料夾

hadoop fs -mkdir /in

接著要把他放進HDFS的資料夾裡準備進行wordcount

hadoop fs -put  /mnt/Hadoop_tmp/Hadoop_test.txt /in

呼叫wordcount指令

hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /in /out

wordcount    

 

MapReduce結束

wordcount2  

 

到master01:50070觀看結果

wordcount3  

 

很明顯的可以看出wordcount雖然能快速地計算出字數統計 但是在選字方面的code仍須改進

像是圖片裡"I "assess" "boot 這些帶有符號的字都被算成是一個獨立的字體

反而不會被計算進 I assess boot的統計裡

這也是之後再MapReduce的程式設計開發要補足的地方

 

arrow
arrow
    全站熱搜

    kurthung1224 發表在 痞客邦 留言(0) 人氣()