實戰MapReduce -- Wordcount－Kurt && Hadoop && Spark

經歷了先前不斷地幫Hadoop 架設環境和debug.. 終於要進入正題了

Wordcount是Hadoop裡面最經典的功能 source code在官網也有今天就拿hadoop內建的Wordcount練習吧

首先我上了CNN隨機抓了一篇文章存成Hadoop_test.txt 放在隨身碟裡插在Master01

首先建立一個叫in的資料夾

hadoop fs -mkdir /in

接著要把他放進HDFS的資料夾裡準備進行wordcount

hadoop fs -put /mnt/Hadoop_tmp/Hadoop_test.txt /in

呼叫wordcount指令

hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /in /out

wordcount

MapReduce結束

wordcount2

到master01:50070觀看結果

wordcount3

很明顯的可以看出wordcount雖然能快速地計算出字數統計但是在選字方面的code仍須改進

像是圖片裡"I "assess" "boot 這些帶有符號的字都被算成是一個獨立的字體

反而不會被計算進 I assess boot的統計裡

這也是之後再MapReduce的程式設計開發要補足的地方

kurthung1224

Kurt && Hadoop && Spark

kurthung1224 發表在痞客邦留言(0) 人氣()

E-mail轉寄

Kurt && Hadoop && Spark