辦了一個Github帳號 未來會把code都放在那
https://github.com/kurthung1224
linux端安裝
kurthung1224 發表在 痞客邦 留言(0) 人氣(25)

當初我在安裝CentOS時硬碟使用的是default的8GB 結果在做個Big Data專題時把inode給塞爆
造成不系統沒辦法再創建檔案 紀錄一下解決過程
df -i
kurthung1224 發表在 痞客邦 留言(0) 人氣(130)

今天再用logstash把資料pass給Elasticsearch的時候發現 當讀的檔案到一定的數量後就會出現此Error
一開始以為是logstash或elasticsearch的bug 最後才發現是系統設定的允許開啟的檔案數的問題
ulimit -n
可以看到目前系統允許可開啟的檔案數量 default顯示1024
kurthung1224 發表在 痞客邦 留言(0) 人氣(45)
這問題會出現在使用logstash讀入同樣檔名的file時出現 但從elasticsearch裡卻完全沒看到我們的資料
使用debug mode只看到logstash不斷的出現
_discover_file_glob: /var/log/test/: glob is: ["/var/log/test/test.json"] {:level=>:debug, :file=>"filewatch/watch.rb", :line=>"117"}
kurthung1224 發表在 痞客邦 留言(0) 人氣(55)

使用Spark前最好先學Scala 不然很多程式碼都看不懂 雖然他也支援JAVA和Python 但原生的code仍是使用Scala
首先我在spark目錄下建立一個123.txt
內容是
kurthung1224 發表在 痞客邦 留言(0) 人氣(329)

今天使用mahout時出現以下exception
java.net.ConnectException: Call From master01/192.168.70.101 to master01:10020
kurthung1224 發表在 痞客邦 留言(0) 人氣(15)

目前最新的是0.9版 但是官方0.9的版本超舊 還是用hadoop 1.x編譯的 所以當我們在呼叫mahout的Lib時會有以下error
所以一定要重新下載source code自行編譯 不要用官方提供的版本...
kurthung1224 發表在 痞客邦 留言(0) 人氣(114)

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
裝了Hadoop 2.6.0後一直會出現這個Warning 本來以為可以忽略 但是Sqoop在啟動的時候會有問題 所以還是要想辦法解決
因為Apache提供的原生Hadoop bin檔是32bit 我的CentOS是64bit 所以lib會有問題
網路上試了幾種辦法都沒用 只好重新compile一版64bit的Hadoop 2.6.0
kurthung1224 發表在 痞客邦 留言(0) 人氣(476)

去Spark官網下載要的版本 http://spark.apache.org/downloads.html
目前最新是1.2.1
kurthung1224 發表在 痞客邦 留言(0) 人氣(316)

無意間發現Hortonworks公司有出了一款Hadoop的Sandbox 可以搭配一些Virtual Machine來玩
這在上班時沒有Hadoop機台可以玩的時候偷玩還滿方便的
可以到這邊下載
http://hortonworks.com/products//hortonworks-sandbox/#install
kurthung1224 發表在 痞客邦 留言(0) 人氣(735)