2013年8月6日 星期二

Hadoop Pig 資料分析: word count應用

問題:在HADOOP上如果想要知道每一個字出現過幾次,該如何做??

解答:使用PIG將資料匯入後,把每行資料使用FLATTENTOKENIZE做資料分解後,接著將資料群組後計算出現次數即可。

Step 1:檢視資料內容,檔案名稱為ryo

Step 2:把資料上傳到hdfs

Step 3:進入PIG並匯入RYO開始分析並檢視inputs的資料結構

Step 4:檢視匯入inputs的資料,這時候每一句都是一個tuple

Step 5:拆解匯入的資料inputs,簡單來說就是對inputsspilt的動作。

Step 6:檢視已經spilt的的資料words,這時候是以每個字都是一個bag

Step 7:使用flattenbag變成tuple,以方便做count

Step 8:檢視資料words,已經從bag變成tuple

Step 9:把資料做group

Step 10:顯示已經被group的資料。


Step 11:計算每一個字出現的次數。

Step 12:檢視結果,如果直接DUMP內容的會,COUNT後面會有L字樣。

Step 13:將結果cntd存成檔案cntd

Step 14:檢視檔案cntd結果。

沒有留言:

張貼留言