阿肥的DB學習之路: Hadoop Pig 資料分析: word count應用

2013年8月6日星期二

問題：在HADOOP上如果想要知道每一個字出現過幾次，該如何做??

解答：使用PIG將資料匯入後，把每行資料使用FLATTEN與TOKENIZE做資料分解後，接著將資料群組後計算出現次數即可。

Step 1:檢視資料內容，檔案名稱為ryo

Step 2:把資料上傳到hdfs

Step 3:進入PIG並匯入RYO開始分析並檢視inputs的資料結構

Step 4:檢視匯入inputs的資料，這時候每一句都是一個tuple。

Step 5:拆解匯入的資料inputs，簡單來說就是對inputs做spilt的動作。

Step 6:檢視已經spilt的的資料words，這時候是以每個字都是一個bag。

Step 7:使用flatten將bag變成tuple，以方便做count。

Step 8:檢視資料words，已經從bag變成tuple。

Step 9:把資料做group

Step 10:顯示已經被group的資料。

Step 11:計算每一個字出現的次數。

Step 12:檢視結果，如果直接DUMP內容的會，COUNT後面會有L字樣。

Step 13:將結果cntd存成檔案cntd。

Step 14:檢視檔案cntd結果。

阿肥的DB學習之路