問題:在HADOOP上如果想要知道每一個字出現過幾次,該如何做??
解答:使用PIG將資料匯入後,把每行資料使用FLATTEN與TOKENIZE做資料分解後,接著將資料群組後計算出現次數即可。
Step 1:檢視資料內容,檔案名稱為ryo
Step 2:把資料上傳到hdfs
Step 3:進入PIG並匯入RYO開始分析並檢視inputs的資料結構
Step 4:檢視匯入inputs的資料,這時候每一句都是一個tuple。
Step 5:拆解匯入的資料inputs,簡單來說就是對inputs做spilt的動作。
Step 6:檢視已經spilt的的資料words,這時候是以每個字都是一個bag。
Step 7:使用flatten將bag變成tuple,以方便做count。
Step 8:檢視資料words,已經從bag變成tuple。
Step 9:把資料做group
Step 10:顯示已經被group的資料。
Step 11:計算每一個字出現的次數。
Step 12:檢視結果,如果直接DUMP內容的會,COUNT後面會有L字樣。
Step 13:將結果cntd存成檔案cntd。
Step 14:檢視檔案cntd結果。
沒有留言:
張貼留言