2016年9月7日 星期三

R學習筆記_資料處理(簡易的網路爬蟲 )

會使用到網路爬蟲,完全是因為驗證專案功能而想到的腳本。
因為WEB上的資料是非結構化資料又看到有人在網路上玩網路爬蟲,小弟就Google一下,發現rvest這個套件,使用起來真是簡單易懂呀,
對我而言它可以讀取HTML Tag與CSS,而且搜尋DOM物件的方式跟JQuery一模一樣,實在是神兵利器呀!於是小弟就手癢做了以下的測試。

下圖是小弟的資料來源網頁


使用rvest擷取網頁新聞的報導日期與標題
library(rvest)
news_url <- "http://news.ltn.com.tw/search?keyword=ubike&conditions=and&SYear=2016&SMonth=9&SDay=1&EYear=2016&EMonth=9&EDay=7"
dsTitle <- html(news_url) %>% html_nodes("#newslistul li a") %>% html_text()
dsDate <- html(news_url) %>% html_nodes("#newslistul li span") %>% html_text()
my_news <- data.frame(date = dsDate,title = dsTitle)
View(my_news)


執行結果如下圖,搞定收工



感想:R的rvest真是好物一枚呀,同時也見證了R套件的強大,當然小弟做這個測試除了擷取網路上的資料之外,還會利用工具串聯資料,讓資料會說話,阿~只能說資料好好玩喔!

沒有留言:

張貼留言