因為WEB上的資料是非結構化資料又看到有人在網路上玩網路爬蟲,小弟就Google一下,發現rvest這個套件,使用起來真是簡單易懂呀,
對我而言它可以讀取HTML Tag與CSS,而且搜尋DOM物件的方式跟JQuery一模一樣,實在是神兵利器呀!於是小弟就手癢做了以下的測試。
下圖是小弟的資料來源網頁
使用rvest擷取網頁新聞的報導日期與標題
library(rvest) news_url <- "http://news.ltn.com.tw/search?keyword=ubike&conditions=and&SYear=2016&SMonth=9&SDay=1&EYear=2016&EMonth=9&EDay=7" dsTitle <- html(news_url) %>% html_nodes("#newslistul li a") %>% html_text() dsDate <- html(news_url) %>% html_nodes("#newslistul li span") %>% html_text() my_news <- data.frame(date = dsDate,title = dsTitle) View(my_news)
執行結果如下圖,搞定收工
感想:R的rvest真是好物一枚呀,同時也見證了R套件的強大,當然小弟做這個測試除了擷取網路上的資料之外,還會利用工具串聯資料,讓資料會說話,阿~只能說資料好好玩喔!
沒有留言:
張貼留言