2016年5月7日 星期六

R學習筆記_資料分析(關聯性分析_correlation coefficient)

如果有兩組數值,其中一組數值的變化會影響另一個數值時,則可稱這兩組數值有相關聯,例如:身高與體重,人的體重會與身高成正比,當一個人長高體重也會隨之增加,這類的關聯關係稱為正相關。反之,如果當一個變數增加而另一變數下降則稱為負相關,例如:貨車載貨物越多,則每公升汽油可行駛的距離就會越少。
兩組數值變數向量之間的關聯性稱之為相關係數,相關係數的值介於1與-1之間,越靠近1代表正相關程度越高,反之越靠近-1則代表負相關程度越高。而越靠近0則代表兩數值之間的關係越微弱。
我們使用系統內建的iris物件進行關聯性分析,首先檢視iris物件的內容。
names(iris)
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"
假設我們想瞭解Sepal.Length(花萼長度)與Sepal.Width(花萼寬度)之關聯性,可使用cor()函數進行分析
cor(iris$Sepal.Length,iris$Sepal.Width)

上述結果可得知花萼長度與花萼寬度之間是負相關的關係。
分析Petal.Length(花瓣長度)與Petal.Width(花瓣寬度)之關聯性
cor(iris$Petal.Length,iris$Petal.Width)

上述結果可得知花瓣長度與花瓣寬度之間是高度正相關的關係
列出iris相關係數矩陣
cor(iris[-5])

由上可知每個變數之間之關聯係數。
此外兩兩變數之間的關聯性可用圖形來表示,我們可以使用pairs()函數畫出散點圖已顯示變數之間的關聯姓。
pairs(iris[-5])

沒有留言:

張貼留言