본문 바로가기
C++ 200제/코딩 IT 정보

상관계수 검정 예시 (스피어만 서열, 켄달 타우 계수)

by vicddory 2017. 4. 13.

상관계수와 검정 예시 (스피어만 서열, 켄달 타우계수)


상관계수(Correlation Coefficient)

일반적으로 상관계수(Correlation Coefficient)는 피어슨의 적률 상관계수(Pearson's Product Moment Correlation Coefficient)를 간단히 지칭한 것으로서 두 변수가 모두 정규 분포를 따르고 등간, 비율척도로 측정되었을 때 두 변수 사이의 선형의 관계 정도를 하나의 수치로 나타낸 지표입니다.


기본적으로 두 변수 사이의 상관성을 나타내주는 지표는 두 변수간의 공분산(Covariance)입니다. 공분산이란 두 관심변수를 X, Y라고 했을 때 X의 증감에 따른 Y의 증감에 대한 척도로써, 기호로는 Cov(X, Y)로 나타냅니다.

그런데 공분산은 X와 Y의 측정단위가 달라지면 동일한 두 변수간의 관계를 측정했음에도 불구하고 공분산의 값이 틀려지게 되므로 단순히 공분산 값으로만 두 변수 사이의 관계를 알기는 어렵습니다.


따라서 측정단위나 대상에 관계없이 두 변수 사이의 일관된 선형관계를 나타내 줄 수 있는 지표를 구하기 위해 두 변수 사이의 공분산을 표준화하는 것이 필요합니다.


상관계수는 바로 이 공분산을 표준화시킨 값이라고 할 수 있습니다. 표준화하는 방법은 두 변수간의 공분산을 각 변수의 표준편차의 곱으로 나누어 주는 것으로 우리가 흔히 사용하는 상관계수는 다음과 같이 계산됩니다.


상관계수상관계수


여기서 p는 -1과 1사이의 값으로 주어지고, 1또는 -1의 값에서는 각각 한 변수값이 증가할 때 다른 변수값도 증가하는 완전한 양 또는 한 변수가 증가할 때 다른 변수값은 감소하는 완전한 음의 선형관계를 나타냅니다. 또 p가 0일 경우 X와 Y사이에는 선형관계가 없음을 의미하고, 이때 X, Y는 무상관(uncorrelated)이라 합니다.


그런데 p는 X, Y의 확률함수나 밀도함수로부터 계산되기 때문에 실제 그 값은 미지인 경우가 많습니다. 이러한 경우 p는 X, Y의 관측값 즉, 표본을 기초로 추정하게 됩니다. p의 최적 추정값으로는 표본상관계수 r을 이용합니다.


표본상관계수 r표본상관계수 r


일반적으로 표본상관계수 을 상관계수라 하며 그 의미는 다음과 같습니다.


(1) 상관계수 r은 항상 -1에서 1사이의 값을 가집니다.


(2) r이 양의 값을 가지면 X, Y 사이에는 양의 상관(Positive correlation)이 있음을 암시하며 이때에는 X가 증가하면 Y도 증가하는 경향을 가지게 됩니다. 특히, r값이 거의 1과 같으면 X와 Y사이에 직선적인 양의 상관관계가 아주 강함을 의미합니다.


(3) r이 음의 값을 가지면 X, Y사이에는 음의 상관(Negative correlation)이 있음을 암시하며 이때에는 X가 증가하면 Y는 감소하는 경향을 가지게 됩니다. 특히, r값이 거의 -1이 되면 X와 Y사이에 직선적인 음의 상관관계가 아주 강함을 의미합니다.


(4) r이 근사적으로 0인 경우는 X와 Y사이의 선형적 상관관계는 거의 없는 무상관을 의미합니다.


(5) 통상적으로 | r |<0.25이면 무상관, | r |>0.75이면 강한 상관관계가 있다고 할 수 있습니다.


다음으로 상관계수를 사용할 때 주의해야 할 점 다음과 같습니다.


(1) 상관계수는 단순히 수학적 관계일 뿐 속성의 관계로 해석해서는 안됩니다.


한 예로 어휘력 점수와 수학 점수의 상관계수가 0.8 정도로 높은 관련성을 띤다고 해서 어휘력을 높이면 수학 점수도 높아진다는 식의 해석은 바르지 못합니다. 상관계수는 단지 점수 간의 관계만을 보여줄 뿐, 이를 그 변수의 속성 비교에까지 사용하기는 힘들기 때문입니다.


(2) 상관계수는 선형관계의 측도이므로 상관계수가 낮다는 것은 선형의 관련성이 낮다는 것이므로 곡선관계가 있을 수 있으니 반드시 산점도로 확인해야 합니다.

상관계수(p)에 대한 검정

상관계수에 대한 검정 절차는 다음과 같이 이루어집니다.


(1) 가설을 세웁니다.


H0 (귀무가설) : p = 0(X, Y 사이에는 상관관계가 있다.)

H1 (대립가설) : p ≠ 0(X, Y 사이에는 상관관계가 없다.)


(2) 검정통계량을 구합니다.


검정통계량검정통계량


검정통계량은 귀무가설이 사실이면 자유도가 n - 2인 인 t분포를 따르게 됩니다.


(3) 유의수준 a를 정합니다.


(4) 주어진 유의수준에 따라 기각역을 결정합니다. 기각역은 양측검정인 경우, 검정통계량인 T의 절대값이 | T |> t(n - 2, a / 2)이면 H0: p = 0을 기각하게 되며, X, Y 사이에 통계적으로 유의한 상관관계가 존재하는 것으로 봅니다.


그 외의 상관계수

(1) 스피어만의 서열 상관계수(Spearman's rank order Correlation Coefficient)

두 변수가 서열척도로 측정된 경우에 비모수적 방법으로 상관관계를 알아보기 위해 사용되어 집니다. 즉 변수 Xi Yi의 데이터를 작은 값부터 차례대로 순위를 매겨 그 값을 Ri, Si라고 할 때 피어슨 상관계수에 순위자료 Ri, Si을 적용시켜 다음과 같은 서열 상관계수를 얻을 수 있게 됩니다.


스피어만의 상관계수스피어만의 상관계수


순위를 사용하기 때문에 자료에 이상점이 있거나 자료의 크기가 작을 때 많이 사용되며, 두 변수 사이에 선형성이 약하게 존재해도 증감의 경향이 뚜렷하면 1혹은 -1의 값을 가지게 됩니다.


(2) 켄달의 타우계수(Kendall's Tau)


켄달의 상관계수 역시 순위를 이용하는 비모수적 통계학의 연관성 측도입니다. 두 변수 X와 Y에 대하여 관측값이 (Xi, Yi)...(Xn, Yn)으로 주어질 때, X를 크기 순으로 정리하여 대응되는 Y가 어느 정도로 X의 순위와 일치하느냐의 관점에서 상관계수를 정의합니다.


즉, X의 순위와 일치시키기 위하여 Y를 얼마나 바꾸어야 하는가의 정도로 상관관계를 평가합니다.


<참고>

명목척도 : 측정값을 분류할 목적으로 숫자를 부여하는 척도

(예) 남자, 여자 → 1,2 


순서척도 : 측정값의 순위관계를 밝혀주는 척도

(예) 품질 상, 중, 하 → 1, 2, 3 


등간척도 : 측정값에 순위를 부여하되 그 간격이 동일한 척도

(예) 2002년, 2003년 → 2002, 2003


비율척도 : 측정값 사이의 비율계산이 가능한 척도

(예) 1m, 2m→1,2(2m은 1m의 두 배)


상관계수와 검정 예시 (스피어만 서열, 켄달 타우계수)

댓글