본문 바로가기
C++ 200제/코딩 IT 정보

상관분석 3종류와 산점도 6가지, 회귀분석 차이점

by vicddory 2018. 12. 15.

상관분석 3종류와 산점도 6가지, 회귀분석 차이점


상관분석이란?

상관분석은 변수 사이의 관련성을 분석하기 위해 사용되는 분석 방법입니다. 즉 변수 사이에 선형의 관련이 있는지 여부와 관련이 있다면 어느 정도 인지를 상관계수를 통해 알 수 있습니다.


분석방법에 따라 단순히 두 변수 사이의 관계에 대해 측정하는 단순상관분석(Simple Correlation Analysis), 3개 이상의 변수들 간의 관계에 대한 강도를 측정하는 다중상관분석(Multiple Correlation Analysis)이 있는데 이때 다른 변수들 간의 관계는 고정시키고 두 변수 사이의 관계만 나타내는 편상관분석(Partial Correlation Analysis)이 있습니다.


<회귀분석과의 차이점>


상관분석은 두 변수의 역할이 서로 대등할 때 사용됩니다 예를 들어, 키와 몸무게가 관심 변수라면 키를 이용해 몸무게를 설명할 수도 있고 반대로 몸무게를 이용해 키를 설명할 수도 있습니다.

이와는 달리 성적과 과제제출여부라는 두 변수를 예로 들어 봅시다. 이 경우에 있어서는 과제 제출여부는 성적을 설명하기 위한 변수로 삼는 경우가 일반적이며 회귀분석을 사용하게 됩니다.


따라서 단순히 두 변수 사이의 관련성 여부와 그 정도에 대해서 알고 싶은 경우에는 상관분석을 사용하고 두 변수 사이의 관련성에 있어서 인과관계가 분명하여 하나의 변수로부터 다른 변수 값을 예측하고자 할 때 회귀분석을 사용하게 되는 것입니다.


산점도(Scatter Diagram)

산점도는 두 관심변수를 좌표평면상에 점으로 나타낸 그림입니다. 이를 통해 두 변수 사이에 선형의 관련이 있는지와 그 정도를 눈으로 쉽게 판단할 수 있습니다.


1. X의 값이 증가함에 따라 Y의 값 또한 증가하고 있어 완벽한 직선의 형태를 나타내고 있습니다. 이 경우 상관계수의 값은 1이며, X와 Y는 아주 높은 양의 선형 관계에 있다고 합니다.


상관분석 산점도 선형관계[상관분석과 산점도] 아주 높은 양의 선형 관계


2. X의 값이 증가함에 따라 Y의 값도 어느 정도 증가하고 있지만, 그 연관성이 그리 크지 않음을 알 수 있습니다. 이 경우 상관계수의 값은 0.75이며 X와 Y는 높은 양의 선형관계에 있다고 합니다.


상관계수 산점도 높은 양의 선형관계[상관분석과 산점도] 높은 양의 선형관계


3. X의 값이 감소함에 따라 Y의 값 또한 감소하고 있어 완벽한 직선의 형태를 나타내고 있습니다. 이 경우 상관계수의 값은 -1이며, X와 Y는 아주 높은 음의 선형관계에 있다고 합니다.


높은 음의 선형관계[상관분석과 산점도] 아주 높은 음의 선형관계


4. X의 값이 감소함에 따라 Y의 값도 어느 정도 감소하고 있지만, 그 연관성이 그리 크지 않음을 알 수 있습니다. 이 경우 상관계수의 값은 -0.6이며, X와 Y는 높은 음의 선형관계에 있다고 합니다.


높은 음의 선형관계 산점도[상관분석과 산점도] 높은 음의 선형관계


5. X와 Y의 값이 무작위 하게 나타나 산점도가 원에 가까운 형태를 나타내고 있습니다. 이 경우 상관계수의 값은 0이며, X와 Y는 무상관(uncorrelated)이라 합니다.


무상관 산점도[상관분석과 산점도] 무상관 uncorrelated


6. X와 Y의 값이 U자의 형태로 나타나 있지만 두 변수 사이 선형의 관계가 없으므로, 상관계수의 값은 0이 됩니다. 이 경우 X와 Y사이에서는 곡선의 관계가 의심됩니다.


곡선의 관계 의심 상관분석[상관분석과 산점도] 곡선의 관계 의심


상관분석 3종류와 산점도 6가지, 회귀분석 차이점

댓글