본문 바로가기
C++ 200제/코딩 IT 정보

회귀분석 종속 변수 관계 - 단순 선형 최소자승법 (Regression Analysis)

by vicddory 2017. 3. 31.

1. 회귀분석이란?

회귀분석(Regression Analysis)은 이론이나 경험적 근거에 의해 설정된 종속변수와 독립 변수 간의 함수관계가 유의한지 알아보는 통계분석 방법입니다.


종속변수와 독립변수 사이의 함수는 매우 다양하지만, 일반적으로 다루기 편하고 해석하기 쉬운 선형함수의 형태를 고려하게 되는데 이런 이유로 회귀분석을 선형(Linear) 회귀분석이라 합니다. 선형함수가 아닌 회귀모형에 대한 분석을 비선형(Nonlinear) 회귀분석이라 합니다.

회귀모형의 형태에 따라 하나의 종속변수에 대해 독립변수가 하나인 경우를 단순회귀분석(Simple Regression Analysis), 반면에 하나의 종속변수에 대해 독립변수가 둘 이상인 경우를 다중회귀분석(Multiple Regression Analysis)이라 합니다.


회귀분석을 통해 다음을 알 수 있습니다.


(1) 종속변수와 독립변수 간에 선형관계가 존재하는지 알 수 있습니다.

(2) 종속변수에 영향을 미치는 독립변수가 유의 한지와 영향력의 정도를 알 수 있습니다.

(3) 추정된 회귀모형을 통해 종속변수의 예측치를 알 수 있습니다.



2. 단순선형회귀분석

단순회귀분석의 목적은 두 변수, 즉 하나의 독립변수와 하나의 종속변수 사이의 관계를 알아내는 것입니다.


예를 들어, 어느 대리점의 투자액과 매출액 사이의 관계를 생각해 볼 때 상식적으로 투자액이 많을수록 매출액은 증가하며, 반대로 투자액이 적을수록 매출액은 감소하는 경향을 가집니다.


이렇게 서로 관계를 갖고 있는 변수들 사이에는 다른 변수에 영향을 주는 변수가 있는 반면에 영향을 받는 변수도 있습니다. 이때 전자를 독립변수 또는 설명변수라 하며 후자를 종속변수라고 합니다. 위 예와 같이 투자액이 매출액에 영향을 미친다고 하면 투자액은 독립변수가 되고 매출액은 종속변수가 되는 것입니다.


투자액과 매출액에 대한 다음과 같은 8개의 대리점 자료가 있다고 가정해 봅시다.


회귀분석 가정회귀분석 가정


두 변수 사이의 관계를 알아보기 위해 자료를 산점도로 나타내면 아래와 같습니다.


회귀분석 산점도회귀분석 산점도


위 산점도를 통해 투자액이 많을수록 매출액도 많아진다는 것을 파악할 수 있습니다.

그리고 그 추세를 어느 정도 정확하게 추정하기 위해서 이 산점도 위에 일차 직선을 그을 수 있는데, 이 선을 회귀선(Regression Line)이라고 합니다.


위 그림에서 자료들이 직선 모양의 회귀선에 거의 몰려 있으므로 투자액과 매출액 사이의 관계를 선형함수로 파악할 수 있는 것입니다.


일반적으로 모집단에 대한 단순회귀모형은 다음과 같습니다.


모집단에 대한 단순회귀모형모집단에 대한 단순회귀모형


Xi : 독립변수 : X의 i번째 고정된 값

Yi : 독립변수 Xi에서 관측된 i번째 종속 변수

B0, B1 : 회귀선의 절편과 기울기

Ei : 오차이며 Ei ~ n(0, a2)


단순선형회귀분석에 앞서 단순선형회귀모형에서 요구되는 기본가정은 다음과 같습니다.


(1) 종속변수와 독립변수 간에는 선형의 관계가 존재한다.

(2) 오차항은 서로 독립이다 즉 서로 영향을 주지 않는다.

(3) 오차항은 정규분포를 따른다. (F-검정 방법을 이용하는 데 필요합니다.)

(4) 오차항의 분산은 같다. (이 가정은 주어진 독립변수의 값에서 종속변수의 분산이 일정하다는 의미입니다. 분산이 다르면 설정된 회귀모형이 적절하지만, 관측치가 직선에 모여 있지 않고 벗어나게 됩니다.)


위 단순선형회귀모형에서 보면 관찰치 Yi는 두 부분으로 구성되어 있습니다. 하나는 상수항 B0 + BiXi이고 다른 하나는 오차확률변수 Ei입니다. 따라서 Yi는 확률변수가 됩니다.


그리고 E(Ei) = 0이므로,


회귀분석회귀분석


그러므로 i번째 종속변수 Yi는 평균이 E(Yi) = B0 + B1Xi인 확률분포에서 나온 것입니다.


그리고 반응변수 Yi의 분산을 보면,


반응변수 Yi의 분산2반응변수 Yi의 분산2


입니다.


반응변수 Yi의 분산반응변수 Yi의 분산


선형회귀모형 E(Yi) = B0 + B1Xi에서 B0는 절편이고, B1은 기울기입니다.


직선의 모양은 B0과 B1의 값에 따라 달라지며, 이 값들은 모집단을 완전히 파악하지 않으면 알 수 없는 미지의 계수들입니다. 두 변수 간의 관계를 알기 위해서 두 계수를 구해야 합니다.


표본관찰치들로부터 구해진 회귀직선을


회귀직선회귀직선


라 하면, b0와 b1은 각각 B0와 B1의 추정치가 됩니다.


표본에 대하여 회귀모수 B0와 B1의 좋은 추정량을 구하기 위해 일반인 최소자승법(Ordinary Least Squares Method: OLS)을 이용할 수 있습니다.


최소자승법이란 잔차의 제곱의 합을 최소화시키는 b0와 b1의 값을 구하는 방법을 말하는 것으로 여기서 말하는 잔차란 실제 관찰치 Yi와 예측치 Yi사이의 차이값을 뜻하는 것입니다.


그러므로 잔차 ei는


잔차의 제곱 합잔차의 제곱 합


입니다.


최소자승법최소자승법


회귀분석 변수들 사이의 관계를 정확하게 기술하거나 예측을 하려면 이 잔차는 당연히 최소가 되어야 할 것입니다. 이것을 위해서 잔차제곱의 합잔차 제곱의 합을 최소화하는 b0와 b1의 값을 구하면 됩니다. 이를 위해 잔차제곱의 합을 Q라 놓으면,


잔차제곱의 합 Q잔차제곱의 합 Q


이 됩니다. 위 식을 b0와 b1에 대하여 편미분하고 그 결과를 0으로 놓으면,


편미분하고 결과를 0편미분하고 결과를 0


의 두 식을 얻으며, 이것을 정리하면,


두 식을 정리두 식을 정리


이 얻어지며 이 두 식을 정규방정식(Normal Equation)이라고 합니다.

이 정규방정식을 b0와 b1에 대하여 풀면 다음과 같습니다.


정규방정식 (normal equation)정규방정식 (normal equation)


최소자승법에 의하여 구해진 회귀직선은 다음과 같은 성질을 가지고 있습니다.


회귀직선의 성질회귀직선의 성질


아래 제대로 시작하는 기초통계학 11-1-1 단순 회귀분석 (개념, 특징)도 함께 보세요.



수고하셨습니다.



댓글