회귀분석 풀이 방법. 투자액과 매출액 예제

다음 자료를 통해 투자액과 매출액 사이의 회귀분석을 해 보도록 합시다.


회귀분석 풀이 예회귀분석 풀이 예


먼저 산점도를 통해 두 변수 사이에 선형의 관계가 있는지 알아봅니다. 데이터프레임의 Invest와 Sale 변수에 투자액과 판매액 데이터를 입력하고 아래 그림과 같이 선택합니다. 다음으로 메뉴에 있는 2D Plots 파레트를 선택하고 산점도(Scatter)를 클릭합니다.


회귀분석 산점도 선택회귀분석 산점도 선택


결과는 다음과 같습니다.


회귀분석 산점도 결과회귀분석 산점도 결과


투자액이 증가함에 따라 판매액도 증가하는 경향을 보이므로 두 변수 사이에는 선형의 관계가 있다 판단하고 회귀분석을 통해 회귀직선을 추정해 보도록 하겠습니다. 회귀분석을 위해 다음과 같이 차례로 S-PLUS 메뉴를 선택합니다.


Statistics 메뉴 선택 -> Regression 선택 -> Linear... 선택


아래와 같이 Linear Regression Model 대화상자가 뜨게 됩니다.


Linear Regression ModelLinear Regression Model


다음으로 자료가 회귀분석의 기본가정을 만족하는지 알아보기 위해 잔차의 산점도를 살펴보도록 하겠습니다. Linear Regression 대화상자에서 plot 대화상자로 옮겨 필요한 plot을 선택합니다.


플랏 선택플랏 선택


마지막으로 OK 버튼을 클릭하면 회귀분석 결과는 다음과 같습니다.


회귀분석 결과1회귀분석 결과1


회귀분석 결과2회귀분석 결과2


① 회귀계수 추정결과 y 절편인 b0가 2. 기울기인 b1이 3으로 최종 회귀모형은 아래와 같습니다.


Y = 2 + 3X


추정된 b0가 유의한지에 대한 t-검정 결과 p-값이 0.0002이므로 귀무가설 "H0:b1=0"은 유의수준 0.05에서 기각되며 추정된 기울기는 유의하다고 결론지을 수 있습니다.


② 추정된 회귀식이 어느 정도로 주어진 자료를 잘 설명하고 있는가를 알기 위한 R² 값은 일반적으로 0에서 1까지의 값을 가지며 1에 가까운 값을 가질수록 자료를 잘 설명하고 있다고 판단합니다. 위 결과에서는 R² 값이 0.9122로 1에 가까운 값을 나타내므로 판매액의 91%가 투자액에 의해 설명되고 있음을 알 수 있습니다.


③ 추정된 회귀식이 통계적으로 유의한가를 알아보는 F-검정 결과를 살펴보도록 하겠습니다. p-값이 0.0002 정도이므로 유의수준 0.05에서 귀무가설 H0: 회귀선은 유의하지 못하다는 강하게 기각됩니다.


④ 오차에 대한 기본가정 확인을 위한 잔차의 산점도를 살펴보면 우선 잔차들은 0을 중심으로 하고 있으며 그 폭도 어느 정도 일정한 구간에서 랜덤하게 퍼져있음을 알 수 있습니다. 이것은 잔차들의 평균이 0이고 분산이 일정하며 서로 독립임을 알 수 있습니다. 그러므로 모형에 대한 기본가정이 제대로 이루어졌음을 알 수 있습니다.


위와 같은 예제를 S-PLUS 프로그래밍을 통해 분석하는 방법은 다음과 같습니다.


산점도 그리기


plot (REG$Invest, REG$Sale, xlab="투자액", ylab="판매액")


- plot (...)

 plot 함수를 이용해 그래프를 작성합니다.


- REG$Invest

 산점도의 X축을 REG 데이터프레임의 Invest 변수로 합니다.


- REG$Sale

 산점도의 y축을 REG 데이터프레임의 Sale 변수로 합니다.


- xlab="투자액", ylab="판매액"

 산점도의 x축 이름을 투자액으로 y축을 판매액으로 합니다.


결과는 위의 산점도와 같습니다.


회귀분석


lm (formaula=REG$Sale~REG$Invest , ...)


- lm()‚

Im 함수를 이용해 회귀분석을 합니다.


- formula=REG$Sale~REG$Invest‚

 추정하고자 하는 회귀모형을 지정해 줍니다. "formula=종속변수~독립변수".

 독립변수가 많은 다중회귀의 경우 "formula=종속변수~독립변수1+독립변수2+... ".


- ...‚

이외의 옵션들을 추가합니다.

 : weight=‚ 개별 관측치에 가중치를 두고 싶은 경우

 : subset=‚ 주어진 모든 자료가 아닌 부분 자료에 대해 회귀분석을 하고 싶을 경우

 : na.action=‚ 결측치 처리 방법을 결정


결과는 아래와 같습니다.


분석결과 회귀모형분석결과 회귀모형


① 분석결과 회귀모형이 Y=2+3X임을 알 수 있습니다.

위 프로그래밍 결과는 회귀계수만 추정해 주는 간단한 분석결과를 제공해 줌으로 summary 함수를 이용하면 자세한 분석결과를 알 수 있습니다.


summary (lm (formaula=REG$Sale~REG$Invest , ...))


상세분석 결과상세분석 결과


잔차분석을 위한 산점도 그리기


lm <- summary (lm (formula=REG$Sale~REG$Invest))

plot (REG$Invest,Im$residuals)


-‚ lm <- ( ... )

분석결과를 lm변수에 저장


- plot (REG$Invest,lm$residuals)

 Im에서 잔차(residuals) 변수를 불러서 산점도 작성


결과는 위 산점도와 같습니다.

댓글(0)

Designed by JB FACTORY