분산분석, 일원분산분석, 다중비교 설명

☆ 분산분석이란?


두 모평균의 차에 대한 검정에서는 각 모집단을 정규분포로 가정하고 여기서 추출된 확률표본을 기초로 하여 두 모평균의 차이를 확인하는데 tㅡ검정을 사용하였습니다. 이번에는 모집단의 수가 셋 이상인 경우에 tㅡ검정을 이용하여 모평균을 비교해 보도록 합시다.


2개씩 짝을 지어 5개의 표본평균 들을 대상으로 유의수준이 5%인 tㅡ 검정을 10번 실시한다고 가정합시다. 실제로 이 평균들 간에 차이가 없을 때, 옳은 결론에 도달할 수 있는 확률은 한 쌍에서 0.95씩이므로 10번의 tㅡ 검정이 올바른 결론에 도달할 수 있는 확률은 0.95의 10승이 됩니다.


바꾸어 말하면 이 중 적어도 어느 하나의 검정이 잘못된 결론을 내리게 될 확률 즉, 유의수준이 이나 되는 셈입니다. 그러므로 이처럼 모집단의 수가 셋 이상이면 tㅡ 검정이 아닌 여러 모집단을 총괄적으로 분석할 수 있는 분산분석(Analysis of Variance, ANOVA)이라는 일반화된 분석기법을 사용합니다.


일반적으로 모든 실험은 여러 가지 요인에 의해 영향을 받습니다. 자연과학 실험이라 하더라도 온도 습도 기압 등과 같은 실험환경에 따라 서로 다른 결과가 나올 수 있습니다. 이러한 실험환경은 의도되어 있는 경우도 있고 통제할 수 없는 경우도 있습니다.


분산분석은 이러한 실험에서 관측된 변동량을 분산의 개념으로 파악한 다음, 이러한 분산을 설명할 수 있는 요인에 기인하는 부분과 우연히 발생하여 설명할 수 없는 요인에 기인하는 부분으로 구분하여 비교함으로써 각 요인의 영향력 유무에 대한 판정을 시도하는 것이라고 할 수 있습니다.


분석방법에 따라 인자(Factor)가 한 개일 때 일원분산분석(One-way Analysis of Variance), 인자가 두 개일 때 이원분산분석(Two-way Analysis of Variance), 관측하는 변수가 한 개일 때 단변량 분산분석(Analysis of Variance, ANOVA), 두 개 이상일 때 다변량 분산분석(Multivariate Analysis of Variance, MANOVA)이라 합니다.


<분산분석과 회귀분석의 차이점>

회귀분석은 독립변수와 종속변수 모두가 등간, 비율 척도로 측정된 양적 변수여야 하지만 분산분석은 독립변수가 양적 변수가 아닌 명목, 순서척도로 측정된 질적 변수여야 합니다.


☆ 일원분산분석 2. (One-way ANOVA)


여러 개의 모평균을 비교하는 실험에서 총 N개의 동질의 실험단위가 있고, 이것을 이용하여 서로 다른 k가지의 처리에 대한 효과의 차이를 알아보고자 합니다. 이 N개의 실험단위를 크기가 n1, n2, ..., nk인 소그룹으로 임의로 나누고 각 소그룹에 서로 다른 처리를 하나씩 적용했다고 가정합시다. 이때 서로 다른 k개의 처리 효과를 파악하고자 합니다.


분산분석 중 하나의 표본분산분석 중 하나의 표본


위 자료에서 각 행은 서로 다른 처리를 한 하나의 표본을 의미합니다. 표본의 크기는 k개가 모두 같을 필요는 없으며 Yij는 i번째 처리의 모집단에서 추출한 j번째 표본 값을 말합니다. 주어진 자료에 대한 분석을 수행하기 위해서는 먼저 k개의 모집단과 각 표본에 대한 다음의 기본가정이 요구됩니다.


(1) 각 모집단은 정규분포를 따릅니다. 단 모집단이 정규분포를 따르지 않더라도 표본의 크기가 30개 이상인 대표본의 경우에는 분포의 형태가 무관합니다.

(2) 각 모집단은 a2를 공통분산으로 갖습니다.

(3) 각 모집단에서 추출된 표본들은 서로 독립인 확률표본입니다.


확률표본 그래프확률표본 그래프


위 분석을 위한 가설은


H0 : k개의 처리 효과가 모두 같다.

H1 : k개의 처리 효과가 모두 같지 않다.


그런데 서로 다른 k개의 처리 효과를 파악하는 문제는 k개의 모집단 평균을 비교하는 문제로 일반화할 수 있습니다. 그러므로 가설은 각 모집단의 평균을 각각 u1, ..., uk라 할 때 다음과 같이 나타낼 수 있습니다.


H0 : u1 = ... = uk

H1 : 모든 uj가 같지 않다.


먼저 관측값 Yij는 i번째 모평균 ui와 확률오차 Eij의 합으로 가정하여


관측값 Yij관측값 Yij


로 표시합니다. Eij는 잔차를 나타내며 위의 기본가정에 의하여 이것은 서로 독립인 N(0, a2)의 확률변수입니다. 그런데 i번째 모집단의 평균은 전체평균과 그 모집단의 성분인 처리수준 효과의 합과 같다고 볼 수 있습니다.


i번째 모집단 평균i번째 모집단 평균


여기서 을 만족합니다.


따라서 위에서 세운 가설은 다시


가설 정리가설 정리


와 같게 됩니다. 그리고 관측값 Yij에 대한 모형은 다시


관측값 Yij 모형관측값 Yij 모형


이 되며 위 모형을 일원분산분석의 모형(One-way ANOVA model)이라고 합니다.


다음으로 분산분석 모형을 이용하면 표본 관찰치는 다음과 같이 분리됩니다.


표본관찰치표본관찰치


여기서 Y'는 u의 추정치이고, Yi'-Y'는 ai의 추정치이며, Yij-Yi'는 Eij의 추정치입니다. 다시 위 식을 변형하면


총편차는 처리 효과와 잔차 두 부분으로 나뉨총편차는 처리 효과와 잔차 두 부분으로 나뉨


이므로 총편차는 처리 효과와 잔차 두 부분으로 나누어 설명될 수 있습니다.


변동(Variation)이란 각 관찰치가 그들의 평균치에 벗어난 값, 즉 편차를 제곱한 후에 모두 합한 것을 말합니다. 변동의 값이 크면 평균을 기준으로 하여 관찰치들의 변화가 크다는 것을 나타내며, 반대로 작으며 변화가 작다고 할 수 있습니다. 변동을 총변동, 그룹 간 변동, 그룹 내 변동의 세 가지 종류로 나누어 살펴보도록 하겠습니다.


총편차는 처리 효과와 잔차 두 부분으로 나뉨총편차는 처리 효과와 잔차 두 부분으로 나뉨


(1) 총변동(Sum of Squares Total: SST)

각 관찰 값과 전체 표본 평균의 차이를 측정한 값이며 다음과 같이 계산합니다.


총변동 계산 방법총변동 계산 방법


자유도는 총 표본의 크기 N-1입니다.


(2) 그룹 간 변동(Sum of Squares Between groups: SSB)

처리수준 평균들 사이의 차이 정도를 측정하는 값으로 평균차이가 클수록 SSB값은 커집니다. SSB는 처리 효과의 제곱 합이므로 이것은 처리의 수준들이 총변동 중에서 설명해 주고 있는 부분을 뜻합니다. 그래서 이것을 설명되는 변동이라고도 하며 다음과 같이 계산합니다.


분산분석 그룹간 변동분산분석 그룹간 변동


자유도는 처리 수준의 수 k-1입니다.


(3) 그룹 내 변동(Sum of Squares Within groups: SSW)

각 처리수준 평균에 대한 관찰차들의 임의변동을 측정한 값으로 변동이 작을수록 SSW 값은 작아집니다. SSW는 처리수준에 대한 정보를 이용할 때 자료에 남아 있는 불확실성을 반영하는 것이며, 총변동 중에서 처리수준으로도 설명이 안 되는 변동입니다.


분산분석 그룹내 변동분산분석 그룹내 변동


자유도는 N-k입니다. 따라서,


총변동 = 그룹간 변동 + 그룹내 변동총변동 = 그룹간 변동 + 그룹내 변동


이며 총변동은 그룹 간 변동과 그룹 내 변동의 합과 같습니다.


(4) 제곱평균

그런데 분산분석에서 변동, 즉 제곱의 합은 직접 사용되지 않습니다. 제곱의 합은 각 자유도로 나눠서 얻어진 값인 제곱평균으로 쓰입니다. 이것이 분산(Variance)의 개념과 같은 것입니다. 그룹 간 변동을 그의 자유도로 나눈 것을 그룹 간 제곱평균(Mean Squares Between groups: MSB)이라 하며, 그룹 내 변동을 그의 자유도로 나눈 것을 그룹 내 제곱평균(Mean Squares Within group: MSW)이라 하며 총변동은 제곱평균으로 나타내지 않습니다.


제곱평균제곱평균


(5) 검정통계량

위에서 설명한 모집단과 표본의 기본 가정하에서, 통계량 F *은 자유도가 (k-1, N-k)인 F분포를 따릅니다. 즉,


제곱평균제곱평균


위의 식처럼 F *값을 결정하는 데에는 MSB가 큰 역할을 하게 됩니다. MSB가 커지면 MSW는 작아지고 따라서 F *값이 커져서 귀무가설을 기각시키게 됩니다.


MSB가 크다는 의미는 그룹들 간의 변동차이가 심해서 각 처리수준의 평균들이 같다고 보기 어렵기 때문입니다. 반대로 MSB가 작으면 각 처리수준의 평균들이 같다고 볼 수 있어서 귀무가설을 채택하게 될 것입니다.


따라서 유의수준 a로 주어진 가설을 검정하는 경우, 표본에 의하여 계산된 통계량 F *값이 귀무분포인 F(k-1, N-k) 값보다 작으면 귀무가설을 채택하게 되고 반대이면 귀무가설을 기각하고 처리 집단 간에는 차이가 있다는 결론을 지을 수 있습니다.


위 내용으로 분산분석표(ANOVA Table)를 만들 수 있는데, 이 표는 가설검정을 위하여 여러 가지 계산과정을 간단하게 알아볼 수 있도록 한 것입니다.


분산분석표 - 가설검정분산분석표 - 가설검정


☆ 다중비교(Multiple Comparison)


검정결과 귀무가설이 기각된 경우 적어도 두 그룹의 모평균이, 다시 말하여 두 개의 처리 효과가 같지 않다는 결론을 내리는 경우가 있습니다. 하지만 분산분석에서는 모평균들이 어떻게 다른지에 대해서는 구체적으로 설명하지 못합니다. 따라서 이러면 이 모평균 사이의 크고 작음을 구체적으로 설명하는 개별 비교의 분석이 요구됩니다.


(1) Scheffe의 검정

Scheffe는 여러 개의 대비를 동시에 비교하거나 혹은 표본이 서로 다를 때 유용한 검정법입니다. 가장 보수적으로 검정이 이루어지므로 비교적 높은 신뢰도를 인정받고 있습니다.


(2) Tukey의 검정

Tukey는 집단의 크기가 같은 경우에 사용하는 것이 바람직하며 모든 가능한 두 평균 간의 비교에 유용합니다. 대체로 보수적인 검정이 이루어진다는 특성이 있습니다.


(3) Duncan (Duncan's Multiple Range Test)의 다중범위 검정

Duncan은 보수적으로 검정이 이루어지는 Scheffe 혹은 Tukey에 비해 비교적 귀무가설을 잘 기각시키는 것으로 평가되고 있습니다. 그러나 Duncan의 다중 비교법이 모평균의 차이가 있다는 귀무가설을 잘 기각하기는 하나, 그런 만큼 옳지 않은 결론을 내릴 오류의 확률 또한 커진다는 점을 인식해야 합니다.

신고

이 글을 공유하기

댓글(0)

Designed by JB FACTORY