일원분산분석 예제와 해석과 5가지 변동 (One way ANOVA)

일원분산분석 예제와 해석과 5가지 변동 (One way ANOVA)

일원분산분석. (One-way ANOVA)

여러 개의 모평균을 비교하는 실험에서 총 N개의 동질의 실험단위가 있고, 이것을 이용하여 서로 다른 k가지의 처리에 대한 효과의 차이를 일원분산분석으로 알아보고자 합니다. 이 N개의 실험단위를 크기가 n1, n2, ..., nk인 소그룹으로 임의로 나누고 각 소그룹에 서로 다른 처리를 하나씩 적용했다고 가정합시다.

이때 서로 다른 k개의 처리 효과를 파악하고자 합니다.

[One-way Anova] 분산분석 중 하나의 표본

위 자료에서 각 행은 서로 다른 처리를 한 하나의 표본을 의미합니다.

표본의 크기는 k개가 모두 같을 필요는 없으며 Yij는 i번째 처리의 모집단에서 추출한 j번째 표본 값을 말합니다. 주어진 자료에 대한 분석을 수행하기 위해서는 먼저 k개의 모집단과 각 표본에 대한 다음의 기본가정이 요구됩니다.

(1) 각 모집단은 정규분포를 따릅니다. 단 모집단이 정규분포를 따르지 않더라도 표본의 크기가 30개 이상인 대표본의 경우에는 분포의 형태가 무관합니다.

(2) 각 모집단은 a2를 공통분산으로 갖습니다.

(3) 각 모집단에서 추출된 표본들은 서로 독립인 확률표본입니다.

[ANOVA 분석 해석] 확률표본 그래프

위 일원분산분석을 위한 가설은

H0 : k개의 처리 효과가 모두 같다.

H1 : k개의 처리 효과가 모두 같지 않다.

그런데 서로 다른 k개의 처리 효과를 파악하는 문제는 k개의 모집단 평균을 비교하는 문제로 일반화할 수 있습니다. 그러므로 가설은 각 모집단의 평균을 각각 u1, ..., uk라 할 때 다음과 같이 나타낼 수 있습니다.

H0 : u1 = ... = uk

H1 : 모든 uj가 같지 않다.

먼저 관측값 Yij는 i번째 모평균 ui와 확률오차 Eij의 합으로 가정하여

[ANOVA 분석 해석] 관측값 Yij

로 표시합니다. Eij는 잔차를 나타내며 위의 기본가정에 의하여 이것은 서로 독립인 N(0, a2)의 확률변수입니다.

그런데 i번째 모집단의 평균은 전체평균과 그 모집단의 성분인 처리수준 효과의 합과 같다고 볼 수 있습니다.

[One-way Anova] i번째 모집단 평균

여기서 을 만족합니다.

따라서 위에서 세운 가설은 다시

[ANOVA 분석 해석] 가설 정리

와 같게 됩니다. 그리고 관측값 Yij에 대한 모형은 다시

[R 분석 예제] 관측값 Yij 모형

이 되며 위 모형을 일원분산분석의 모형(One-way ANOVA model)이라고 합니다.

다음으로 일원분산분석 모형을 이용하면 표본 관찰치는 다음과 같이 분리됩니다.

[One-way Anova] 표본관찰치

여기서 Y'는 u의 추정치이고, Yi'-Y'는 ai의 추정치이며, Yij-Yi'는 Eij의 추정치입니다. 다시 위 식을 변형하면

총편차는 처리 효과와 잔차 두 부분으로 나뉨

이므로 총편차는 처리 효과와 잔차 두 부분으로 나누어 설명될 수 있습니다.

변동(Variation)이란 각 관찰치가 그들의 평균치에 벗어난 값, 즉 편차를 제곱한 후에 모두 합한 것을 말합니다. 변동의 값이 크면 평균을 기준으로 하여 관찰치들의 변화가 크다는 것을 나타내며, 반대로 작으며 변화가 작다고 할 수 있습니다.

변동을 총변동, 그룹 간 변동, 그룹 내 변동의 세 가지 종류로 나누어 살펴보도록 하겠습니다.

[ANOVA 분석 해석] 총편차는 처리 효과와 잔차 두 부분으로 나뉨

(1) 총변동(Sum of Squares Total: SST)

각 관찰 값과 전체 표본 평균의 차이를 측정한 값이며 다음과 같이 계산합니다.

[R 분석 예제] 총변동 계산 방법

자유도는 총 표본의 크기 N-1입니다.

(2) 그룹 간 변동(Sum of Squares Between groups: SSB)

처리수준 평균들 사이의 차이 정도를 측정하는 값으로 평균차이가 클수록 SSB값은 커집니다. SSB는 처리 효과의 제곱 합이므로 이것은 처리의 수준들이 총변동 중에서 설명해 주고 있는 부분을 뜻합니다. 그래서 이것을 설명되는 변동이라고도 하며 다음과 같이 계산합니다.

[One-way Anova] 분산분석 그룹간 변동

자유도는 처리 수준의 수 k-1입니다.

(3) 그룹 내 변동(Sum of Squares Within groups: SSW)

각 처리수준 평균에 대한 관찰차들의 임의변동을 측정한 값으로 변동이 작을수록 SSW 값은 작아집니다. SSW는 처리수준에 대한 정보를 이용할 때 자료에 남아 있는 불확실성을 반영하는 것이며, 총변동 중에서 처리수준으로도 설명이 안 되는 변동입니다.

[ANOVA 분석 해석] 분산분석 그룹내 변동

자유도는 N-k입니다. 따라서,

[R 분석 예제] 총변동 = 그룹간 변동 + 그룹내 변동

이며 총변동은 그룹 간 변동과 그룹 내 변동의 합과 같습니다.

(4) 제곱평균

그런데 일원분산분석에서 변동, 즉 제곱의 합은 직접 사용되지 않습니다. 제곱의 합은 각 자유도로 나눠서 얻어진 값인 제곱평균으로 쓰입니다.

이것이 분산(Variance)의 개념과 같은 것입니다. 그룹 간 변동을 그의 자유도로 나눈 것을 그룹 간 제곱평균(Mean Squares Between groups: MSB)이라 하며, 그룹 내 변동을 그의 자유도로 나눈 것을 그룹 내 제곱평균(Mean Squares Within group: MSW)이라 하며 총변동은 제곱평균으로 나타내지 않습니다.

[ANOVA 분석 해석] 제곱평균