R 프로그래밍, 두 모집단의 평균 구하기, 비교하기

R 프로그래밍, 두 모집단의 평균 구하기, 비교하기


문제

두 모집단에서 나온 표본이 각각 하나씩 있다. 여러분은 두 모집단의 평균이 같을 수도 있는지 알고 싶다.


해결책

t.test 함수를 호출해서 t 검정을 수행한다.


1
> t.test(x, y)
cs


t.test는 기본 설정으로 여러분의 데이터가 서로 대응되지 않는다고 가정한다.

만약 관측들이 대응하고 있다면(다시 말해, 각각의 Xi가 하나의 Yi와 묶여 있다면), paired=TRUE라고 명시해 주면 된다.


1
> t.test(x, y, paired=TRUE)
cs


두 경우 모두 t.test는 p-값을 계산해줄 것이다.


통상적으로 p < 0.05라면 평균은 다를 개연성이 크고, 반대로 p > 0.05라면 그러한 증거가 없다.


- 만약 둘 중 하나의 표본이라도 크기가 작으면, 모집단들은 정규분포를 따라야 한다. 여기서 '작다'는 의미는 20개의 데이터점 미만을 뜻한다.


- 만약 두 모집단의 분산이 같다면, var.equal=TRUE라고 명시해서 조금 덜 보수적으로 검정을 수행할 수 있다.


정규분포 그래프정규분포 그래프


논의

나는 t 검정을 사용해서 두 모집단 평균 사이의 차이를 대충 알아보곤 한다. 그러려면 표본들이 충분히 크거나(두 개의 표본 모두 20개 또는 그 이상의 관찰) 근본적으로 모집단이 정규분포를 따라야 한다. 사실 '정규분포' 부분을 그렇게 심각하게 받아들이지 않아도 된다. 종모양이기만 하면 충분하다.


여기서 중요하게 구분해야 할 점이 있다. 여러분의 데이터가 대응하는 관찰들로 되어있는가 아닌가로, 두 경우의 결과는 달라질 수 있다. 아침에 마시는 커피가 SAT 시험 점수를 향상하는지 알고 싶다고 하자.


우리는 두 가지 방법으로 실험을 진행할 수 있다.


1. 사람들을 한 집단 랜덤으로 선택한다. 그들에게 SAT 시험을 두 번 보게 하면서, 한 번은 아침에 커피를 주고 한 번은 주지 않는다. 각각의 사람에 대해서 우리는 두 번의 SAT 점수 데이터가 생긴다. 이것이 '대응 관찰들'이다.


2. 사람들을 두 집단 랜덤으로 선택한다. 한 집단에는 아침에 커피를 주고 SAT 시험을 보게 한다. 다른 집단은 그냥 시험을 보게 한다. 우리는 각 사람에 대해 한 번씩의 점수를 얻어냈지만, 그 점수들은 어떤 면에서도 서로 묶이지 않는다.

통계적으로 볼 때, 이 실험들 사이에는 상당한 차이가 있다.


실험 1번에서는 각각의 사람에 대해서 두 개의 관측이 있고(카페인과 무카페인) 그것들은 통계적으로 독립되지 않았다. 그러나 실험 2번에서 데이터는 서로 독립적이다.


만약 여러분이 대응 관측 데이터를 가지고 있는데(실험 1) 대응 관측이 아닌 것으로(실험 2) 잘못 분석했다면, 다음과 같이 p-값은 0.9867이라는 결과가 나온다.


1
2
3
4
5
6
7
8
9
10
11
12
> t.test(x, y)
 
       Welch Two Sample t-test
 
data:  x and y
= -0.0166, df = 198, p-value = 0.9867
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -30.56737  30.05605
sample estimates:
mean of x mean of y
 501.2008  501.4565
cs


큰 p-값은 집단들 사이에 차이가 없다는 결론을 내리게 한다.


R 프로그래밍, 두 모집단의 평균 구하기, 비교하기


같은 데이터를, 대응된 데이터라고 제대로 구별해주고 나서 분석한 것과 대조해 보자.


1
2
3
4
5
6
7
8
9
10
11
12
> t.test(x, y, paired=TRUE)
 
       Paired t-test
 
data:  x and y
= -2.3636, df = 99, p-value = 0.02005
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4702824 -0.0410375
sample estimates:
mean of the differences
             -0.2556599
cs


p-값은 0.02005로 확 떨어지며, 우리는 정반대의 결론을 내릴 수 있다.


더 알아보기

모집단이 정규분포(종 모양)로 되어있지 않거나 표본이 작은 경우에는, Wilcoxon-Mann-Whitney 검정을 고려해 보자.


R Cookbook, 폴 티터, 인사이트

R 프로그래밍, 두 모집단의 평균 구하기, 비교하기

댓글(0)

Designed by JB FACTORY