t-분포

t-분포는 모집단의 표준편차를 알 수 없을 때 자유도 수로 정의되는 계량형 분포입니다. 예를 들어 t-분포의 용도 중 하나는 모집단의 평균과 가설 평균이 서로 다른지 검정하는 것입니다. 회귀 계수의 유의성 검정에도 t-분포를 사용합니다.

 

t-분포는 자유도 수에 의해 지정되는 계량형 분포입니다. 정규 분포와 비슷하지만 꼬리 부분이 더 두꺼운 종 모양의 대칭적인 분포입니다. 예를 들어, 다음 그래프는 자유도가 다른 t-분포들을 보여줍니다. 실선으로 표시된 t-분포의 자유도는 1입니다. 파선으로 표시된 t-분포의 자유도는 100입니다. 

 

 

 

 

t-test는 어떻게 하는가?

T-test를 하기 위해서는 몇 가지 조건이 필요하다. 크게 3 가지로 아래와 같다. 괄호에 넣은 건 무슨 말인지 몰라도 된다.

  1. 표본이 독립적인가? (t-test or paired t-test)
  2. 수집된 데이터가 정규 분포를 따르는가? (t-test or Wilcoxon text)
  3. 집단이 두 개 인가? (t-test or Anova)

표본이 독립적인가?

표본이 독립적이라는 말은 무슨 뜻인가? 바로 표본으로부터 측정한 관측치가 다른 표본에 의해 영향을 받지 않는 것을 의미한다. 조금 헷갈린다. 예를 들어서 설명해보자.

 

앞서 만든 새로운 키보드 레이아웃 A를 실험하기 위해 참가자 20명을 모았다. 10명은 새로운 키보드 라에아웃 A를 사용했고, 다른 10명은 기존 키보드 레이아웃을 사용했다. 이 경우에는 새로운 프로토타입을 사용한 집단과 기존 키보드 레이아웃을 사용한 집단의 관측치가 서로 영향을 받지 않는다. 즉 둘은 아무런 관계가 없다.

 

이번에는 20명을 뽑은 후에 실험을 이렇게 했다. 20명 모두에게 먼저 새로운 키보드 레이아웃 A를 사용하게 하고, 이후에 기존의 키보드 레이아웃을 사용하게 했다. 이렇게 되면 관측치가 영향을 받는다. 

 

즉 새로운 키보드 레이아웃을 먼저 사용했으니 이후에 기존 키보드 레이아웃을 사용할 때 A를 사용한 기억이 남아 자판이 헷갈려 오타를 더 많이 낼 수 있고 키 입력시간이 더 오래걸릴 수도 있다. 이 경우에는 표본이 독립되지 않았다고 한다.

 

t-test는 표본이 독립적인 경우에만 사용할 수 있다. 표본이 독립적이지 않다면 paired t-test를 사용한다. 그러면 모든 표본을 독립으로 맞추면 안돼? 라고 하지만 조사 요건상 오히려 paired t-test를 사용하는 경우가 더 많다는 건 함정이다.


수집된 데이터가 정규분포를 따르는가?

정규분포란 세상에서 일어나는 모든 일을 설명하는 핵심 개념이다.

p-value가 0.05보다 크면 t-test를 시행할 수 있다.


집단이 두개인가? (t-test or Anova)

 

복사했습니다!