모집단의 분산

모집단에서 표본은 뽑았다.

이 표본의 분산을 구할 때는 n이 아닌 n-1로 나눠준다.

그 이유에 대해 알아보자

 

불편추정량 때문이고, 결과적으로는 자유도와 연결된다.

 

면저 용어 설명부터 가자.

 

자유도는 독립변수의 개수를 의미한다.

예를 들어 x + y + z = 3 이라는 방정식이 있을 때, 독립변수가 3개 인 것처럼 보이지만 실제로는 그렇지 않다.

x, y가 1과 0으로 결정되었다면 z = 2를 갖게 된다. z는 종속변수인 것이다. 따라서 이 방정식의 독립변수는 2개이고 자유도는 2가 된다.

 

이번에는 불편추정량에 대해 알아보자. 불편추정량의 '편'이란 글자는 '편의'이다.

영어로는 bias이다. 불편추정량은 '편의가 없는 추정량' 이라는 뜻이다.

이제 '편의'가 무슨 의미인지 알아야 한다. 이해를 돕기위해 모집단에서 표본을 뽑는 상황을 가정해보자.

 

우리는 이 표본을 가지고 모수를 추정하게 된다. 모집단의 평균은 표본평균의 평균으로 추정하고, 모집단의 분산은 표본분산의 평균으로 추정하게 되는데, 이렇게 평균으로 모수를 추정하는 값들을 '추정량'이라고 부른다. 여기서 추정량은 '표본평균', '표본분산' 이다. 이 추정량과 실제 모수와의 차이가 '편의'이다. 불편추정량, 즉 편의가 없는 추정량은 그 기댓값이 모수와 동일한 추정량이라는 뜻이 된다.

 

표본평균의 평균은 모집단의 평균과 같다.

따라서 표본평균은 불편추정량이다.

 

표본 분산은 n-1로 나눠서 계산해야 그 평균이 모집단의 분산과 같다.

표본분산을 '불편추정량'으로 만들어 주기 위해 n-1로 나눈 것이다.

 

이번에는 불편추정량과 자유도가 어떤 관계를 갖는지 살펴보자.

크기가 n인 표본을 뽑았다고 가정하고 표본의 평균과 분산을 구하는 수식을 써보자.

표본의 평균이 a로 정해진 상황에서 분산을 구하게 된다.

표본평균이 a로 정해지는 순간 X1 ~ Xn 중 n-1개가 정해지면 나머지 하나는 종속정으로 정해지게 된다.

따라서 표본분산을 구할 때 자유도는 n-1이 된다.

 

따라서 이런 논리적 인과관계를 갖게 된다.

 

표본분산을 불편추정량으로 만들기 위해서 n-1로 나누게 된다.

그런데 n-1로 나눠주고 보니 표본분산의 자유도와 같았다.

'✏️ Mathemathics > Statistics and Probability' 카테고리의 다른 글

p-value  (0) 2020.03.23
단순 선형 회귀분석  (1) 2020.03.23
감마 분포 (Gamma Distribution)  (0) 2020.03.17
지수분포 (Exponential Distribution)  (0) 2020.03.16
균등 분포 (Uniform Distribution)  (0) 2020.03.16
복사했습니다!