[기초 통계] 05 추정과 신뢰구간

3 분 소요

오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄

통계 기초와 적용 - 05 추정과 신뢰구간

점추정

점추정은 알지 못하는 모집단의 모수에 대한 정보를 알아내기 위해, 모집단의 표본으로부터 도출한 하나의 값으로 모집단의 모수를 추정하는 것을 의미함.

  • 예를 들어, 하버드 입학생의 평균 SAT 점수를 50명을 무작위로 추출하여, 계산하였을 때 500이 나옴.
  • 이때 이 500으로 하버드 입학생 전체의 SAT 점수를 추정하는 것을 점추정이라고 함

하지만 이렇게 점추정을 하는 것은 많은 정보량을 갖고 있지 않고, 실제 모집단의 평균값과는 차이를 보일 수 있음. 따라서 우리는 신뢰구간을 구하여 구간추정을 할 것임

  • 하버드 입학생의 평균 SAT 점수는 490점에서 550점 사이에 있을 가능성이 95%라는 식으로 표현

구간추정

image

표본의 크기가 충분히 클 경우, 표본분포의 평균은 모집단의 평균과 같고, 정규분포를 따른다는 것을 앞에서 정리하였음.

따라서 우리는, 정규분포의 특징을 통해 표본분포의 95%는 모평균을 중심으로 양쪽으로 1.96배의 표준편차 내에 존재한다는 것을 알 수 있음.

그런데 우리는 여기서 모평균을 모른다는 문제가 있음. 따라서 Sampling하여 추출한 표본 평균을 이용해야 하는데 이때, +-1.96배 표준오차의 중심을 모평균이 아니라, 우리가 추출한 표본의 평균 x̄ 를 중심으로 생각해보자

image

이렇게 +-1.96배 표준오차의 중심을 x̄ 로 바꾸어서 구간을 구하게 되면, 해당 구간에 모평균이 포함될 수 있음(위의 그림에서는 모평균 u가 x̄ 중심 +-1.96배 표준오차 구간에 포함, 포함이. 실제로 포함이 안될 수도 있음 )

아래의 그림과 같이 계속해서 샘플링을 진행하여 표본 추출을 진행했을때 만들어지는 구간에 모평균이 95번의 빈도수로 1.96표준오차 구간에 포함된다는 의미로 해석할 수 있음. (앞으로 95% 신뢰구간이라고 표현하겠음)

img

출처: minitab

위에서 +-1.96배 표준오차의 중심을 x̄ 로 바꾸어서 구간을 구한다고 하였다. 그럼 구간을 구하는 식은 어떻게 유도하는가?

정규분포의 특징 : 95%(0.95)는 평균을 중심으로 양쪽으로 1.96배의 표준편차 내에 존재” 에서 부터 시작하자. 여기서 Z는 앞에서 설명한 Z-score이며, σ는 0.05%라고 두자 (Zσ/2=1.96)

image

이렇게 우리는 추출한 표본을 중심으로 95%에 해당하는 분포의 구간을 구할 수 있음.

예시

하버드 생 하루 일주일 공부 시간을 조사하는데 표준편차가 6시간이라고 알려짐.

학생 50명을 추출하였을 때, 표본평균이 25시간이었다. 하버드 생의 일주일 공부 시간에 대한 99% 신뢰구간을 추정하라.

image

구간의 너비

  • 위의 예시에서 구한 구간의 넓이가 0시간부터 100시간이라고 해보자. 그렇다면 유용한 정보를 제공하지 못함.
  • 이렇게 구간의 너비가 너무 넓다면, 추정하는데 의미가 없음.
  • 그렇다면 구간의 너비를 결정하는 요인은 무엇일까?
  • 구간의 너비는 (1) 신뢰수준(confidence level, alpha level) (2) 표준편차(standard deviation) (3) 표본크기(sample size)의 함수로 표현할 수 있음

image

표본 크기

위에서 말한것 처럼 구간의 너비는 (1) 신뢰수준(confidence level, alpha level) (2) 표준편차(standard deviation) (3) 표본크기(sample size)의 함수로 표현할 수 있음.

따라서 표본크기를 설정하면 신뢰구간의 너비를 통제할 수 있을 것이다. 따라서 목표 너비를 미리 설정하면 그에 따른 표본 크기를 계산할 수 있음.

image

하지만, 표준편차를 알고 있어야 하기 때문에 한계점이 있음.

T 분포

  • 대부분의 경우, 모집단의 표준편차는 알려져 있지 않음. 따라서 표본의 표준편차를 이용한다.

  • 이때 활용하는 분포가 t분포임. t분포는 정규분포와 카이제곱분포를 이용해서 정의됨 따라서 정규분포 모집단을 가정함. 하지만 표본이 어느정도 클 경우, 정규분포가 아닌 경우에도 t분포를 활용할 수 있음(t분포의 robustness)
  • 본 정리에서는 이러한 t분포의 정의보단, 이를 어떻게 적용하는지 집중하기로 함

  • 활용방법은 Z-검정을 했을때와 똑같다. 다만 여기서 자유도라는 개념이 등장하는데, 자유도는 표본에서 -1를 빼준다만 알고 있자.

  • 하버드 학생들의 평균 주 공부시간을 조사하고자 함. 83명의 표본을 선정해서 주 공부시간을 계산했고, 이때 평균은 15.02고 표준편차는 68.98임. 이때, 전체 하버드 학생의 평균 1주 공부시간에 대한 95% 신뢰구간을 추정하시오.

image

T 분포를 활용한 신뢰구간

  • 하버드 학생들의 평균 주 공부시간을 조사하고자 함. 83명의 표본을 선정해서 주 공부시간을 계산했고, 이때 평균은 15.02고 표준편차는 68.98임. 이때, 전체 하버드 학생의 평균 1주 공부시간에 대한 95% 신뢰구간을 추정하시오.

    image

  • 이때, T-value는 어떻게 보나? T-value는 수학자/통계학자들이 열심히 구해 놓음. 가져다 쓰자.

    image

df = n-1. 즉 82이기 때문에 이때, two tail(양측 검증)에서 95%에 해당하는 1.9893을 찾아서 위의 식에 곱해주면 된다. 양측 검증, 단측 검증은 가설검증 시간에 배워보자

T-value 값은 다음 사이트에서 확인

https://www.tutorialspoint.com/statistics/t_distribution_table.htm

신뢰구간과 정확도

image

신뢰구간을 좁히는 것은 조금 더 정확하게 대상을 추정할 수 있기 때문에 더 바람직하다. 그럼 어떻게 신뢰구간을 좁힐까?

신뢰구간을 구하는 식에서 신뢰구간의 너비에 영향을 주는 것은 n값과 t critical value인 것을 알 수 있음.

따라서 신뢰구간을 좁히려면 2가지 방법이 존재함.

  • n의 개수를 높임
  • t critical value값을 줄임(유의 수준을 변경 5%->10%)