[기초 통계] 02 중심화 경향,분산도, 표준화

2 분 소요

오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄

통계 기초와 적용 - 02 중심화 경향,분산도, 표준화

중심화 경향

  • 자료가 주로 어떤 값에 모여 있는지를 나타내는 통계를 중심화 경향이라고 함
  • 실무에서 어떠한 관측치의 대표적인 성질을 파악하기 위해 산술평균, 중앙값,최빈값을 자주 이용함.
    • 평균(mean): 산술평균
    • 최빈값(mode): 가장 큰 빈도수를 가진 관측치
    • 중앙값(median): 데이터를 가장 작은 수치에서 가장 큰 수까지 나열한 후, 가운데 위치한 숫자가 중앙값
      • 만약, 관측된 데이터의 분포가 한쪽으로 쏠려 있을 경우, 중앙값이 해당 분포의 중심경향을 잘 나타낸다고 할 수 있음
      • 예를 들어, 월급이 100$,120$,130$,140$,1500$이라면, 사장님의 월급인 1500$는 흔히 말하는 이상치(outlier)이기 때문에 평균과 중앙값을 계산했을 때, 큰 차이가 발생함
      • 평균 = 398$, 중앙값 = 130$

Skewness

  • 위에서 예를 들은 월급과 같이, 관측된 데이터 분포가 어느 한쪽으로 쏠려 있는 정도를 말하며, 이를 수치로 나타낼 수 있음 image

분산도

  • 위에서 중심에 얼마나 모여 있는지를 파악하는 중심화 경향의 대표적인 예시를 살펴봄. 그렇다면 데이터 분포들이 가운데를 중심으로 양 옆으로 얼마나 퍼져 있는가는 어떻게 측정하는가? 다양한 측정 방법이 존재함

    • Range: (최대값 - 최소값) +1 을 통해 데이터 분포의 범위를 파악, 값을 계산하기 매우 편하지만 이상치(outliar)에 영향을 크게 받음

    • Average deviation

image

*여기서 편차(관측치 - 관측치의 평균)의 합은 항상 0이다. 따라서, 다음 식은 항상 0을 가지게 됨
  • Population Variance

    위의 식에서 편차를 제곱하여 전체 샘플수로 나누어주어서, 데이터의 퍼짐의 정도를 수치화함, 여기서 Sample Variance는 n-1로 나누어주는데, n-1로 나누어 주는 것이 표본분산이 불편추정량이 되도록 정의하기 위해서임. (자유도 개념은 나중에)

image

  • Standard deviation

    위에서 편차의 합은 0이기 때문에, 제곱을 해주었다. 이를 원래 Scale로 돌려놓기 위해서 Root를 씌워줌.

    즉, 어떤 데이터가 평균으로 부터 얼마나 떨어져 있는지를 파악할 수 있음.

    예를 들어, 어떤 특정 데이터가 표준편차가 크다라고 하면, 그 데이터가 평균에서 부터 많이 떨어져 있다로 해석할 수 있음.

image

  • 위에 서술한 방식 말고, 분산도를 정의하는 더 많은 방식이 존재하지만, 이 노트에서는 다음만 정의하도록 함.

Z-score

  • 이제 관측치를 대표하는 중심화 경향과, 분산도를 알아봤으니, 서로 다른 관측치의 분포를 가지고 있는 점수를 (쉽게) 비교하는 방법을 알아보자.

    • 상식적으로, 서로 다른 관측치로 부터 얻은 분포라면 다른 중심화 경향과 분산도를 가질 것이다. 그럼 우리는 어떻게 두 개의 분포를 비교할까? 이를 비교하기 위해 간단하게 두 분포를 똑같이 비교할 수 있도록 같은 수치의 범위 안으로 scaling 시키면 될 것이다. 이때 활용하는 것이 Z-score(Standard score)이다.

image

  • 그렇다면, 이 z-score가 의미하는 것은 무엇일까? 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 보여줌.

  • 만약 이 값이 음의 값을 갖는다면 평균 아래에 놓인 관측치라는 것을 의미함. 0의 값을 가지면, 그것은 평균을 의미함. Z-score = -1(평균으로 부터 -1 표준편차 떨어짐 )

  • 예를 들어, 두 분포에서 나온 관측치가 Z-score(1)= -1, Z-score(2) - 0.5를 가진다. 그렇다면, 첫번째 관측치가 평균으로 부터 두번째 관측치보다 더 평균 아래에 놓여 있다는 것을 파악할 수 있음.