Brady kim（阿金）

몰라요. 그래서 배우고 있어요.

[기초 통계] 02 중심화 경향,분산도, 표준화

April 10, 2022 2 분 소요

오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄

통계 기초와 적용 - 02 중심화 경향,분산도, 표준화

중심화 경향

자료가 주로 어떤 값에 모여 있는지를 나타내는 통계를 중심화 경향이라고 함
실무에서 어떠한 관측치의 대표적인 성질을 파악하기 위해 산술평균, 중앙값,최빈값을 자주 이용함.
- 평균(mean): 산술평균
- 최빈값(mode): 가장 큰 빈도수를 가진 관측치
- 중앙값(median): 데이터를 가장 작은 수치에서 가장 큰 수까지 나열한 후, 가운데 위치한 숫자가 중앙값
  - 만약, 관측된 데이터의 분포가 한쪽으로 쏠려 있을 경우, 중앙값이 해당 분포의 중심경향을 잘 나타낸다고 할 수 있음
  - 예를 들어, 월급이 100$,120$,130$,140$,1500$이라면, 사장님의 월급인 1500$는 흔히 말하는 이상치(outlier)이기 때문에 평균과 중앙값을 계산했을 때, 큰 차이가 발생함
  - 평균 = 398$, 중앙값 = 130$

Skewness

위에서 예를 들은 월급과 같이, 관측된 데이터 분포가 어느 한쪽으로 쏠려 있는 정도를 말하며, 이를 수치로 나타낼 수 있음

분산도

위에서 중심에 얼마나 모여 있는지를 파악하는 중심화 경향의 대표적인 예시를 살펴봄. 그렇다면 데이터 분포들이 가운데를 중심으로 양 옆으로 얼마나 퍼져 있는가는 어떻게 측정하는가? 다양한 측정 방법이 존재함
- Range: (최대값 - 최소값) +1 을 통해 데이터 분포의 범위를 파악, 값을 계산하기 매우 편하지만 이상치(outliar)에 영향을 크게 받음
- Average deviation

*여기서 편차(관측치 - 관측치의 평균)의 합은 항상 0이다. 따라서, 다음 식은 항상 0을 가지게 됨

Population Variance

위의 식에서 편차를 제곱하여 전체 샘플수로 나누어주어서, 데이터의 퍼짐의 정도를 수치화함, 여기서 Sample Variance는 n-1로 나누어주는데, n-1로 나누어 주는 것이 표본분산이 불편추정량이 되도록 정의하기 위해서임. (자유도 개념은 나중에)

Standard deviation

위에서 편차의 합은 0이기 때문에, 제곱을 해주었다. 이를 원래 Scale로 돌려놓기 위해서 Root를 씌워줌.

즉, 어떤 데이터가 평균으로 부터 얼마나 떨어져 있는지를 파악할 수 있음.

예를 들어, 어떤 특정 데이터가 표준편차가 크다라고 하면, 그 데이터가 평균에서 부터 많이 떨어져 있다로 해석할 수 있음.

위에 서술한 방식 말고, 분산도를 정의하는 더 많은 방식이 존재하지만, 이 노트에서는 다음만 정의하도록 함.

Z-score

이제 관측치를 대표하는 중심화 경향과, 분산도를 알아봤으니, 서로 다른 관측치의 분포를 가지고 있는 점수를 (쉽게) 비교하는 방법을 알아보자.
- 상식적으로, 서로 다른 관측치로 부터 얻은 분포라면 다른 중심화 경향과 분산도를 가질 것이다. 그럼 우리는 어떻게 두 개의 분포를 비교할까? 이를 비교하기 위해 간단하게 두 분포를 똑같이 비교할 수 있도록 같은 수치의 범위 안으로 scaling 시키면 될 것이다. 이때 활용하는 것이 Z-score(Standard score)이다.

그렇다면, 이 z-score가 의미하는 것은 무엇일까? 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 보여줌.
만약 이 값이 음의 값을 갖는다면 평균 아래에 놓인 관측치라는 것을 의미함. 0의 값을 가지면, 그것은 평균을 의미함. Z-score = -1(평균으로 부터 -1 표준편차 떨어짐 )
예를 들어, 두 분포에서 나온 관측치가 Z-score(1)= -1, Z-score(2) - 0.5를 가진다. 그렇다면, 첫번째 관측치가 평균으로 부터 두번째 관측치보다 더 평균 아래에 놓여 있다는 것을 파악할 수 있음.

공유하기

Twitter Facebook LinkedIn

참고

[기초 통계] 06 가설검증, 오류

April 15, 2022 2 분 소요

가설검증, 오류

[기초 통계] 05 추정과 신뢰구간

April 14, 2022 3 분 소요

통계 추정, 신뢰구간

[딥러닝 이해] 02 선형대수 기초

April 13, 2022 1 분 소요

선형결합,기약 사다리꼴,랭크, 가역

[기초 통계] 04 표본분포

April 13, 2022 1 분 소요

표본분포