[기초 통계] 01 기본 개념
오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄
통계 기초와 적용 - 01 기본 개념
통계는 크게 2가지 범주로 나뉨
- 데이터를 요약하고 정리하는 기술통계
- 기술통계는 관찰된 데이터를 기술하는 것
- 사회현상을 예측하고 일반화하는 추론통계
- 데이터의 특성을 기초로 일반화하고, 추정 도는 예측하여 판단하는 것
- 성인남녀 1000명을 대상으로, 20세 ~ 49세를 대상으로 신을 믿는지 설문조사를 진행하였고, 이 중 24%가 믿는다고 답했을 때, 이 24%가 의미하는 바는 무엇일까?
- 새롭게 성인남녀 1000명을 대상으로 조사를 할 때마다, 24%, 30%가 믿는다고 나왔을때, 과연 1,000명만을 조사해서 얻는 결과를 전체 성인남녀를 대표할 수 있을까?
- 여기서 설문 대상의 수가 많으면 많을 수록 더 좋지 않을까?
- 데이터의 특성을 기초로 일반화하고, 추정 도는 예측하여 판단하는 것
필요한 통계적 용어
- 모집단(population): 전체 집합이라고 부르며, 관심이 대상이 되는 사람이나 사물 전체의 집합
- 표본(sample): 모집단의 부분집합
- 통계량(statistics): 모집단의 부분집합인 표본에서 측정된 특성이며, 평균, 중앙값, 최빈값 등의 대표성향(central tendency)을 말함
- 최빈값(mode): 가장 큰 빈도수를 가진 관측치
- 중앙값(median): 주어진 값을 순서대로 정렬했을 때, 가장 중앙에 위치하는 값
- 평균(mean):분포의 산술평균
- 모수(parameter): 모집단의 특성을 나타내는 수치이며 우리는 이러한 모집단의 모수를 알아내는 것이 목표가 될 것임.
-
측정 수준에 따른 변수의 구분
- 변수(variable) : 통계학에서의 변수는 연구, 조사, 관찰하고 싶은 대상의 특성을 의미
- 예를 들어,우리가 관심을 가지고 있는 ‘통계학 점수’를 측정하려고 한다면, 10점, 20점으로 점수를 측정할 수 있음. 하지만, 다양한 측정 수준에 따라서 변수를 측정할 수 있는데, 수치 그대로 점수로 변수를 측정할 수 있지만, 점수 수준을 상,중,하로 나눠서 응답을 받아 측정할 수도 있음.
- 명목척도(norminal scale): 수나 순서의 개념과는 상관 없이 분류하기 위한 목적으로 측정한 변수이며, 단순히 분류하는 것 이상의 의미는 없음.
- 예를 들어, 남녀(남자=1,여자=2), 지역, 학년(1학년=1,2학년=2,3학년=3,4학년=4) 등
- 서열척도(ordinal scale): 숫자나 수치와는 상관없이 단순하게 순서나 서열을 구분하기 위해 만들어진 척도. 단순히 구분을 하는 명목척도와 다르게, 순위에 대한 정보도 가지고 있음
- 예를 들어, 1등 2등, 3등, 금메달, 은메달, 동메달
- 등간척도(interval scale): 관찰대상의 속성을 상대적 크기로 나타낸 척도임. 측정대상에 순서가 있고, 그 사이의 간격은 같은 간격을 나타냄.
- 예를 들어, 아이큐가 100, 101과 같이 상대적 크기를 상대적으로 표현한 것
- 두번째 예시, 온도라는 것이 0도라고 한다면, 영상과 영하의 구분점이 되는 온도이지, 온도 자체가 “없다”라고 하는 것을 의미하지 않기 때문에 “절대 0”의 개념이 아님
- 비율척도(Ratio scale): 등간척도의 성질과 함께, 무의 개념인 0값도 가지고 있음.
- 월 소득은 0원도 존재할 수 있음. 길이, 무게, 부피 등
-
우리는 단순한 명목척도에서 비율 척도로가면서 더 많은 “정보”를 가지고 있는 것을 파악할 수 있음
-
통계 적용의 관점에서 봤을때, 이렇게 측정된 변수들의 척도는 중요하다. 왜냐하면, 변수들의 척도에 따라 적용할 수 있는 통계량(statistics)이 달라지기 때문이다.