Summarizing Data into Descriptive Statistics

자료는 측정가능하거나 셀 수 있는 측정형 자료(Measurable Data)와 개체 또는 집단을 분류하는데 사용하는 범주형 자료 (Categorical Data)로 구분된다. 측정형 자료는 양적자료 (Quantitative Data)라고도 하며, 양적자료는 이산형 자료(Discrete Data)와 연속형 자료(Continuous Data)로 구분할 수 있다. 범주형 자료는 질적자료(Qualitative Data)라고도 한다. 원자료를 수집하고 나면 많은 경우 자료의 양이 너무 많기 때문에 모집단의 특성 및 형태를 파악하기 ㅜ이해 자료를 정리 또는 요약할 필요가 있다. 자료의 종류에 따라 자료를 정리하고 요약하는 방법, 확률모형의 설정, 추정과 검정 등이 달라진다. 범주형 자료는 빈도분석, 교차표, 막대그래프 등을 이용하여 자료를 요약할 수 있으며, 측정형 자료는 도수분포표, 히스토그램, 줄기와 잎그림, 상자와 수염 그림 등을 이용하여 자료를 요약할 수 있다.

도수분표표

도수분포표는 수집된 양적 자료의 관측치들을 각 계급으로 구분하여 계급의 구간에 포함되는 관측치들의 빈도수를 꼐급별로 정리한 표이다.


기초통계량

대표값

대표값은 중심위치의 측도로서 자료의 중심적인 경향이나 자료분포의 중심위치를 나타내는 수치로 주어진 자료들을 대표하는 특정한 값이다. 대표값으로 주로 사용되는 통계량은 산술평균 기하평균 조화평균 평방평균 절사평균 중위수 최빈수 등이 있다.


산술평균(AM Arithematic Mean)

중심적 경향을 나타내 주는 대표값 중에서 가장 보편적으로 사용되는 산술평균은 모든 관측값을 관측값의 총 개수로 나누어 준 값이다. 산술 평균은 줄여서 평균이라고도 하며 이상치에 영향을 많이 받는다는 단점이 있다. 일반적으로 변수 X에 대해 n개의 관측값이 \(x_1, x_2, ..., x_n\)이라 할 때, 산술평균 \(\bar{x}\)는 합산기오 \(\sigma\)를 이용하여 다음과 같이 표현한다.


기하평균

기하평균은 여러 개의 수를 연속으로 곱해 그 개수의 거듭제곱근으로 구한 값이다. 흔히 시간적으로 변화하는 비율 (인구성장률, 물가변동률) 등의 대표값 산정에 많이 쓰인다. 일반적으로 변수 X에 대해 n개의 관측값이 이라면 기하평균은 다음과 같이 계산한다.


조화평균

조화평균은 각 관측값들에 대한 역수의 산술 평균한 값의 역수를 구한 값이다. 흔히 시작넉으로 계속 변화하는 속도를 계산하는데 사용한다. 일반적으로 변수 


산술평균 기하평균 조화평균의 관계


절사평균


중위수


Measure of Dispersion

산포도는 중심위치로부터 자료들이 흩어져 있는 정도를 나타내는 척도이다. 즉, 산포도란 개개의 관측값이 중심위치로부터 얼마만큼 떨어져 있는지를 나타내며, 관측값들이 중심위치로부터 흩어져 있는 정도를 나타낸다. 산포도로 주로 사용되는 통계량은 범위, 사분위 범위, 평균절대편차, 분산, 표준편차 등이 있다.


범위

범위는 주어진 자료의 최대값에서 최소값을 뺀 값이다. 


사분위 범위



Post a Comment

0 Comments