반응형
- 위치 척도
- 변동성 척도
위치 척도
- 표본으로부터 계산된 척도는 표본 통계량이라 한다.
- 모집단으로부터 계산된 척도는 모집단 모수라고 한다.
- 표본통계량은 모집단 모수에 대한 점추정치이다.
- 평균
- 위치에 대해 가장 중요한 통계량은 평균이다.
- 평균은 자료의 중심위치를 측정한다.
- 평균은 모든 자료의 평균이다.
- 표본 평균 x는 모평균 u의 점추정량이다.

- 중앙값
- 중앙값은 자료를 작은 것부터 큰 것으로 순서대로 나열할 때 중앙에 있는 값이다.
- 자료가 극단값이 존재할 때, 중심위치 척도로 중앙값이 선호된다.
- 연봉이나 재산의 중심위치로 중앙값이 사용된다.
- 소수의 고액 연봉이나 재산은 평균을 상승시킨다.
- 자료의 개수가 홀수라면 중앙값은 가운데 있는 값 짝수 라면 가운데 두 개 값의 평균
- 최빈수
- 최빈수는 가장 도수가 많은 값이다. (가장 많이 나타나는 값)
- 최빈수는 두 개 이상 나타날 수 있다.
- 최빈수가 두 개 라면, 바이모달(bimodal)이라고 하고
- 최빈수가 세 개 이상이라면, 멀티모달이라고 한다.

- 가중평균
- 어떤 경우에는 각 자료에 다른 가중치를 주어 중요성을 반영한 평균을 구하기도 한다. 이러한 방법으로 계산된 평균을 가중평균(weighted mean)이라고 한다.
- 가중치는 경우에 따라 다르다.
- 대학평점을 계산할 때 학점이 가중치가 된다.
- 다른 예로서 달러 당 원하가격 등 이다.
ex)

- 절사 평균
- 극단값이 존재하는 경우 중심위치의 척도로 절사평균도 때때로 사용한다.
- 가장 작은 자료들과 가장 큰 자료들을 제외한 평균이다.
- 예를 들어 5% 절사평균은 가장 작은 자료 5%와 가장 큰 자료의 5%를 제외한 평균이다.
- 피겨스케이팅에서 채점표 중 가장 낮은 점수와 가장 높은 점수를 제외한 합과 평균을 사용하는 예이다.
- 기하평균
- 기하평균은 n개의 자료의 곱에 1/n승을 하여 계산한다.
- 기하평균은 재무자료에서 성장률을 분석하는 데 흔히 이용된다. 이러한 경우에 산술평균은 잘못된 결과를 가져온다
- 연속된 기간(ex 년간,분기별,주별)의 비율변화를 결정하는 데 기하평균이 사용되어야 한다.
- 다른 적용 예로서 인구나 곡물수확량, 오염도수준, 출생률, 사망률의 변화 등 이다.

- 백분위수
- 백분위수는 자료가 가장 작은 수부터 가장 큰 수까지 퍼져있는 정도를 제공한다.
- 대학들은 흔히 입학점수를 백분위수로 발표한다.
- p분위수는 이 값보다 같거나 작은 비율이 적어도 p%이며, 같거나 큰 비율이 적어도(100-p)%인 수이다.


- 사분위수
- 사분위수는 특정 백분위수이다.
- 1사분위수 = 25분위수
- 2사분위수 = 50분위수 = 중앙값
- 3사분위수 = 75분위수
EX) 삼사분위수


변동성의 척도
- 위치의 척도와 함께, 변동성 즉 퍼져 있는 정도의 척도를 고려하는 것이 바람직한 경우가 자주 있다.
- 예를 들어 당신은 대형 제조업체의 구매담당자이고 두 공급업자로부터 일정하게 구매한다고 하자. 담당자는 평균 뿐 만 아니라 변동성도 고려해야 한다.
- 범위
- 범위는 최대값과 최소값의 차이이다.
- 가장 간단한 변동성 척도이다.
- 최대값과 최소값에 매우 민감하다.
- 사분위수 범위

- 표준편차
- 표준편차는 분산의 양의 제곱근이다.
- 표준편차는 자료와 같은 단위이므로 분산보다 훨씬 해석하기 쉽다.
표준편차는 다음과 같이 계산한다


- 변이계수

반응형
'study > Big data analysis' 카테고리의 다른 글
확률입문 (0) | 2020.10.16 |
---|---|
기술통계량 - 수치적 척도 (0) | 2020.10.14 |
기술 통계학 - 표와 그래프 표현 (0) | 2020.09.14 |
자료와 통계학 (0) | 2020.09.14 |
개요 (0) | 2020.09.14 |