반응형
- 분포의모양, 상대적 위치, 이상값 찾기
- 5개 숫자 요약과 박스플롯
- 두 변수 간의 관계에 관한 척도
- Data자료 계기판 : 효과를 높이기 위해 수치적 척도 추가하기
분포형태의 척도, 상대 위치, 이상값 찾기
- 분포형태 : 왜도
- 분포의 모양을 측정하는 중요한 척도는 왜도(Skewness)이다.
- 왜도는 통계 소프트 웨어를 이용하면 쉽게 계산할 수 있다.
표본자료에 대한 왜도의 공식

대칭 분포
- 왜도 = 0
- 평균 = 중앙값

약간 왼쪽 꼬리가 긴 분포
- 왜도 = 음수
- 평균은 일반적으로 중앙값 보다 작다.

약간 오른쪽 꼬리가 긴 분포
- 왜도는 양수
- 평균은 일반적으로 중앙값보다 크다.

오른쪽 꼬리가 많이 긴 분포
- 왜도가 양수, 흔히 1.0 이상
- 평균은 일반적으로 중앙값보다 크다.

- z-값
- z-값은 흔히 표준화 값이라고 한다.
- 엑셀은 z-값을 계산하기 위해 STANDARDIZE함수를 사용한다.
- 자료의 z-값은 집합에서 상대위치를 알려준다.
- 평균보다 적은 자료는 z-값이 음수이다.
- 평균보다 큰 자료는 z-값이 양수이다.
- 평균과 같은 자료는 z-값음 0이다.
- z-값은 아래와 같이 계산한다.

- 체비세프 정리
- 1보다 큰 z-값에 대해 평균과 z 표준편차 사이에 있는 자료의 비율은 적어도 (1-1/z^2)이다.
- 체비세프 정리는 z>1이어야 하지만, 정수일 필요는 없다.
- 적어도 자료의 75%가 z = 2 이다.
- 적어도 자료의 89%가 z = 3 이다.
- 적어도 자료의 94%가 z = 4 이다.
- 경험법칙
- 자료가 종 모양의 근사적 분포를 가진다고 믿는다면
- 평균과 특정한 표준편차 사이에 존재하는 자료의 비율을 경험법칙을 이용하여 구할 수 있다.
- 경험법칙은 정규분포에 근거하고 있다
- 평균과 1표준편차 사이의 자료비율은 근사적으로 68.26% 이다.
- 평균과 2표준편차 사이의 자료비율은 근사적으로 95.44% 이다.
- 평균과 3표준편차 사이의 자료비율은 근사적으로 99.72% 이다.

- 이상값 검출
- 때때로 자료들이 비정상적으로 크거나 작은 값들을 가질 수 있다. 이러한 극단값들을 이상값이라고 부른다.
- z-값이 -3이하이거나 +3이상인 자료는 이상값으로 여긴다.
- 이상값들은 다음 세가지 중 하나이다.
- >> 잘못 입력된자료, 잘못 조사된 자료, 극단값이지만 올바른 자료
5개 숫자요약과 박스플롯
- 많은 자료를 빨리 요약하기 위해 요약통계와 그래프가 이용된다.
- 두 가지 도구는 5개 숫자요약과 박스플롯이다.
5개 숫자요약
- 1 : 최소값
- 2 : 1사분위 수
- 3 : 중앙값
- 4 : 3사분위 수
- 5 : 최대값

- 박스플롯
- 박스플롯은 5개 숫자요약에 기초한 자료의 그래프 요약이다.
- 박스플롯을 그리는 데 주요한 요소는 사분위수 범위(IQR = Q3-Q1)이다.
- 박스플롯은 이상값을 검출하는 또 다른 방법이다.
박스플롯 그리기
1. 박스의 끝은 1사분위수(Q1)와 3사분위수(Q3)에 그린다.
2. 박스 내의 세로선은 중앙값에 그린다.

3. 사분위수 범위 IQR = Q3 - Q1을 이용하여 경계값을 결정한다. 박스플롯의 하한은 Q1에서 아래쪽으로
1.5×IQR에, 상한은 Q3에서 위쪽으로 1.5×IQR에 위치한다. 박스 끝에서 상한, 하한까지는 점선으로 잇는다.
4. 이 범위를 벗어나는 자료는 이상값으로 간주한다. 그리고 그 위치에 *로 표시한다.
ex : 아파트 임대료


두 변수간의 관계의 척도
- 지금까지 한 변수에 관한 자료를 요약하는 수치적 방법을 설명하였다.
- 관리자는 흔히 두 변수들 간의 관계에 관심을 가진다.
- 두 변수들 간의 관계를 나타내는 기술통계량은 공분산, 상관계수이다.
공분산
- 두 변수간 직선관계의 척도이다.
- 양수는 양의 관계, 음수는 음의 관계를 의미한다.

상관계수
- 직선관계의 척도이지만 인과간계를 나타내지는 않는다.
- 두 변수의 상관계수가 높다고 한 변수가 다른 변수의 원인이라고 말할 수 없다.
- -1 과 +1 사이의 값을 가진다.
- -1 부근의 값은 강한 음의 관계를 가진다는 것을 의미한다.
- +1 부근의 값은 강한 양의 관계를 가진다는 것을 의미한다.
- 상관계수가 0에 가깝다면, 약한 직선 관계이다.

반응형
'study > Big data analysis' 카테고리의 다른 글
이산 확률분포 (0) | 2020.10.16 |
---|---|
확률입문 (0) | 2020.10.16 |
기술통계량 - 정량적 측정 : 위치척도와 변동성 척도 (0) | 2020.10.14 |
기술 통계학 - 표와 그래프 표현 (0) | 2020.09.14 |
자료와 통계학 (0) | 2020.09.14 |