기술통계량 - 수치적 척도

2020. 10. 14. 20:42·study/Big data analysis
반응형

- 분포의모양, 상대적 위치, 이상값 찾기

- 5개 숫자 요약과 박스플롯

- 두 변수 간의 관계에 관한 척도

- Data자료 계기판 : 효과를 높이기 위해 수치적 척도 추가하기

 


분포형태의 척도, 상대 위치, 이상값 찾기

 

- 분포형태 : 왜도

  • 분포의 모양을 측정하는 중요한 척도는 왜도(Skewness)이다.
  • 왜도는 통계 소프트 웨어를 이용하면 쉽게 계산할 수 있다.

표본자료에 대한 왜도의 공식

 

대칭 분포

- 왜도 = 0 

- 평균 = 중앙값

 

약간 왼쪽 꼬리가 긴 분포

- 왜도 = 음수 

- 평균은 일반적으로 중앙값 보다 작다.

 

약간 오른쪽 꼬리가 긴 분포

- 왜도는 양수

- 평균은 일반적으로 중앙값보다 크다.

 

오른쪽 꼬리가 많이 긴 분포

- 왜도가 양수, 흔히 1.0 이상

- 평균은 일반적으로 중앙값보다 크다.

 

- z-값

  • z-값은 흔히 표준화 값이라고 한다.
  • 엑셀은 z-값을 계산하기 위해 STANDARDIZE함수를 사용한다.
  • 자료의 z-값은 집합에서 상대위치를 알려준다.
  • 평균보다 적은 자료는 z-값이 음수이다.
  • 평균보다 큰 자료는 z-값이 양수이다.
  • 평균과 같은 자료는 z-값음 0이다.
  • z-값은 아래와 같이 계산한다.

z-값 계산

 

- 체비세프 정리

  • 1보다 큰 z-값에 대해 평균과 z 표준편차 사이에 있는 자료의 비율은 적어도 (1-1/z^2)이다.
  • 체비세프 정리는 z>1이어야 하지만, 정수일 필요는 없다.
  • 적어도 자료의 75%가 z = 2 이다.
  • 적어도 자료의 89%가 z = 3 이다.
  • 적어도 자료의 94%가 z = 4 이다.

 

- 경험법칙

  • 자료가 종 모양의 근사적 분포를 가진다고 믿는다면
  • 평균과 특정한 표준편차 사이에 존재하는 자료의 비율을 경험법칙을 이용하여 구할 수 있다.
  • 경험법칙은 정규분포에 근거하고 있다
  • 평균과 1표준편차 사이의 자료비율은 근사적으로 68.26% 이다.
  • 평균과 2표준편차 사이의 자료비율은 근사적으로 95.44% 이다.
  • 평균과 3표준편차 사이의 자료비율은 근사적으로 99.72% 이다.

 

- 이상값 검출

  • 때때로 자료들이 비정상적으로 크거나 작은 값들을 가질 수 있다. 이러한 극단값들을 이상값이라고 부른다.
  • z-값이 -3이하이거나 +3이상인 자료는 이상값으로 여긴다.
  • 이상값들은 다음 세가지 중 하나이다.
  • >> 잘못 입력된자료, 잘못 조사된 자료, 극단값이지만 올바른 자료

5개 숫자요약과 박스플롯

  • 많은 자료를 빨리 요약하기 위해 요약통계와 그래프가 이용된다.
  • 두 가지 도구는 5개 숫자요약과 박스플롯이다.

5개 숫자요약

  • 1 : 최소값
  • 2 : 1사분위 수
  • 3 : 중앙값
  • 4 : 3사분위 수
  • 5 : 최대값

 

- 박스플롯

  • 박스플롯은 5개 숫자요약에 기초한 자료의 그래프 요약이다.
  • 박스플롯을 그리는 데 주요한 요소는 사분위수 범위(IQR = Q3-Q1)이다.
  • 박스플롯은 이상값을 검출하는 또 다른 방법이다.

박스플롯 그리기

1. 박스의 끝은 1사분위수(Q1)와 3사분위수(Q3)에 그린다.

2. 박스 내의 세로선은 중앙값에 그린다.

3. 사분위수 범위 IQR = Q3 - Q1을 이용하여 경계값을 결정한다. 박스플롯의 하한은 Q1에서 아래쪽으로

   1.5×IQR에, 상한은 Q3에서 위쪽으로 1.5×IQR에 위치한다. 박스 끝에서 상한, 하한까지는 점선으로 잇는다.

4. 이 범위를 벗어나는 자료는 이상값으로 간주한다. 그리고 그 위치에 *로 표시한다.

 

 

ex : 아파트 임대료

 


 

두 변수간의 관계의 척도

  • 지금까지 한 변수에 관한 자료를 요약하는 수치적 방법을 설명하였다.
  • 관리자는 흔히 두 변수들 간의 관계에 관심을 가진다.
  • 두 변수들 간의 관계를 나타내는 기술통계량은 공분산, 상관계수이다.

 

공분산

  • 두 변수간 직선관계의 척도이다.
  • 양수는 양의 관계, 음수는 음의 관계를 의미한다.

공분산 계산방법

 

상관계수

  • 직선관계의 척도이지만 인과간계를 나타내지는 않는다.
  • 두 변수의 상관계수가 높다고 한 변수가 다른 변수의 원인이라고 말할 수 없다.
  • -1 과 +1 사이의 값을 가진다.
  •  -1 부근의 값은 강한 음의 관계를 가진다는 것을 의미한다.
  • +1 부근의 값은 강한 양의 관계를 가진다는 것을 의미한다.
  • 상관계수가 0에 가깝다면, 약한 직선 관계이다.

상관계수 계산방법

 

반응형

'study > Big data analysis' 카테고리의 다른 글

이산 확률분포  (0) 2020.10.16
확률입문  (0) 2020.10.16
기술통계량 - 정량적 측정 : 위치척도와 변동성 척도  (0) 2020.10.14
기술 통계학 - 표와 그래프 표현  (0) 2020.09.14
자료와 통계학  (0) 2020.09.14
'study/Big data analysis' 카테고리의 다른 글
  • 이산 확률분포
  • 확률입문
  • 기술통계량 - 정량적 측정 : 위치척도와 변동성 척도
  • 기술 통계학 - 표와 그래프 표현
jjikky
jjikky
  • jjikky
    jikky.env
    jjikky
  • 전체
    오늘
    어제
    • 분류 전체보기
      • React
      • Node.js
        • TDD
        • Node.js
        • mern
        • OAuth
        • js_facebook login
      • Coding Test
        • 백준 알고리즘
        • CodeUp
        • 코테 이론
      • Js
        • Javascript
      • study
        • python
        • android
        • Big data analysis
        • Logic Circuit
      • git
      • 개발일지
      • 게임기획
      • Docker
      • IPFS
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    안드로이드
    verilog할당문
    Ipfs
    파이썬 딕셔너리
    NFT Marketplace
    git 유용한 명령어
    Python
    ifps 네트워크 지연
    범주형 자료
    ipfs add
    파이썬 완전탐색
    빅데이터
    nft
    그리디 알고리즘
    코딩테스트
    verilog
    NFT IPFS
    파이썬
    파이썬 그리디
    UI
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
jjikky
기술통계량 - 수치적 척도
상단으로

티스토리툴바