기술통계학 : 표와 그래프 표현
범주형 자료는 자료를 구분하기 위해 이름이나 기호 사용
ex ( 도수분포표, 상대도수분포표, 비율분포표, 막대그림표, 파이차트 )
사례 : 매라다 호텔
매라다 호텔은 투숙객들에게 설문조사를 실시한다.
평가는 excellent, above average, average, below average, or poor로 한다.
20명의 표본 결과는 아래와 같다.

- 도수분포표 : 여러 겹치지 않는 계급의 도수를 표의 형태로 보여주는것

- 상대 도수분포표 : 상대 도수는 그 범주에 속한 항목의 비율이다. 각 계급의 상대적인 비율을 표의 형태로 보여준다.
계급의 상대도수 = 계급의 도수 / n
- 비율분포표 : 비율은 상대도수에 100을 곱한다. 비율분포표는 비율을 표로 요약한 그래프이다.

- 막대그림표 : 요약된 범주형 자료를 그래프로 표현하는 방법
가로축에 계급의 이름을 표시한다. 도수나 상대도수, 비율분포의 척도는 그래프의 세로축에 표시한다.
각 범주의 이름 위에 고정된 폭을 가진 막대를 사용하여 막대의 길이로 도수나 상대도수, 비율분포를
표시한다.
범주형 자료에서는 범주들이 분리되어 있다는 사실을 강조하기 위해 막대들을 분리해 둔다.

- 파이차트 : 범주형 자료에 대하여 상대도수나 비율분포를 표현하는 또 다른 방법이다.
먼저 모든 자료를 포함하는 원을 그린다. 그리고 각 범주별 상대도수에 상응하는 비율대로 원을 나눈다.

--------------------------------------------------------------------------
정량적 자료는 수량을 표시하기 위해 숫자를 사용
ex ( 도수분포표, 상대도수분포표와 비율분포표, 도트플롯, 히스토그램, 누적분포, 나뭇잎그림표 )
사례 : 허드슨 자동차 수리점
허드슨 자동차 수리점의 경영자는 엔진수리비용에 대해 더 많은 이해하기를 원한다. 그녀는 표본으로 고객 50명의 비용을 조사하였다.

도수분포표
정량적 자료에 대해 도수분포표를 작성하기 위해 세가지 단계가 필요하다.
1. 겹치지 않는 계급수 결정 : 계급 수는 5~20개를 선택한다.
자료가 많을경, 일반적으로 많은 수의 계급을 사용한다.
자료가 적을 경우 적은 수의 계급 수를 사용한다.
자료의 변동을 표현하는 데 적합한 계급의 개수를 결정하는 것이 중요하다.
2. 계급 폭 결정 : 계급폭 은 동일하게 사용
계급폭 = ( 최대값 - 최소값 ) / 계급 수
동일한 계급 폭을 사용하는 것은 부정확한 오류를 줄이기 위함이다.
3. 계급 경계값 결정 : 계급 경계값은 자료가 한 계급에 속하도록 결정
하한 값은 그 계급의 최소값, 상한 값은 그 계급의 최대값
각 계급은 하한 값이나 상한 값 중 한개만 포함할 수 있다.
계급 중앙값 : 정량적 자료에서 각 계급의 중앙값을 계산할 필요가 있다.
각 계급의 중앙값은 상한 값과 하한 값의 중앙값이다.

계급 수를 6으로 결정한다면
계급 폭 = ( 109 - 52 ) / 6 = 9.5 (10)
상대도수분포표와 비율분포표

도트플롯 : 그래프를 이용한 요약으로 가장 간단한 방법 중의 하나
수평 축은 자료 범위이고, 자료는 해당되는 수평 축 위의 도트로 표시한다.

히스토그램 : 정량적인 자료의 일반적인 그래프 표현
관심 변수를 가로축에 두고 도수나, 상대도수, 비율분포를 세로축에 두어 작성한다.
막대그림표와 달리 히스토그램은 막대사이의 공간이 없다.

히스토그램은 분포의 치우침을 보여준다.

- 누적분포 : 각 계급과 작거나 같은 계급의 도수를 보여준다.
마지막 값은 언제나 관측값의 총합과 같다.
- 누적상대도수분포 : 각 계급과 작거나 같은 계급의 상대도수를 보여준다.
누적상대도수의 마지막 값은 1.00이다.
- 누적비율분포 : 각 계급과 작거나 같은 계급의 비율을 보여준다.
누적비율분포에서 마지막 값은 100이다.
줄기 - 잎 그림

자료 집합의 순위와 자료 형태를 동시에 보여 주는 데 사용 할 수 있다.
히스토그램과 유사하나 장점은 실제 자료를 보여줄 수 있다는 점이다.
각 자료의 첫번쨰 자리수는 수직 축에 사용하고 수직 축 오른쪽은 각 자료의 나머지 수를 표현한다.
수직 축에 표현되는 값은 줄기이고 오른쪽에 표현되는 나머지 값은 잎이라 부른다.

잎의 단위가 명시되어 있지 않다면 단위는 1이다.

-------------------------------------------------------------------------------------
교차표 : 두 변수를 요약하는 표
1. 한 변수가 범주형, 다른 변수는 정량적
2. 둘다 범주형
3. 둘다 정량적
사례: 핑거호수 건설
2년동안 판매된 핑거호수 건설사의 주택 스타일과 가격

가격 범위에 대한 도수분포표
주택 형태에 대한 도수분포표
행과 열의 값은 비율로 변경한다면 두 변수 간의 관계에 대한 추가적인 통찰력을 가질 수 있다.

행비율
total을 100으로 맞춰서 비율화 시켰다.

열비율
심슨의 역설
- 두 변수의 관계를 보기 위해 두 개 이상의 교차표에 있는 자료들을 합쳐서 요약 교차표를 만드는 경우가 자주 있다.
- 합친 교차표에서 두 변수 간의 관계에 대한 결론을 내리는 데에는 세심한 주의를 기울여야 한다.
- 어떤 경우에는 합친 교차표와 합치지 않은 교차표에서 완전히 다른 결론을 내릴 수도 있다. 이러한 현상을 심슨의 역설 (Simpson's Paradox)이라고 한다. (p.79 참고)
산포도와 추세선
- 산포도 (scatter diagram)는 두 정량적 변수간의 관계를 보여 주는 그래프 표현이다.
- 한 변수는 수평 축에 다른 변수는 수직 축에 보여준다.
- 산점도의 일반적인 패턴은 변수들 간의 전반적인 관계를 제안한다.
- 추세선은 관계의 개략적인 관계를 보여준다.

'study > Big data analysis' 카테고리의 다른 글
확률입문 (0) | 2020.10.16 |
---|---|
기술통계량 - 수치적 척도 (0) | 2020.10.14 |
기술통계량 - 정량적 측정 : 위치척도와 변동성 척도 (0) | 2020.10.14 |
자료와 통계학 (0) | 2020.09.14 |
개요 (0) | 2020.09.14 |