통계학
- 통계라는 용어는 다양한 비즈니스와 경제 환경을 이해하는 데 도움을 주는 평균, 중앙값, 비율, 최댓값과 같은 숫자를 말한다.
- 통계학(Statistics)은 자료를 수집하고, 분석하고, 표현하고, 해석하는 예술이자 과학이라고 정의할 수 있다.
경영학과 경제학 분야에의 응용
- 회계학 : 회계법인들이 고객기업을 감사할 때 통계적 표본이론을 이용한다.
- 경제학 : 경제학은 경제의 미래를 예측하는 데 통계정보를 이용한다.
- 제무학 : 재무분석가들은 투자권고를 하는 데 주가수익비율(P/E Ratio; PER: 주가/주당 당기순이익)과
배당수익률을 포함한 다양한 통계정보를 활용한다.
- 마케팅 : 소매점에서 계산할 때 사용되는 전자 스캐너는 마케팅 연구에 응용되는 다양한 자료를 수집한다.
- 생산관리 : 다양한 통계적 품질관리 차트는 생산공정에서 생산품을 모니터하는데 사용된다.
- 정보시스템 :다양한 통계정보는 시스템관리자가 컴퓨터 네트워크성능을 평가하는 데 도움을 준다.
자료와 자료집합
- 자료는 표현과 해석을 위해 수집, 분석하고 요약되는 사실과 숫자들이다.
- 특정한 연구를 위해 수집되는 모든 자료는 연구를 위한 자료집합( data set ) 이라고 불린다.
원소, 변수와 관측값
- 원소(elements)는 자료가 수집되는 대상이다.
- 변수(variable)는 원소들에서 관심의 대상이 되는 구체적인 특성이다.
- 특정한 원소에 대해 측정된 값의 집합을 관측값(observation)라고 한다.
- n 원소를 가진 자료집합은 n개의 관측 값을 가진다.
- 자료의 총 개수는 원소와 변수의 곱이다.

측정단위

- 명목척도 : 자료가 원소의 특성을 나타내는데, 이름이나 기호를 이용한다.
기호나 숫자코드를 사용한다.
ex ) 대학의 학생들은 경영학과, 사회학과, 교육학과로 구분된 학과에 소속된다.
다른 방법으로 숫자코드 예를 들면 경영학과 1, 사회학과 2, 교육학과 3을 사용한다.
- 순서척도 : 자료가 명목자료의 특성을 가지고 있고, 자료의 순서가 의미가 있다.
레이블이나 숫자코드가 사용된다.
ex) 대학의 학생들은 레이블인 1학년, 2학년, 3학년, 4학년으로 구분된다.
다른 방법으로 1학년을 1, 2학년을 2, 3학년을 3, 4학년을 4로 표현할 수 있다.
- 구간척도 : 자료가 순서자료의 특성을 가지며, 값들의 차이를 고정된 측정단위로 표현할 수 있다
구간척도의 자료는 언제나 숫자
ex ) 멜리사는 SAT(미국 대입수능시험)에서 1880점을 획득하였다. 멜리사는 케빈보다 105점 높다.
- 비율척도 : 자료가 순서특성을 가지고 있으며 두 값의 비율이 의미가 있다.
거리, 높이, 무게, 시간 등의 변수는 비율 측정단위를 사용한다.
변수가 아무 것도 없을 때 영점에 있다는 것을 나타내기 위해 0의 값이 포함된다.
ex ) 멜리사는 대학에서 36학점을 이수하였으며, 케빈은 72학점을 이수하였다. 케빈이 멜리사 이수학점의 두배를 이수하였다.
범주형 자료와 정량적 자료
- 자료는 범주형인가와 정량적인가로 구분할 수 있다.
- 변수가 범주형인가 정량적인가에 따라 적절한 통계분석 방법이 달라진다.
- 변수가 범주형이라면 통계분석은 다소 제한적이다.
범주형 자료
- 원소의 특성으로 레이블이나 이름을 사용한다.
- 정성적 자료라 불린다.
- 명목척도나 순서척도를 사용한다.
- 숫자나 문자를 사용할 수 있다.
- 적절한 통계분석 방법이 다소 제한적이다.
정량적 자료
- 측정값이 연속적이지 않으면 이산적
- 정량적 자료는 언제나 숫자이며 사칙연산 가능

횡단면 자료 ( cross - sectional data )
: 동일한 시점 또는 거의 비슷한 시점에 수집된 자료
ex ) 오하이오 주에서 2013년 12월에 허가된 건물의 수
시계열 자료
: 여러기간 동안 수집된 자료
ex ) 오하이오 주에서 지난 36개월 동안 허가된 건물의 수
시계열 자료의 그래프는 분석자들에게 도움을 준다
- 과거에 일어났던 일
- 시간에 따라 추이 확인
- 미래에 대한 예측

자료의 출처

시간과 비용 이슈
- 소요시간 : 정보를 수집하는 데 시간이 소요된다.
정보가 가능한 시기에 더 이상 필요 없을 수 있다.
- 비용문제 : 정보를 제공하는 기관에서 비용을 요구할 수 있다.
- 자료수집 오류 : 부주의 하게 수집된 자료는 오류를 발생시킬 수 있다.
기술통계학
- 신문이나 잡지, 회사보고서, 기타 간행물 등에 나오는 많은 통계정보는 독자들이 이해하기 쉽게 요약되고 표현된 자료 로 구성되어 있다.
- 이처럼 표나 그래프, 숫자로 요약된 자료를 기술통계학( descriptive statistics ) 이라 한다.
ex ) 자동차 수리점 엔진수리 비용 50개 자료



수치적 기술통계량
- 가장 많이 사용되는 수치적 기술통계량은 평균이다.
- 평균은 자료의 중심 위치를 나타낸다.
- 허드슨 수리점의 50명 엔진 수리비용의 평균은 79$
통계적 추론
- 모집단 : 특정한 연구의 관심이 되는 모든 원소의 집합
- 표본 : 모집단의 부분 집합
- 통계적 추론 : 포본으로 모집단의 특성에 대해 추정과 검정을 하는 과정
- 센서스 : 모집단의 모든 자료를 수집
- 표본조사 : 표본을 수집
통계적 추론 과정
1. 모집단은 모든 엔진수리비용, 평균은 미지
2. 50개 표본의 엔진 수리비용 추출
3. 표본에서 엔진수리 비용의 평균은 79$
4. 표본 평균을 모집단의 평균의 추정치로 이용
데이터 웨어하우징
: 자료를 수집하고 저장하고 관리하는 일
데이터 마이닝
- 통계학과 수학, 컴퓨터 과학을 조합하여, 분석가들은 데이터 웨어하우스에 있는 자료로부터 정보를 캐서
유용한 정보로 만들기 때문에 데이터 마이닝이라는 이름이 붙여졌다.
- 데이터 웨어하우스 내에서 자료분석은 조직에 새로운 전략과 높은 수익을 달성할 수 있는
의사결정에 도움을 줄 수 있다.
- 가장 효과적인 데이터마이닝 시스템은 데이터의 관계를 자동으로 찾아 미래를 예측하는 것이다.
응용분야
- 데이터 마이닝의 주 응용 프로그램은 소매업, 금융기관, 통신회사 등과 같이 고객과 밀접한 관계가 있는
기업에 의해 만들어 졌다.
- 데이터 마이닝은 특정 제품을 구매한 고객이 관련 제품을 구매하려는 관계를 규명하는 데 사용된다.
요건
- 다중 회귀, 로지스틱 회귀, 상관분석 등과 같은 통계분석 방법론이 많이 사용된다.
- 인공지능과 머신러닝과 같은 컴퓨터 관련 기술도 요구된다.
- 많은 투자와 시간이 소요된다.
'study > Big data analysis' 카테고리의 다른 글
확률입문 (0) | 2020.10.16 |
---|---|
기술통계량 - 수치적 척도 (0) | 2020.10.14 |
기술통계량 - 정량적 측정 : 위치척도와 변동성 척도 (0) | 2020.10.14 |
기술 통계학 - 표와 그래프 표현 (0) | 2020.09.14 |
개요 (0) | 2020.09.14 |