표본 추출과 표본 분포
·
study/Big data analysis
- 표본 선택 - 점 추정 - 표본 분포의 소개 - x ̅ 에 대한 표본 분포 - p ̅에 대한 표본 분포 - 기타 표본 추출 방법 요소(element)는 자료가 수집되는 개체(entity)이다. 모집단(population)은 관심이 되는 모든 요소들의 집합이다. 표본(sample)은 모집단의 부분집합(subset)이다. 표본 모집단(sampled population)은 표본이 추출된 모집단 이다. 표본의 틀(frame)은 표본으로 추출될 요소들의 목록(list)이다. 표본을 뽑는 이유는 모집단에 대한 연구 문제의 대답을 위한 자료를 수집하기 위함이다. 표본의 결과는 단지 모집단 특성에 대한 추정치(estimates)을 제공한다. 그 이유는 꽤 단순한데, 표본이 오직 모집단의 부분만을 포함하고 있기 때문..
연속확률분포
·
study/Big data analysis
- 균일확률분포 - 정규확률분포 - 지수확률분포 연속확률변수는 연속된 어떤 한 구간이나 여러 구간들의 집합에 내의 값을 취할 수 있다. 확률변수가 특정한 단일 값을 가질 확률에 대하여 언급할 수 없다. 대신, 확률변수의 특정 값이 주어진 구간에 속할 확률에 대하여는 말할 수 있다. 주어진 x1에서 x2까지 구간에서 취할 수 있는 확률변수의 확률은 확률 밀도 함수의 x1에서 x2까지 구간에서 그래프아래부분의 면적이다. 균일 확률 분포 확률이 구간의 길이에 비례하면, 확률변수는 균일하게 분포된다. 균일 확률 밀도함수는 아래와 같다. 정규확률분포 정규확률분포는 연속확률변수를 기술하는 가장 중요한 분포이다. 통계적 추론에 폭넓게 사용된다. 분포가 대칭적이다. 즉, 왜도 값은 0 모든 종류의 정규 확률 분포는 모..
이산 확률분포
·
study/Big data analysis
확률변수 이산 확률분포 기대값과 분산 이항확률분포 포아송확률분포 초기하확률분포 확률변수 숫자를 이용하여 실험결과를 설명하는 방법이다. 이산 확률변수는 유한한 숫자 값이나 0, 1, 2, ... 와 같이, 무한하지만 셀 수 있는 값을 가진 변수이다. 연속확률변수는 구간이나 구간의 모음에 속하는 숫자로 주어지는 변수이다. 이산 확률 분포 확률변수의 확률분포는 확률변수의 값에 확률이 어떻게 분포되어 있는 지를 말해준다. 이산 확률 분포는 표, 그래프, 수식 등으로 표현한다. - 첫번째 형태 : 확률 변수의 각 항목의 확률을 결정하기 위해 실험 결과에 확률부여하기 방법을 사용하는 형태 이산확률변수 x 의 확률분포는 확률함수 f(x)에 의해 정의된다. 확률함수는 확률변수의 값에 대한 확률을 제공해 준다. - 두번..
확률입문
·
study/Big data analysis
임의실험, 계산법칙과 확률부여하기 사건과 확률 확률의 기본관계 조건부 확률 베이즈 정리 임의실험, 계산법칙과 확률부여하기 확률 사건이 일어날 수 있는 정도를 측정하는 수치 척도 0~1 사이의 값을 가진다. 통계 실험 통계학에서 실험은 물리학에서의 실험과는 조금 다르다. 통계 실험에서는 확률이 결과를 결정한다. 즉 같은 실험이 똑같이 반복되어도 완전히 다른 결과가 나타날 수 있다. 이러한 이유로 통계 실험은 때때로 임의실험이라고도 불린다. 실험과 그에 따르는 표본공간 실험은 잘 정의된 결과를 생산하는 과정이다. 표본공간은 실험에서 나타날 모든 결과의 집합이다. 실험 결과는 표본공간의 한 원소로 표현되는 표본점이라고 불린다. 순열 계산법칙 서로다른 N개 중에서 서로다른 n개를 뽑아 일렬로 나열하는 경우의 수..
기술통계량 - 수치적 척도
·
study/Big data analysis
- 분포의모양, 상대적 위치, 이상값 찾기 - 5개 숫자 요약과 박스플롯 - 두 변수 간의 관계에 관한 척도 - Data자료 계기판 : 효과를 높이기 위해 수치적 척도 추가하기 분포형태의 척도, 상대 위치, 이상값 찾기 - 분포형태 : 왜도 분포의 모양을 측정하는 중요한 척도는 왜도(Skewness)이다. 왜도는 통계 소프트 웨어를 이용하면 쉽게 계산할 수 있다. 표본자료에 대한 왜도의 공식 대칭 분포 - 왜도 = 0 - 평균 = 중앙값 약간 왼쪽 꼬리가 긴 분포 - 왜도 = 음수 - 평균은 일반적으로 중앙값 보다 작다. 약간 오른쪽 꼬리가 긴 분포 - 왜도는 양수 - 평균은 일반적으로 중앙값보다 크다. 오른쪽 꼬리가 많이 긴 분포 - 왜도가 양수, 흔히 1.0 이상 - 평균은 일반적으로 중앙값보다 크다..
기술통계량 - 정량적 측정 : 위치척도와 변동성 척도
·
study/Big data analysis
- 위치 척도 - 변동성 척도 위치 척도 표본으로부터 계산된 척도는 표본 통계량이라 한다. 모집단으로부터 계산된 척도는 모집단 모수라고 한다. 표본통계량은 모집단 모수에 대한 점추정치이다. - 평균 위치에 대해 가장 중요한 통계량은 평균이다. 평균은 자료의 중심위치를 측정한다. 평균은 모든 자료의 평균이다. 표본 평균 x는 모평균 u의 점추정량이다. - 중앙값 중앙값은 자료를 작은 것부터 큰 것으로 순서대로 나열할 때 중앙에 있는 값이다. 자료가 극단값이 존재할 때, 중심위치 척도로 중앙값이 선호된다. 연봉이나 재산의 중심위치로 중앙값이 사용된다. 소수의 고액 연봉이나 재산은 평균을 상승시킨다. 자료의 개수가 홀수라면 중앙값은 가운데 있는 값 짝수 라면 가운데 두 개 값의 평균 - 최빈수 최빈수는 가장 ..
기술 통계학 - 표와 그래프 표현
·
study/Big data analysis
기술통계학 : 표와 그래프 표현 범주형 자료는 자료를 구분하기 위해 이름이나 기호 사용 ex ( 도수분포표, 상대도수분포표, 비율분포표, 막대그림표, 파이차트 ) 사례 : 매라다 호텔 매라다 호텔은 투숙객들에게 설문조사를 실시한다. 평가는 excellent, above average, average, below average, or poor로 한다. 20명의 표본 결과는 아래와 같다. - 도수분포표 : 여러 겹치지 않는 계급의 도수를 표의 형태로 보여주는것 - 상대 도수분포표 : 상대 도수는 그 범주에 속한 항목의 비율이다. 각 계급의 상대적인 비율을 표의 형태로 보여준다. 계급의 상대도수 = 계급의 도수 / n - 비율분포표 : 비율은 상대도수에 100을 곱한다. 비율분포표는 비율을 표로 요약한 그래프..
자료와 통계학
·
study/Big data analysis
통계학 - 통계라는 용어는 다양한 비즈니스와 경제 환경을 이해하는 데 도움을 주는 평균, 중앙값, 비율, 최댓값과 같은 숫자를 말한다. - 통계학(Statistics)은 자료를 수집하고, 분석하고, 표현하고, 해석하는 예술이자 과학이라고 정의할 수 있다. 경영학과 경제학 분야에의 응용 - 회계학 : 회계법인들이 고객기업을 감사할 때 통계적 표본이론을 이용한다. - 경제학 : 경제학은 경제의 미래를 예측하는 데 통계정보를 이용한다. - 제무학 : 재무분석가들은 투자권고를 하는 데 주가수익비율(P/E Ratio; PER: 주가/주당 당기순이익)과 배당수익률을 포함한 다양한 통계정보를 활용한다. - 마케팅 : 소매점에서 계산할 때 사용되는 전자 스캐너는 마케팅 연구에 응용되는 다양한 자료를 수집한다. - 생산..
개요
·
study/Big data analysis
Big Data 개요 - 정의 : 빅데이터란 기존의 일반적인 기술 (ex. 관계형 DB ) 로 관리하기 곤란한 대량의 데이터군 - 빅데이터를 실시간으로 분석하여 기업의 경쟁력 제고 : 로그데이터를 분석하여 이용자가 스스로 제공하지 않는 정보까지 분석하여 매출증대 및 경쟁력 제고 - Big Data 특징 : 3V ( Volume, Variety, Velocity ) RDBMS 특징 : ACID ( Atomicity, Consistency, Isolation, Durability ) Big Data 특징 - 비즈니스 인텔리전스와 빅데이터의 교차 . 과거의 가시화를 통한 미래 예측 - 빅데이터 분석의 기원 . 하라즈 Ent : 라스베이거스에 거점을 둔 세계 최고의 카지노 운영사 Big Data 기반기술 - 하..