확률변수
이산 확률분포
기대값과 분산
이항확률분포
포아송확률분포
초기하확률분포
확률변수
- 숫자를 이용하여 실험결과를 설명하는 방법이다.
- 이산 확률변수는 유한한 숫자 값이나 0, 1, 2, ... 와 같이, 무한하지만 셀 수 있는 값을 가진 변수이다.
- 연속확률변수는 구간이나 구간의 모음에 속하는 숫자로 주어지는 변수이다.
이산 확률 분포
- 확률변수의 확률분포는 확률변수의 값에 확률이 어떻게 분포되어 있는 지를 말해준다.
- 이산 확률 분포는 표, 그래프, 수식 등으로 표현한다.
- 첫번째 형태
: 확률 변수의 각 항목의 확률을 결정하기 위해 실험 결과에 확률부여하기 방법을 사용하는 형태
이산확률변수 x 의 확률분포는 확률함수 f(x)에 의해 정의된다. 확률함수는 확률변수의 값에 대한 확률을 제공해 준다.
- 두번째 형태
: 확률 변수의 각 항목의 확률을 결정하기 위해 수식을 이용하는 형태
- 확률변수에 확률을 부여하는 세가지 방법 : 고전적 방법, 상대도수 방법, 주관적 방법
- 이산 확률분포를 작성하기 위해 상대도수 방법을 이용하는 것을 경험적 이산분포라 부른다.
ex) JSL 가전
표와 그래프에 더하여, 이산 확률분포를 나타내기 위해 x의 모든 값에 대해 확률함수 f(x)의 수식을 사용할 수 있다.
수식으로 표현할 수 있는 이산확률 분포는 일양분포, 이항분포, 포아송 분포, 초기하분포 등이다.
이산 일양분포
: 이산확률분포를 수식으로 표현할 수 있는 가장 간단한 예, 고전적 확률 부여 방법
이산 일양확률함수는 다음과 같다. f(x) = 1/n << 확률변수 값이 발생할 확률이 동일하다. 여기서, n = 확률변수가 가질 수 있는 값의 개수 |
기대값
- 확률변수의 기대값 즉, 평균은 중심에 대한 척도이다.
- 기대값은 확률변수의 가중평균이라고도 할 수 있다. 가중치는 확률이다.
- 기대값은 확률변수가 가질 수 없는 값일 수 있다.
분산과 표준편차
- 분산은 확률변수 값의 변동성에 대한 척도이다.
- 분산은 평균과의 편차 제곱의 가중 평균이다. 가중치는 확률이다.
- 표준편차는 분산의 양의 제곱근이다.
이항 확률분포
네가지 특성
o 실험은 n개의 ㅇ동일한 시행으로 구성되어 있다.
o 각 실험은 (성공, 실패) 두가지 결과를 가진다.
o 성공의 확률은 p이며 반복실험에서 변하지 않는다. 실패의 확률 1-p도 반복실험에서 변하지 않는다.
o 각 실험은 독립적으로 행해진다.
우리의 관심은 독립적인 n회 시행에서 성공의 홧수이다. x를 n회 시행에서 성공의 횟수라 하자.
ex) 에반스 전자
이직률 10% > 내년에 회사에 있지 않을 확률 0.1로 추정 , 3명의 근로자 추출하였을때, 1명이 올해 이직할 확률
포아송 확률 분포
- 특정한 시간이나 공간에서 일어나는 사건의 횟수를 추정하는 데 유용한 이산확률변수이다.
- 포아송 확률변수는 무한한 값을 가질 수 있다.
- x = 0, 1, 2, ...
- 평균과 분산이 같다.
포아송 확률변수의 예
- 톨게이트에 하루에 도착하는 자동차의 수
- 인터넷 포탈에 하루에 접속하는 이용자 수 등
포아송 실험의 두가지 특성
1. 두 구간의 길이가 같다면 발생 확률이 동일하다.
2.어떤 구간에서 발생하거나 발생하지 않는 사건은 다른 구간에서 발생하거나 발생하지 않는 사건과 독립이다.
초기하 확률 분포
- 초기하분포는 이항분포와 밀접한 관계에 있다.
- 그런데, 초기하 분포는 다음의 특성이 있다.
- 시행은 독립적이지 않다. 성공 확률이 시행에 따라 달라진다.
'study > Big data analysis' 카테고리의 다른 글
표본 추출과 표본 분포 (0) | 2020.10.18 |
---|---|
연속확률분포 (0) | 2020.10.18 |
확률입문 (0) | 2020.10.16 |
기술통계량 - 수치적 척도 (0) | 2020.10.14 |
기술통계량 - 정량적 측정 : 위치척도와 변동성 척도 (0) | 2020.10.14 |