목차
정규분포 normal distri-bution
= 가우스 분포(Gaussian distribution)
확률밀도함수
연속형 확률변수의 분포
- μ: 평균
- x: 해당 값
- σ2: 분산
\(X∼N(μ, σ2)\)
표준정규분포
평균이0이고 분산이1인 정규분포
예제
초코과자를 생산하는 공장이 있다.
이 공장에서 생산하는 과자 한 봉지의 무게는 평균이200g이고 표준편차가1.5g인 정규분포를 따른다고 한다.
어느 날생산된 과자 중 임의로 한 봉지를 선택해 무게를 재었을 때198g이하가 될 확률을 계산해보자.
[1] 정규분포로 풀기
과자 한 봉지의 무게를 확률변수X로 나타내면,
\(X∼N(200,1.5^2)\)
[R 구현]
pnorm(198,mean=200,sd=1.5)
## [1] 0.09121122
[2] 표준정교분포로 풀기
X를 표준화한 \(Z=X−200/1.5\)의 분포가 표준정규분포임을 이용
[R 구현]
pnorm(-4/3)
## [1] 0.09121122
이항분포의 근사
[문제점]
X∼B(n, θ)이라 하자.
이 때 n이 매우 큰 경우X에 관련된 확률값을 계산하는 데 수치적으로 어려움을 만나게 된다.
[해결]
따라서 정확히 확률을 계산하는 대신 근사적인 방법을 사용해 이 어려움을 해결하는 방안을 생각 가능
이항분포의 포아송 근사
- n은 매우 큰데
- θ는 거의 0에 가까운 값일 경우,
\(B(n, θ)≈Poi(nθ)\)
의 근사식이 성립
[결과] 아래 그림은B(100,0.025)와 B(500,0.005)를Poi(2.5)로 근사시킨 결과를 로그 스케일로 비교한 것
- 근사의 정확도가 매우 우수함을 확인가능
- N이 커질수록 더 근사해짐
이항분포의 정규 근사
- n은 매우 큰데
- θ는 0에 그리
가깝지 않은경우
\(B(n, θ)≈N(nθ, nθ(1−θ))\)
의 근사식이 성립
보통,
- \(nθ≥5\),
- \(n(1−θ)≥5\) 인 경우
사용하면 근사의 정밀도가 좋음
[주의]
포아송 근사: 이산형 분포를 이산형 분포로 근사
정규 근사: 이산형 분포를 연속형 분포로 근사
- 연속성 수정(continuity correction)절차가 필요
(ex)
\(X∼B(400,0.2)\)일 때,
\(P(X≤85)\) 정규 근사를 통해 계산하는 문제를 생각해 보자
B(400,0.2)≈N(80,82)가 성립하므로,
새로운 확률변수Y∼N(80,82)을 도입해P(X≤85)≈P(Y≤85)와같은 근사식을 생각 가능
그러나 아래 그림에서 보는 바와 같이 이 방법은 근사에 따른 오차가 상당한데(빗금 표시된 영역의 넓이만큼)
이는 이산형 분포를연속형 분포를 사용해 근사하는 과정에서 흔히(또는 당연히)발생하는 현상
(해결)
빨간 실선으로 표시된 정규분포 곡선을 85까지만 적분한 값인P(Y≤85)보다는,
85.5까지 적분한 값인 P(Y≤85.5) 가 P(X≤85)(회색막대 넓이의 합)에 대해 훨씬 더 좋은 근사값이 됨