• Home
  • About
    • Yerim Oh photo

      Yerim Oh

      Happy and worthwhile day by day :)

    • Learn More
    • Email
    • LinkedIn
    • Instagram
    • Github
    • Youtube
  • Posts
    • All Posts
    • All Tags
  • Projects

[15] R(예측 분석을 위한 기초 이론_정규분포, 이항분포의 근사)

22 Feb 2020

Reading time ~1 minute

Table of Contents
  • 목차
  • 정규분포 normal distri-bution
    • 확률밀도함수
    • 표준정규분포
      • 예제
    • 이항분포의 근사
      • 이항분포의 포아송 근사
      • 이항분포의 정규 근사

목차

  • 정규분포 normal distri-bution
    • 확률밀도함수
    • 표준정규분포
      • 예제
    • 이항분포의 근사
      • 이항분포의 포아송 근사
      • 이항분포의 정규 근사

정규분포 normal distri-bution

= 가우스 분포(Gaussian distribution)

확률밀도함수

image

연속형 확률변수의 분포

  • μ: 평균
  • x: 해당 값
  • σ2: 분산
    \(X∼N(μ, σ2)\)

표준정규분포

평균이0이고 분산이1인 정규분포 image

예제

초코과자를 생산하는 공장이 있다.
이 공장에서 생산하는 과자 한 봉지의 무게는 평균이200g이고 표준편차가1.5g인 정규분포를 따른다고 한다.
어느 날생산된 과자 중 임의로 한 봉지를 선택해 무게를 재었을 때198g이하가 될 확률을 계산해보자.

[1] 정규분포로 풀기
과자 한 봉지의 무게를 확률변수X로 나타내면,
\(X∼N(200,1.5^2)\) image

[R 구현]

pnorm(198,mean=200,sd=1.5)
## [1] 0.09121122

[2] 표준정교분포로 풀기
X를 표준화한 \(Z=X−200/1.5\)의 분포가 표준정규분포임을 이용
image

[R 구현]

pnorm(-4/3)
## [1] 0.09121122

이항분포의 근사

[문제점]
X∼B(n, θ)이라 하자.
이 때 n이 매우 큰 경우X에 관련된 확률값을 계산하는 데 수치적으로 어려움을 만나게 된다.

[해결]
따라서 정확히 확률을 계산하는 대신 근사적인 방법을 사용해 이 어려움을 해결하는 방안을 생각 가능


이항분포의 포아송 근사

  • n은 매우 큰데
  • θ는 거의 0에 가까운 값일 경우,
    \(B(n, θ)≈Poi(nθ)\)
    의 근사식이 성립

[결과] 아래 그림은B(100,0.025)와 B(500,0.005)를Poi(2.5)로 근사시킨 결과를 로그 스케일로 비교한 것 image

  • 근사의 정확도가 매우 우수함을 확인가능
  • N이 커질수록 더 근사해짐

이항분포의 정규 근사

  • n은 매우 큰데
  • θ는 0에 그리 가깝지 않은 경우
    \(B(n, θ)≈N(nθ, nθ(1−θ))\)
    의 근사식이 성립

보통,

  • \(nθ≥5\),
  • \(n(1−θ)≥5\) 인 경우
    사용하면 근사의 정밀도가 좋음

[주의]
포아송 근사: 이산형 분포를 이산형 분포로 근사
정규 근사: 이산형 분포를 연속형 분포로 근사

  • 연속성 수정(continuity correction)절차가 필요

(ex)
\(X∼B(400,0.2)\)일 때,
\(P(X≤85)\) 정규 근사를 통해 계산하는 문제를 생각해 보자

B(400,0.2)≈N(80,82)가 성립하므로,
새로운 확률변수Y∼N(80,82)을 도입해P(X≤85)≈P(Y≤85)와같은 근사식을 생각 가능
그러나 아래 그림에서 보는 바와 같이 이 방법은 근사에 따른 오차가 상당한데(빗금 표시된 영역의 넓이만큼)
image

이는 이산형 분포를연속형 분포를 사용해 근사하는 과정에서 흔히(또는 당연히)발생하는 현상

(해결)
빨간 실선으로 표시된 정규분포 곡선을 85까지만 적분한 값인P(Y≤85)보다는,
85.5까지 적분한 값인 P(Y≤85.5) 가 P(X≤85)(회색막대 넓이의 합)에 대해 훨씬 더 좋은 근사값이 됨



RBasic Share Tweet +1