Home
About
- Yerim Oh
  
  Happy and worthwhile day by day :)
- Learn More
- Email
- LinkedIn
- Instagram
- Github
- Youtube
Posts
- All Posts
- All Tags
Projects

[16] R(예측 분석을 위한 기초 이론_카이제곱 분포,F-분포, 자유도)

21 Feb 2020

Reading time ~2 minutes

Table of Contents

목차
카이제곱 분포,F-분포
카이제곱분포 chi-squared distribution
- 자유도
F-분포
- 확률밀도함수
차이점 정리
- 카이제곱분포
- F-분포

카이제곱 분포,F-분포

데이터의 제곱합에 관련 분포

–

카이제곱분포 chi-squared distribution

카이제곱 분포는 데이터의 분산이 퍼져있는 모습을 분포로 만든 것

데이터를 파악할 때 중심 위치(평균) 와 퍼짐 정도(분산) 이 중요한데 카이제곱은 바로 분산의 제곱값에 대한 분포

어떤 표본이 모집단의 분포와 같은지 다른지 점검할때 활용
직접 확률을 구할 때 사용하는 분포가 아니라, 신뢰 구간과 가설검정, 독립성 검정등에 사용

(확률 변수의 조건)

서로 독립
표준정규분포를 따르는 확률변수들 Z1, Z2,· · ·, Zr 의 제곱합 이 따르는 분포를 자유도가 r(미지수의 개수)인 카이제곱분포라고 함

자유도

통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말함
ex) 크기가 n인 표본의 관측값(\(x_1,x_2,…,x_n\))의 자유도는 n-1
Ex) A+B = 3 일때 A의 값이 정해지면 B의 값은 자동으로 결정됨
즉, A가 자유도를 가지면 B는 자유도가 없다

[위키피디아 예시]
어떤 실험에서 4개 집단에 피험자들이 각 30명씩 무선배치되었을 때, \(df_{total},df_{within},df_{between}\)는?

전체 자유도 \(df_{total}=4\times 30-1=119\)
집단내 자유도 \(df_{within}=4\times (30-1)=116\)
집단간 자유도 \(df_{between}=4-1=3\)

밀도함수의 형태

오른쪽으로 꼬리가 긴 특징을 가지며,

자유도가 커질수록 봉우리의 위치가오른쪽으로 이동

\[V∼χ^2(r)\]

기대값

r
\(E(v) = rE[Z^2]\)

E[Z^2]= 1 (표준정규분포이므로 평균이 0이므로 제곱의 기댓값이 분산이 되어 1이됨)

분산

\(2r\)

F-분포

카이제곱과 마찬가지로분산을 다룰 때 사용한 분포

카이제곱분포: 한 집단의 분산
F-분포: 두 집단의 분산

나눗셈을 활용해서 두 집단의 분산 비교

나눗셈을 활용하면 두 집단의 분산의 일치 여부를 비교 가능
Ex)3,3이 같을 때 나누면 \(3/3 = 1\)
즉, 같으니까 나눗셈 결과가 1이다.

즉, 나눈 결과가 1에 가까울수록 두 분산이 같다

\(분산A/분산B\) = 1: 두 분산의 크기가 같다
\(분산A/분산B\) != 1.9: 두 분산의 크기가 다르다

확률밀도함수

이렇게 두 분산의 나눗셈을 확률 분포로 나타낸 것

그래프를 볼 때 “1”의 위치가 중요하다
왜냐하면 대부분 비슷한 분포를 비교하기 떄문에 1에 밀집되어 있을 확률이 높기 떄문이다

차이점 정리

카이제곱분포

제곱합
의 분포는 자유도가 n−1인 카이제곱분포가 된다.(자유도 1개)

\(X_1, ..., X_n\)이 서로 독립이고
N(μ,1)을 따를 때

F-분포

V1,V2가 서로 독립이고
자유도가 각각 r1, r2인 카이제곱분포를 따르는 확률변수일 때,(자유도 2개)
\(F=(V1/r1)/(V2/r2)\)가 따르는 분포를 F-분포라 하고
\(F∼F(r1, r2)\)와 같이 나타냄

R Basic Share Tweet +1