Table of Contents
목차
카이제곱 분포,F-분포
데이터의 제곱합에 관련 분포
–
카이제곱분포 chi-squared distribution
카이제곱 분포는 데이터의 분산이 퍼져있는 모습을 분포로 만든 것
데이터를 파악할 때 중심 위치(평균) 와 퍼짐 정도(분산) 이 중요한데 카이제곱은 바로 분산의 제곱값에 대한 분포
어떤 표본이 모집단의 분포와 같은지 다른지 점검할때 활용
직접 확률을 구할 때 사용하는 분포가 아니라, 신뢰 구간과 가설검정, 독립성 검정등에 사용
(확률 변수의 조건)
- 서로 독립
- 표준정규분포를 따르는 확률변수들 Z1, Z2,· · ·, Zr 의 제곱합 이 따르는 분포를 자유도가 r(미지수의 개수)인 카이제곱분포라고 함
자유도
통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말함
ex) 크기가 n인 표본의 관측값(\(x_1,x_2,…,x_n\))의 자유도는 n-1
Ex) A+B = 3 일때 A의 값이 정해지면 B의 값은 자동으로 결정됨
즉, A가 자유도를 가지면 B는 자유도가 없다
[위키피디아 예시]
어떤 실험에서 4개 집단에 피험자들이 각 30명씩 무선배치되었을 때, \(df_{total},df_{within},df_{between}\)는?
- 전체 자유도 \(df_{total}=4\times 30-1=119\)
- 집단내 자유도 \(df_{within}=4\times (30-1)=116\)
- 집단간 자유도 \(df_{between}=4-1=3\)
밀도함수의 형태
오른쪽으로 꼬리가 긴 특징을 가지며,
- 자유도가 커질수록 봉우리의 위치가오른쪽으로 이동
기대값
r
\(E(v) = rE[Z^2]\)
- E[Z^2]= 1 (표준정규분포이므로 평균이 0이므로 제곱의 기댓값이 분산이 되어 1이됨)
분산
\(2r\)
F-분포
카이제곱과 마찬가지로분산을 다룰 때 사용한 분포
- 카이제곱분포: 한 집단의 분산
- F-분포: 두 집단의 분산
나눗셈을 활용해서 두 집단의 분산 비교
- 나눗셈을 활용하면 두 집단의 분산의 일치 여부를 비교 가능
Ex)3,3이 같을 때 나누면 \(3/3 = 1\)
즉, 같으니까 나눗셈 결과가 1이다.
즉, 나눈 결과가 1에 가까울수록 두 분산이 같다
- \(분산A/분산B\) = 1: 두 분산의 크기가 같다
- \(분산A/분산B\) != 1.9: 두 분산의 크기가 다르다
확률밀도함수
이렇게 두 분산의 나눗셈을 확률 분포로 나타낸 것
- 그래프를 볼 때 “1”의 위치가 중요하다
- 왜냐하면 대부분 비슷한 분포를 비교하기 떄문에 1에 밀집되어 있을 확률이 높기 떄문이다
차이점 정리
카이제곱분포
제곱합
의 분포는 자유도가 n−1인 카이제곱분포가 된다.(자유도 1개)
- \(X_1, ..., X_n\)이 서로 독립이고
- N(μ,1)을 따를 때
F-분포
- V1,V2가 서로 독립이고
- 자유도가 각각 r1, r2인 카이제곱분포를 따르는 확률변수일 때,(자유도 2개)
\(F=(V1/r1)/(V2/r2)\)가 따르는 분포를 F-분포라 하고
\(F∼F(r1, r2)\)와 같이 나타냄