예측 분석의 기본 개념
오차의 원천
크게 두 가지 성격으로 분류 1) 체계적 오차 :분석 방법론 내지 기술의 한계에 의해 발생하는 오차
- ex) 훈련 프로그램, 활또는 화살 성능 등에 의해 발생하는 오차
- 최신 알고리즘을 연구개발하고 좋은 계산 장비를 확보필요 2) 비체계적 오차: 데이터가 내재하고 있는 불확실성에 기인한 오차. * 당일 날씨, 경기장 분위
- 데이터를 충분히 확보할 수 없는 경우, 또는 결측 및 오염이 있는 데이터를 사용해 분석해야 할 때 분석가가 맞닥뜨리는 어려움은 비체 계적 오차
- 대부분의 경우 통제 불가 영역에 속한 문제(확률 및 통계 이론의역할이 중요해짐)
모집단, 표본, 표본분포
모집단(population)
: 분석 대상이 되는 개체(또는 해당 관측값)모두를 다 모은 집합 우리가 실행하는 분석의 궁극적 목표는 모집단의 분포(distribution)를 규명하는 것.
모수(parameter)
모집단 분포의 특성을 요약한 대표값 모집단 전체를 완벽히 파악하는 것이 현실에서는 불가능
- 일반적으로 모수의 값은 알려지지 않은 경우가 대부분이며,
- 따라서 추론의 대상
모수적 모형
모수의 값에 의해 모집단 분포의 특성이 완전하게 설명되는모형
모수적 방법
모수적 모형에 기반한 분석 방법 EX) 모의실험으로 생성한 모집단의 히스토그램 그리기. 모의실험에 사용한 모형은,
- 평균이5이고
- 표준편차가3인 정규분포이며,
- 모집단의 크기는 N=1,000,000
.set.seed(1) N<-1000000 pop<-data.frame(id=1:N,x=rnorm(N,mean=5,sd=3)) hist(pop$x,nclass=100,probability=TRUE, col=”gray”,border=”white”, xlim=c(-10,20),xlab=”“,ylim=c(0,0.16), main=”A population distribution: simulated from N(5, 9)”, cex.main=0.8,cex.axis=0.7) z<-seq(from=10,to=20,by=0.005) lines(z,dnorm(z,mean=5,sd=3),col=2) legend(“topright”,c(“N(5, 9)”), col=c(2),lty=c(1),cex=0.6)
표본(sample)
모집단의 부분집합
- 모집단 전체를 조사해 데이터를 구하는 것이 어렵기 때문에 그 일부를 추출한 표본을 활용
- 표본 추출: 모집단을 잘 대표할 수 있는 방식으로 부분집합을 구성해야 한다. *방법:
- 단순랜덤추출(simple random sampling) :가장 간단하고 이상적인 방식
- 통계량(statistic) 모수를 계산하는 절차를 흉내내어 표본에 적용한 버전
EX) 다음은 단순랜덤추출법으로 크기가 n= 100인 표본을 추출해 평균과 표준편차를 계산한 예 n<-100 sam<-pop[sample(1:N, n,replace=FALSE),]# simple random sampling hist(sam$x,prob=TRUE,xlab=” “, xlim=c(-10,20),ylim=c(0,0.16), main=”Distribution of the sample (n = 100)”, cex.main=0.8, cex.axis=0.7, col=”navy”,border=”white” lines(z,dnorm(z,mean=5,sd=3),col=2) legend(“topright”,c(“N(5, 9)”), col=c(2),lty=c(1),cex=0.6)
mean(sam$x) #모수값= 5## [1] 4.974753
sd(sam$x) #모수값= 3## [1] 2.837773
위 예에서 확인할 수 있듯이 통계량의 값은 모수의 값과 차이 존재
그리고 위에서 생성한 모집단에서 크기가100인 표본을 다시 추출해 평균과 표준편차를 계산한다면 조금 전의 것과 약간 다른 값을 얻게 될 것이다.
sam<-pop[sample(1:N, n,replace=FALSE),]#두 번째 샘플 mean(sam$x)
[1] 4.867998sd(sam$x)
[1] 3.378174
sam<-pop[sample(1:N, n,replace=FALSE),]#세 번째 샘플 mean(sam$x)
[1] 4.854398sd(sam$x)
[1] 3.031466
표본분포(sampling distribution)
이렇듯 표본이 태생적으로 내포하고 있는 불확실성을 통계량이 물려받음 이 불확실성을 분포로 표현한 것 많은 경우 통계학 이론을 통해 통계량의 표본분포를 이론적으로 알아낼 수 있다. EX) 다음은 모의실험을 통해 위 예제에서 사용한 표본평균의 표본분포를 흉내냄 -> 모의실험으로 생성한 표본평균들의 히스토그램과 이론적인 표본분포인N(5,32100)곡선이 매우 비슷함을 확인가능
- 만번 반복을해서 원래 데이터에 가깝게 만듦(이론적인 분포와 유사하게 추출하기 위해) set.seed(0) M<-10000 m<-numeric(M)23 for( rin1:M ) { sam<-pop[sample(1:N, n,replace=FALSE),] m[r]<-mean(sam$x)}
hist(m,probability=TRUE,xlab=”Sample Means”, col=”gray”,border=”white”, xlim=c(3,7),breaks=50,main=”“,cex.axis=0.8)
lines(z,dnorm(z,mean=5,sd=0.3),col=”red”) legend(“topright”,expression(N(5, (3/10)^2)), col=c(“red”),lty=c(1),cex=0.6)
통계량의 표준오차(standard error, s.e.)
표본분포의 표준편차 = 표본 평균의 표준오차
- 표본의 크기가 크면: 정보량이 많아짐 표준오차 줄어듦 EX) 중심극한정리(clt):평균 계열의 통계량은 표본의 크기가 커짐에 따라 표본 크기의 제곱근에 반비례하는 방식으로 표준오차가 줄어듦 n<-30 m.30<-numeric(M) for( rin1:M ) { sam<-pop[sample(1:N, n,replace=FALSE),] m.30[r]<-mean(sam$x) }
round(c(sd(m.30)/sd(m),sqrt(100/30)),4)
[1] 1.8152 1.8257
표본분포
데이터를 수집하는 전 단계에서 수집된 데이터를 통해 구현될 통계량의 값을 예상해 볼 수 있게 하는 예측분포 (predictive distribution)로서의 의미 갖음
- 공통점: 표본 크기가30이든100이든 히스토그램의 꼭대기점이5근방에 위치
- 즉, 모집단 분포가N(5,32)인 경우 표본을 추출해 평균을 구하면 그 값이 5근처가 될 가능성이 매우 높다
-
또한 표본평균의 값이5에서 멀리 떨어진 곳에서 실현될 가능성은 낮음
- 차이점: 분산 정도
- 100: 더 평균이 나올 가능성이 큼 표본의 크기가 클수록 그 경향성이 더 강해짐 그만큼 정밀한 추론이 가능해짐
- 30: 모집단 분포의 평균값을 모르는경우 (최종 해석) -> 데이터를 충분히 수집해 표본평균을 계산: 그 값이 모집단 평균값과 크게 차이가 나지 않을 것을 기대할 수 있음 -> 앞에서 언급한 바와 같이 확률통계 이론을 이용하면 원 자료의 분포가N(5,32)일 때 표본평균의 분포가N(5,32/n)이 된다는 것을 이론적으로 증명 가능 -> n의 값이 증가함에 따라 분산이 줄어듦 -> 따라서 굳이 모의실험을 통하지않더라도 위와 같은 추론이 가능
- 물론 현실에서는 모집단의 분포를 알 수없다는 문제가 추가되지만, 확률통계 이론을 이용해 자료가 추출된 모집단의 분포의종류에 상관없이 통계량이 따르는 표본분포를 도출 가능 EX) 대표적인 예가중심극한정리(central limit theorem, CLT)로서, 표본 크기가 충분히 크면 모집단분포의 종류에 상관없이 표본평균 통계량의 표본분포가 정규분포에 가깝다는 것은잘 알려진 사실이다.
예제 평균값의 확률
어느 고등학교의2학년에 재학 중인 학생들이 치른 영어시험 성적
- 전체평균: 60(점)
- 표준편차가: 8(점)이라 한다. 이 학교에서 임의로 선택한2학년 학생 100명의 영어시험 성적을 조사해 계산한 평균값이62.5(점)이상이 될 확률은얼마나 될까?
중심극한정리에 따르면100명의 성적을 평균한 값의 확률분포는N(60,8^2/100)≡N(60,0.82)과 비슷해짐. 따라서 정규확률변수Y∼N(60,0.64) 에 대한 확률P(Y≥62.5)을 계산하면 구하고자 하는 확률에 대한 근사값을 구할 수 있음
1-pnorm(62.5,mean=60,sd=0.8)
[1] 0.0008890253
모의실험 결과와 중심극한정리 둘 다 표본평균은 모평균 값 근처의 값을 취할확률이 매우 높다는 것을 뒷받침해줌
따라서 모평균의 값을 짐작해보고자 할 때 표본평균을 사용하는 것은 매우 합리적인 생각이라 할 수 있다.