목차
확률분포의 개념
확률
- 표본공간(sample space): 어떤 시행에서 관측 가능한 모든 결과를 모은 집합
- 사건(event): 표본공간의 부분집합
[예제]
동전을 두 번 연속으로 던지는 시행에 의해 생성되는 표본공간을S라 하면,
S={(H, H),(H, T),(T, H),(T, T)}.
이 때 두 번 연달아 같은 면이 나오는 사건을A라 하면
A={(H, H),(T, T)}.
확률(probability)에 대한 엄밀한 수학적 정의가 따로 있지만 이른바 ’고전적정의’에 한정해 다루기로 함
- 확률: 주어진 사건에 대해 0과1사이의 숫자를 대응시킨 함수 정의
- 사건 A의 확률: P(A)은 \(P(A) =|A|/|S|\)
* ll: 집합의 크기(예 : 셀 수 있는 집합의 경우 원소의 개수가 됨)
[추가 개념]
\(P(A∪B) =P(A) +P(B)−P(A∩B)\)
두 사건A와B에 대해,
- A∪B: 합사건
- A∩B: 곱사건
[다시 예제로]
사건B를 한 번 이상 앞면이 나오는 사건이라 하면
- \(B={(H, H),(H, T),(T, H)}\)이 되고,
- \(P(B) =3/4\) .
- \(P(A∩B) =P({(H, H)}) =1/4\).
따라서,
\(P(A∪B) =2/4+3/4−1/4= 1\)
A∪B=S 성립 확인 가능
조건부확률
두 사건 A와 B에 대해 조건부 확률P(A|B)는 다음과 같이 정의
\(P(A|B) =P(A∩B)/P(B)\)
- 단,\(P(B)>0\)
곱사건의 확률P(A∩B),
\(P(A∩B) =P(A|B)P(B) =P(B|A)P(A)\)가 성립
독립
=independent
IF, \(P(A|B) =P(A)\)또는\(P(B|A) =P(B)\)를 만족하면,
두 사건 A와 B가 서로 독립
\(P(A∩B) =P(A)P(B)\)
[예제]
\(P(A|B) =(1/4)/(3/4)=1/3\)
베이즈 정리
표본공간 S가 사건들의 열 \(A_1, A_2, ..., A_N\)에 의해 분할(partition)될 때,
- \(S=∪nA_n\).
- \(i̸=j\)이면 \(Ai∩Aj=φ\)
[예제]
고객의 남녀 성비가6:4이라 한다.
그러나 클레임 비율은 남성의 경우5%,여성의 경우10%이다.
어느 날 클레임 접수가 발생했을 때 해당 고객이 여성일확률을 계산해보자.
(풀이)
- \(A_1\),\(A_2\): 각각 고객이 남성인 사건과 여성인 사건
- \(B\): 클레임이 발생하는 사건
따라서 클레임 접수가 발생했을 때, 해당 고객이 여성일 확률은
- prior: 사전 확률(\(A_1, A_2\))
-
likelihood: 가능도 $$P(B A_1)\(,\)P(B A_2)$$ -
posterior: 사후확률 $$P(B A_1)\(,\)P(B A_2)$$
[R 구현]
prior<-c(0.6,0.4)
likelihood<-c(0.05,0.10)
posterior<-prior*likelihood/sum(prior*likelihood)
probs<-data.frame(Prior= prior,Posterior= posterior)
row.names(probs)<-c("Male","Female")
round(probs,4)
Prior Posterior
Male 0.6 0.4286
Female 0.4 0.5714
확률변수
= random variable
표본공간을 정의구역으로 갖는 실함수
즉, 표본공간의 모든 원소에 대해 실수인 대응값을 갖음
- 알파벳 대문자로 나타냄
-
시행의 결과 확률변수의 값이 실현된 것은 해당 소문자로 나타냄
- 이산형 확률변수: 확률변수가 취하는 값이 이산적인 경우
- 연속형 확률변수: 연속적인 경우
[예제]
X를 앞면이 나온 횟수로 정의하면,
\(X((T, T)) = 0, X((T, H)) = 1, X((H,T)) = 1, X((H,H)) = 2\)
확률변수X는 이산형 확률변수
[특징]
불확실성: 시행의 결과에 따라 값이 결정되기 때문
-> 불확실성을 분포라는 개념을 통해 표현 가능
확률질량함수 pmf
=probability mass function
[이산형 확률변수]
이산형 확률변수 X가 있을 때,
이 확률변수가 취할 수 있는 값x에 대해
- 음이 아닌 숫자를 대응시킴
- 모든 가능한x에 대해 구한 합이 1
(성질)
확률질량함수p(x)
[예제]
x= 0,1,2에 대해 함수p(x)를 다음과 같이 정의하면 이는X의 확률질량함수
\(p(0) =P(X= 0) =P({(T, T)}) = 1/4\) \(p(1) =P(X= 1) =P({(T, H),(H, T)}) = 1/2\) \(p(2) =P(X= 2) =P({(H, H)}) = 1/4\)
확률밀도함수 pdf
= probability densityfunction
= 밀도함수 density function, density [연속형 확률변수]
특정한 하나의 값을 가질 확률(고전적 정의)은0(점)
-> 확률질량함수 형태로 확률분포를 표현 불가
대신,
X의 값이 임의의 구간[a, b]에 속할 확률을 확률밀도함수(p(x)) 를 통해 확률분포를 표현
(성질)
누적분포함수 cdf
= cu-mulative distribution function
= 분포함수
[연속형,이산형 확률변수]
확률분포를 가장 일반적으로 표현할 수 있는 방법
확률변수X가 연속형이든 이산형이든 상관없이 누적분포함수의 정의는
\(F(x) =P(X≤x)\)
이 함수를 이용하면 앞에서 소개한 pmf와pdf를 각각 차분과 미분을 이용해 구할 수 있음
- discrete: \(p(x) =F(x)−F(x−)\)
- continuous: \(f(x) =F′(x)\)
확률분포의 특성값, 모수 parameters
모수(parameters) : 확률분포의 특성을 숫자 몇 개로 요약하는 방법
기대값 expectation, expected value,mean
분포의 중심 위치를 나타내는 대표값
- E(X)
-
X가 이산형일 때
- X가 연속형일 때
(경항성)
기대값이 큰 값인 확률변수는 평균적으로 큰 값을 가짐
기대값이 작은 확률변수는 평균적으로 작은 값을 가짐
따라서 기대값을 구하면,
굳이 시행을 통해 확률변수의 값을 실현해보지 않아도 평균적으로 어떤 값을 가지게 될 지 예상(기대)할 수 있게 됨
분산과 표준편차
[분산(variance)]
분포의 산포 정도를 나타내는 대표값
확률변수X의 분산은 Var(X)로 나타냄
- 편차제곱의 기대값
-
X가 이산형일 때
- X가 연속형일 때
(의미)
분산이 크면
- 편차 제곱의 값이 평균적으로 크다는 의미
- 평균에 몰려 있지 않다
- 실제 확률변수의 실현값이 기대값으로부터 멀리 떨어진 값으로 나타나는 가능성이 높음을 의미
즉, 분산은 확률변수에 내재된 이질성(heterogeneity)혹은 불확실성(uncertainty)의 크기를 측정해주는 측도가 됨
[표준편차(standard deviation)]
분산은 편차를 제곱한 값의 기대값이기 때문에,
원래 확률변수 값과 같은 단위를 갖도록 하기 위해 제곱근을 적용한 값을 대신 사용하는 경우가 많음
- \(sd(X)\)
&&sd(X) =√Var(X)**
\(Var(X) =E(X^2)− {E(X)}^2\)
표준화 standardization
확률변수X에 대해 \(Z=X−μ/σ\)와 같은 변환을 적용하는 것
서로 다른 확률분포를 갖는 확률변수들의 실현값을 상대적으로 비교할 때 유용
- \(μ\): 기대값
- \(σ^2\): 분산
- \(σ\): 표준편차
(확률 변수 Z의 성질)
\(E(Z) = 0,Var(Z) = 1\)
[예제]
학생들의 영어과목 성적X는 기대값이 60이고 표준편차가10인 확률변수이고,
국어과목 성적Y는 기대값이 70이고 표준편차가15인 확률변수라 하자.
이 때 어느 학생의 영어 성적은70점이고 국어 성적은80점이었을 때 어느 과목의 학업성취도가 더 높을 지 생각해보자.
이 학생의 영어 성적을 표준화한 값은(70−60)/10 = 1이고,
국어 성적을 표준화한 값은(80−70)/15 = 2/3
영어 과목의 학업성취도가 높음
왜도skewness와 첨도kurtosis
[왜도]
확률분포의 비대칭성에 대한 측도
\(Skewness(X) =E[((X−μ)/σ)^3]\)
(성질)
- 왜도가0: 확률분포가 대칭
- 양수: 오른쪽으로 꼬리가 김
- 음수: 왼쪽으로 꼬리가 김
[첨도]
확률분포의 뾰족한 정도와 꼬리의 두터운 정도를 측정해주는 대표값
분포의 꼬리가 두껍고 뾰족한 성질이 강할수록 큰 값을 갖음
- 0보다 크면
- 정규분포보다 긴꼬리를 갖음
- 분포가 보다 중앙부분에 더 집중
- 중앙부분이 뾰족한 모양을 가지게 된다
\(Kurtosis(X) =E[((X−μ)/σ)^4]\)
이변량 확률분포
예측분석의 대부분은 서로 다른 변수 사이의 종속성(dependence)을 이용
보통 예측 대상 변수에 대한 정보를 담은 보조변수들의 패턴을 이용하기 때문
따라서 서로 다른 변수 사이의 종속성을 고려한 확률모형에 대한 이해가 필수적
결합확률분포 joint probability distribution
두 이산형 확률변수 X와Y에 대해 정의되는 확률분포,
\(p(x, y) =P(X=x, Y=y)\)
[결합확률밀도함수]
Y를 모두 더해버려서 1을 만들면 x의 확률만 남게 된다
[독립(independent)]
두 확률변수 X와Y가 다음을 만족하면,
\(p(x, y) =p(x)p(y)\)
또한 X=x일 때 Y의 조건부확률분포
\(P(Y=y|X=x) =p(x, y)/p(x)=:p(y|x)\)
공분산 covariance
두 확률변수 X와 Y사이의 선형 종속성에 대한 측도
각 확률변수들이 어떻게 퍼져있는지를 나타내는 것
\(Cov(X, Y) =E[{X−E(X)}{Y−E(Y)}]\)
참고로,
\(Cov(X, Y) =E(XY)−E(X)E(Y)\)
(해석)
- \(Cov(X, Y) > 0\): X가 증가 할 때 Y도 증가한다.
- \(Cov(X, Y) < 0\): X가 증가 할 때 Y는 감소한다.
- \(Cov(X, Y) = 0\): 두 변수간에는 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있다
그러나 두 변수가 독립적이라면 공분산은 0이 되지만, 공분산이 0이라고 해서 항상 독립적이라고 할 수 없다
상관계수 correlation coefficient
공분산의 문제점: 두 확률변수의 척도(단위)의 크기에 따라 그 값이 크게 영향을 받음
(예시)
100점만점인 두과목의 점수 공분산은 별로 상관성이 부족하지만 100점만점이기 때문에 큰 값이 나오고
10점짜리 두과목의 점수 공분산은 상관성이 아주 높을지만 10점만점이기 때문에 작은값이 나옴
[상관계수]
확률변수의 절대적 크기에 영향을 받지 않도록 단위화 시킴
즉,분산의 크기만큼 나눔
- 주로 \(ρ\)로 나타 냄
\(Corr(X, Y) =Cov(X, Y)/sd(X)sd(Y)\)
(성질)
- 상관계수의 절대값은 1을 넘을 수 없다.
- 확률변수 X, Y가 독립이라면 상관계수는 0이다.
- X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.
- 양의 선형관계면 1
- 음의 선형관계면 -1