목차
👀, 🤷♀️ , 📜, 📝
이 아이콘들을 누르시면 정답, 개념 부가 설명을 보실 수 있습니다:)
Sampling Distributions
표본분포이다.
• 표본 분포는 모집단에서 선택한 표본 크기에 대해 표본 통계량의 가능한 모든 값의 분포이다.
- 샘플링을 여러번 하여 여러번 한 샘플의 분포를 측정하여 이들을 다 종합했을 떄 보이는 그림
- distribution of all of the possible values of a sample statistic for a given sample size selected from a population.
📝 예시 보기
예를 들어,
해당 대학의 학생 50명을 대상으로 평균 GPA를 추출한다고 가정해 보십시오.
크기가 50인 여러 표본을 얻은 경우 각 표본에 대해 서로 다른 평균을 계산합니다.
우리는 50명의 학생 표본에 대해 계산할 수 있는 모든 잠재적 평균 GPA의 분포에 관심이 있습니다
Sampling Distributions of the Mean
먼저 이해하기 위해서 어떤 나라에 전체인구가 4명 밖에 없다고 가정해보자.
그 나라 사람들의 나이는 각각 18, 20, 22, 24세이다.
즉,
• Population size N=4 • Random variable, X, is age of individuals • Values of X: 18, 20, 22, 24 (years)
우리 이 나라 사람들의 나이의 평균을 측정하기 위해 인구 전체를 조사할 수 없으니 2명씩 sampling하여 조사할 것이다.
위와 같은 상황에서,
2명씩 sampling할 깨, 각각의 사람들이 선정 될 확률은 25%이다.
즉, 이를 통해 평균, 표준편차를 추정해 보면, 아래와 같다
그럼 이제 이 전체 value중에 2개씩 뽑아서 (samples of size n=2) 뽑은 것들의 평균을 구해보면
- 16 possible samples (sampling with replacement)
- 16 sample Means
그럼 위의 결과로 mean을 기준으로 한 distribution을 보자
- 진짜 평균이 보인다…! (가장 높은 bar)
Summary Measures of this Sampling Distribution,
- 평균 21은 강조해줌
- standard diviation은 줄여줌(오차가 줄어드는 거니까 좋은거!)
Standard Error of the Mean
그럼 이제 위의 예시를 토대로 sample size가 큰 이유를 설명할 수 있다!
Standard Error of the Mean = mean이 얼마나 흔들리는지,
즉, 아래 그래프에서 21을 제외할 나머지 값들이 얼마나 나왔는지를 뜻한다.
- Different samples of the same size from the same population will yield different sample means
- A measure of the variability in the mean from sample to sample is given by the Standard Error of the Mean:
(This assumes that sampling is with replacement or sampling is without replacement from an infinite population)
- σ_x ̅ : Standard Error of the Mean
- n: sample size
- σ: mean
📌 standard error of the mean decreases as the sample size increases
모집단이 평균 μ와 표준편차 σ로 정규 분포인 경우 의 표본 분포는 다음과 같이 정규 분포된다.
Z-value for the sampling distribution of
-
- where: = sample mean
- μ = population mean
- σ = population standard deviation
- n = sample size
그러므로 위와 같은 관계에 의해서 아래와 같은 상관관계가 성립한다.
Central Limit Theorem
그렇다면 sample사이즈가 최소 어느정도 되어야 충분히 mean을 표현할 수 있다고 볼까?
- For most distributions, n > 30 will give a sampling distribution that is nearly normal
- smaple size가 30보다 작으면 nomal distribution(파란색 그래프)처럼 그려지지 못하고 빨간색 그래프처럼 그려진다
- nomal distrubution이 아니면 우린 앞에서 배웠던 계산들 다 못한다…:(
Example
[QUESTION]
Suppose a population has mean μ = 8 and standard deviation σ = 3. Suppose a random sample of size n = 36 is selected.
What is the probability that the sample mean is between 7.8 and 8.2?
[SOLUTION]
이런 문제는 그림을 그려서 생각해보면 된다
- 1) 일단 조건에 따라서 평균이 8이고
- 2) size n = 36이니 nomal distribution의 모양으로 그려준다.
- 3) 그리고 standard deviation은 이므로 이를 이용해서 7.8 and 8.2을 정규화 해준다.(z table을 이용한다.)