목차
- Fundamentals of Hypothesis Testing: Two-Sample Tests
- 개요
- Comparing the mean of Two Related Populations
- Related Sample
- How to Solve
👀, 🤷♀️ , 📜, 📝
이 아이콘들을 누르시면 정답, 개념 부가 설명을 보실 수 있습니다:)
Fundamentals of Hypothesis Testing: Two-Sample Tests
즉, 가설검증이다.
test라는 위딩이 들어갔다는 것은 이 추정의 결과로 인한 의사결정까지 한다는 것이다.
Two-Sample Tests: 데이터 세트가 두개이다.
- One-Sample Tests: 우리나라 사람의 아이큐가 100 이상이다 -> 우리나라 사람의 아이큐라는 하나의 데이터 세트가 필요하다
- Two-Sample Tests: 우리나라와 일본의 아이큐를 비교해보면 우리나라가 더 높다 -> 우리나라 아이쿠 데이터 세트와 일본의 아이큐 데이터세트가 필요하다. 즉, 비교, 변화 검증에 많이 쓰인다.
개요
아래의 도식을 하나씩 자세히 알아볼 것이다.
- Comparing the mean of Two Independent Populations
- Comparing the mean of Two Related Populations
- Comparing the Proportions of Two Independent Populations
- F Test for the Ratio of Two Variances
결정 방법
각각 구하는 식
이제 여기에 나온 식들을 예를 들어 하나씩 사용해볼 것이다!
(지금은 이렇다~ 정도만 알아두자)
왜 이런식이 유도되었는지 보단 어떤 문제라서 어떤 식을 써야하는 지가 중요하다
위 그림 다운받기
➕ 꿀팁이 있는데 여기 경우에 따라 계산해주는 계산기가 있다(대신 어떤 경우에 어떤 계산기를 쓰는지 알아야 함으로 포스티팅을 끝까지 잘 보자!)
Comparing the mean of Two Related Populations
σ(퍼짐의 정도)를 알 때
➡️ Z-test
즉, 표에서 4번 case 이다
σ(퍼짐의 정도)를 모를 때
➡️ t-test
즉 표에서 5번 case이다.
Related Sample
key 값을 중심으로 관계있는 두개의 데이터를 나열한 것
📌 항상 sample의 수가 같다
- Paired or matched samples
- Repeated measures (before/after)
- Use difference between paired values:
How to Solve
그럼 이제 문제로 예를 들어보자
전반적인 과정은 전의 포스팅인
- One-Sample Tests_Hypothesis & Z-Test
- One-Sample Tests_𝜎 Unknown (t test)
- One-Sample Tests_one tail test
- One-Sample Tests_Hypothesis Tests for Proportions
을 참고하고 떠올리면 좋을 것 같다(전반적인 과정은 비슷하다)
Example 1: σ(퍼짐의 정도)를 알 때
Is PizzaH more expensive than Romano Pizza?
population sd of difference =10
S.L = 0.95
SOLVE
1) Check: 데이터의 Independent VS Related
확인해보면 Number 즉, sample size가 같다
➡️ 📌 related는 무조건 samlpe size가 같아야 한다
또한 pizza의 종류를 중심으로 두개의 데이터가 연관이 있다.
즉 이건 related 하다
2) Check: tail 확인
more expensive than
➡️ 문제의 최종 의도는 Pizza의 가격이 더 큰가(비싸냐)? 이다
➡️ one-tail test
➡️ upper-tail test
즉 σ(퍼짐의 정도)를 알 때이다
3) 조건 확인
- \(𝐻_0\): \(𝜇_{H} - 𝜇_{R}\) ≤ 0
- \(𝐻_1\): \(𝜇_{H} - 𝜇_{R}\) > 0
- \(𝜎_𝐷\) = population sd of difference =10
- S.L = 0.95
- √(𝑛): 4 (sample의 개수)
4) Find D ̅
여기서 D 는 두 sample간의 차이이다.
즉, \(𝜇_{H} - 𝜇_{R}\)를 구하면 된다.
이 diffenence의 평균(D ̅ )는
0.5이다
5) Find \(𝜇_{D}\)
여기서 \(𝜇_{D}\) = \(𝜇_{H} - 𝜇_{R}\) 이다.
그런데 우리는 \(𝜇_{H} - 𝜇_{R}\) ≤ 0 여기서 이 \(𝜇_{D}\)가 0이 아닐까? 하는 가정을 하고 들어간다.
그러므로 \(𝜇_{D}\) = 0이다.
6) find test statistic
그럼 위에서 구한 요소들을 대입해서 계산을 해보면,
즉 0.1이다.
7) find critical value
S.L = 0.95 이므로, a = 1-0.95 = 0.05
이를 z-table에서 찾으면 1.645이다.
8) Dicision
Reach a decision and interpret the result:
➡️ Do not Reject \(H_0\) at a = 0.05
- There is not sufficient evidence to coclude PizzaH more expensive than Romano Pizza
Example 2: σ(퍼짐의 정도)를 모를 때
Is PizzaH more expensive than Romano Pizza?
S.L = 0.95
➡️ population sd of difference =10 를 모름
SOLVE
1) Check: 데이터의 Independent VS Related
확인해보면 Number 즉, sample size가 같다
➡️ 📌 related는 무조건 samlpe size가 같아야 한다
또한 pizza의 종류를 중심으로 두개의 데이터가 연관이 있다.
즉 이건 related 하다
2) Check: tail 확인
more expensive than
➡️ 문제의 최종 의도는 Pizza의 가격이 더 큰가(비싸냐)? 이다
➡️ one-tail test
➡️ upper-tail test
즉 σ(퍼짐의 정도)를 알 모를 때이다 즉 t-test를 쓴다.
3) 조건 확인
- \(𝐻_0\): \(𝜇_{H} - 𝜇_{R}\) ≤ 0
- \(𝐻_1\): \(𝜇_{H} - 𝜇_{R}\) > 0
- \(𝜎_𝐷\) = population sd of difference =10
- √(𝑛): 4 (sample의 개수)
4) Find D ̅
여기서 D 는 두 sample간의 차이이다.
즉, \(𝜇_{H} - 𝜇_{R}\)를 구하면 된다.
이 diffenence의 평균(D ̅ )는
0.5이다
5) Find \(𝜇_{D}\)
여기서 \(𝜇_{D}\) = \(𝜇_{H} - 𝜇_{R}\) 이다.
그런데 우리는 \(𝜇_{H} - 𝜇_{R}\) ≤ 0 여기서 이 \(𝜇_{D}\)가 0이 아닐까? 하는 가정을 하고 들어간다.
그러므로 \(𝜇_{D}\) = 0이다.
📌 6) Find \(S_{D}\)
D의 standard diviation(표준 편차)을 구해구면 된다.
sample이므로 n-1
즉 (1+1+1+-1)/(4-3) = 1
즉 1이다.
6) find test statistic
그럼 위에서 구한 요소들을 대입해서 계산을 해보면,
7) find critical value
이건 degree of freedom과 S.L을 이용하여 t-table에서 찾아보는 것이다.
- degree of freedom = n-1= 4-1= 3
- S.L = 0.95
그리고 이는 upper-tail test이므로 -를 붙일 필요가 없다.
8) Dicision
Reach a decision and interpret the result:
➡️ Do not Reject \(H_0\) at a = 0.05
- There is not sufficient evidence to coclude PizzaH more expensive than Romano Pizza