목차
👀, 🤷♀️ , 📜, 📝
이 아이콘들을 누르시면 정답, 개념 부가 설명을 보실 수 있습니다:)
Exploring Numerical Data
Quartile Measures
사분위수 측정 4분할을 하여 측정을 하는 것이다
1) 4분할을 한다.
2) 각각의 4개의 분할에서 median을 찾는다
그냥 median을 각 4개의 구역에서 구해주면 된다고 생각하자.
- First quartile position: Q1 = (n+1)/4 ranked value
- Second quartile position: Q2 = (n+1)/2 ranked value
- Third quartile position: Q3 = 3(n+1)/4 ranked value
where n is the number of observed values
[구하는 규칙]
순위 위치를 계산할 때 다음을 사용한다.
• whole number(정수): 이 중간값을 뽑는다
• fractional half(.5): 결과가 분수 절반인 경우(예: 2.5, 7.5, 8.5 등) 두 개의 해당 데이터 값의 평균을 구한다.
• rest(ex_ .25): 결과가 whole number 또는 fractional half이 아닌 경우 결과를 가장 가까운 정수로 반올림(round)하여 순위 위치를 찾는다.
[ex]
[Interquartile range]
boxplot으로 표현할 수 있다.
- 전체 데이터의 50%가 몰려 있는 범위를 나타낸다.
- 가운데에 얼마나 몰려있는지를 볼 수 있다.
- A Graphical display of the data based on the five-number summary
population
Descriptive statistics discussed previously described a sample, not the population.
즉, 우리가 보는건 population이 아닌 sample이다.
- parameters: 엄격하게 이야기하면 population을 설명하는 것이다.
- N을 쓰고 평균은 Xbar을 쓴다
- statistics: sample을 설명하는 것이다.(뒤에 s 꼭 붙여야함!)
- n을 쓰고 평균은 µ를 쓴다
mean µ
모집단의 평균이다.
population mean is the sum of the values in the population divided by the population size, N 즉,
- N: 모집단 크기
- µ: 모집단의 값의 합/N
- μ = population mean
- N = population size
- X_i = ith value of the variable X
Variance σ2
Average of squared deviations of values from the mean 즉, 평균으로부터의 값의 편차 제곱 평균이다.
- μ = population mean
- N = population size
- X_i = ith value of the variable X
🚫 주의: sample은 n-1이였다!!
정리해보자면
[Sample statistics VS population parameters]
The Empirical Rule
경험적 규칙
- If the data distribution is approximately bell-shaped, then the interval:
[µ ± 1σ]
contains about 68% of the values in the population or the sample
[µ ± 2σ]
contains about 95% of the values in the population or the sample
[µ ± 3σ]
contains about 99.7% of the values in the population or the sample
🚫 이 지표는 approximately bell-shaped에만 쓸 수 있다.
그런데 bell-shaped가 아닌 데이터 들도 있을 것이다.
➡ 이럴 때 Chebyshev Rule을 쓴다.
Chebyshev Rule
Regardless of how the data are distributed, 즉, 분포의 모양이 상관이 없이,
이 µ ± 1σ, µ ± 2σ, µ ± 3σ (여기서 1,2,3자리를 k라고 해보자 )이렇게 넓히면 넓힐수록 그 안에 최소 \((1 - 1/k^2) * 100%\) 만큼이 들어있다. (for k > 1)
즉 예를 들어보자면,
설명을 해보자면
- k=1 이면 안된다: 이 값안에 아무것도 들어있지 않다는 뜻이다(for k > 1)
- k=2: 이 분포모양이 어떻게 생겼든, µ ± 2σ라는 범위 안에 최소 75%의 데이터가 몰려있다는 것이다.
- k=3: 이 분포모양이 어떻게 생겼든, µ ± 3σ라는 범위 안에 최소 89%의 데이터가 몰려있다는 것이다.
Two Measures Of The Relationship
값이 두개가 있을 때, 그 두 값의 관계를 보는 법을 보여주는 것이다.
Covariance
즉 공분산이다
- 공분산: 두 수치 변수 사이의 선형 관계 강도(linear relationship)(X & Y)
- 어느 방향으로 대체로 움직이는지를 보는것이다
- 예를 들어 키와 몸무게는 같이 커지는 방향을 갖고있죠? 이런 선형성을 보는것입니다
- 오직 관계의 강도에만 관심이 있다.
- 어떠한 인과 영향도 내포되지 않음
이게 무슨뜻인지 더 자세하게 알아보자
[공분산 지표 해석]
- cov(X,Y) > 0: X and Y tend to move in the same direction, 즉 하나가 커질때 다른 하나도 같이 커진다
- cov(X,Y) < 0: X and Y tend to move in opposite directions , 즉 하나가 커질때 다른 하나는 작아진다
- cov(X,Y) = 0: X and Y are independent, 아무런 상관이 없다.
[PROBLEM]
하지만 이러한 두 변수가 얼마나 strong한 관계를 가지고 있는지는 모른다.
➡ 키랑 몸무게의 단위가 다르기 때문이다.
➡ 이를 해결할 수 있는것이 상관 계수 Coefficient of Correlation 이다.
Coefficient of Correlation
상관 관계
Measures the relative strength of the linear relationship between two numerical variables
위와 같은 처리를 해줌으로써 결과값이 -1~1사이의 값으로 나오게 한다.
[상관관계 지표 해석]
- The closer to 1: the stronger the positive linear relationship
- The closer to –1: the stronger the negative linear relationship
- The closer to 0: the weaker the linear relationship
📜 엑셀로 보기
문제
엑셀을 이용해서 풀어보자!
[TABLE 3-1]
Health care issues are receiving much attention in both academic and political arenas. A sociologist recently conducted a survey of citizens over 60 years of age whose net worth is too high to qualify for Medicaid and have no private health insurance. The ages of 25 uninsured senior citizens were as follows:
60 61 62 63 64 65 66 68 68 69 70 73 73
74 75 76 76 81 81 82 86 87 89 90 92
1. Referring to Table 3-1, calculate the arithmetic mean age of the uninsured senior citizens to thenearest hundredth of a year.
📜 정답 보기
평균을 구하는 문제이므로,
엑셀에서 =AVERAGE(A:Y)
를 사용한다.
74.04
2. Referring to Table 3-1, identify the median age of the uninsured senior citizens
📜 정답 보기
중간값을 구하는 문제로,
n+1/2 의 위치에 있는 값을 찾으면 된다.
n은 데이터의 총 개수다
위의 데이터는 총 25개이므로,
즉 (25+1)/2 = 13
13 번쨰 있는 데이터는 73이다.
position이 아님에 주의하자!
73
3. Referring to Table 3-1, identify the median age of the uninsured senior citizens.
a) One fourth of the senior citizens sampled are below 64 years of age.
b) The middle 50% of the senior citizens sampled are between 65.5 and 73.0 years of age.
c) 25% of the senior citizens sampled are older than 81.5 years of age.
d) All of the above are correct
📜 정답 보기
a) (n+1)(1/4) 이니 6.5 position 이니 6~7 위치에 있는 값이다. ➡ 즉, 65,66의 평균을 구하면 된다! = 65.5
➡ 64보다 밑에 있지 않다
b) 즉 Q1이 65.5이고 Q2가 73.0 이라는 것이다
➡ Q1이 65.5 맞다(a)참조 ➡ Q2는 (n+1)3/4 = 19.5 이므로 19~20 즉, 81과 82의 평균이다 즉 81.5인데 73이라고 해서 틀림
c) 즉 Q3가 81.5이다 ➡ 맞는 소리다!
d) 그럴리가…
4. Referring to Table 3-1, calculate the coefficient of variation of the ages of the uninsured senior citizens.
📜 정답 보기
coefficient of variation는 분산을 sample mean으로 나눴었다.
위에서 평균은 74.04라고 구했었다.
이제 분산을 구해보자!
엑셀의 =STDEV.S(A1:Y1)
를 쓰면 된다!! 우리는 샘플 데이터를 본것이니 .p
말고 .s
를 쓰는 것 이다.
즉 이를 평균으로 나누면,
0.1316 이 된다.
5. When extreme values are present in a set of data, which of the following descriptive summary measures are most appropriate:
a) Coefficient of variation and range.
b) arithmetic mean and standard deviation.
c) interquartile range and median.
d) variance and interquartile range.
📜 정답 보기
descriptive summary measures: 우리가 [03]에서 봤던 것들
extreme values가 있으므로 이에 영향을 받지 않는 것은
c)이다 -> interquartile range도 영향을 안받는 다는 것에 주의하자!
6. Which descriptive summary measures are considered to be resistant statistics?
a) The arithmetic mean and standard deviation.
b) The interquartile range and range.
c) The mode and variance.
d) The median and interquartile range.
📜 정답 보기
resistant statistics: extreme value가 들어와도 안정적인 값을 갖는 것
즉 5번 문제랑 똑같다는 소리이다.
d)
7. In left-skewed distributions, which of the following is the correct statement?
a) The distance from Q1 to Q2 is smaller than the distance from Q2 to Q3.
b) The distance from the smallest observation to Q1 is larger than the distance from Q3 to the largest observation.
c) The distance from the smallest observation to Q2 is smaller than the distance from Q2 to the largest observation.
d) The distance from Q1 to Q3 is twice the distance from the Q1 to Q2.
📜 정답 보기
a) 반대임
b) smallest observation이 Q1의 왼쪽이므오 처음에서 Q1사이의 거리가 오른쪽 끝에서 Q3사이의 거리보다 크니까 맞다
d) 위와 반대이다.
d) 아니다 정확히 2배인지 모른다
8. True or False: The Z score of an observation measures how many standard deviations is the value from the mean.
📜 정답 보기
TRUE
Z score 의 공식이 이것이므로 득 이 zscore가 1.6이 나왔다면,
Z = X-Xbar = 1.6*S 일 것이다. 이떄 S 는 standard deviation이므로
해석해보면,
❤ value(X)의 위치가 평균(Xbar)에서 떨어진 만큼 거리(value from the mean) 즉 차이가 standard deviation의 1.6배 이다.
[Scenario 3-2]
Energy drink consumption has continued to gain in popularity since the 1997 debut of Red Bull, the current leader in the energy drink market. Given below are the exam scores and the number of 12-ounce energy drinks consumed within a week prior to the exam of 10 college students.
Exam scores | 75 | 92 | 84 | 64 | 64 | 86 | 81 | 61 | 73 | 93 |
# of drinks | 5 | 3 | 2 | 4 | 2 | 7 | 3 | 0 | 1 | 0 |
9. Referring to Scenario 3-2, what is the sample correlation coefficient between the exam scores andthe number of energy drinks consumed?
📜 정답 보기
엑셀로 구해보자
아래와 같이 CORREL
을 쓰면 된다.
즉 1449이다.
값이 3개일 경우는, 아래와 같이 처리한다
10. Referring to Scenario 3-2, how will you classify the linear relationship between the exam scores and the number of energy drinks consumed?
a) Weak
b) Moderate
c) Strong
d) No relationship
📜 정답 보기
0.14 이므로 정말 a) Weak 하다!
대부분 0.2 이하는 weak
b) Moderate 0.5, 0.6 정도
c) Strong 0.7,0.8 정도
d) No relationship 0.1정도
하지만 통계학자마다 값이 상이함에 주의하자!