목차
👀, 🤷♀️ , 📜, 📝
이 아이콘들을 누르시면 정답, 개념 부가 설명을 보실 수 있습니다:)
Organizing
Categorical Data
One Categorical Variable
질문이 하나다.
[A summary table]
범주 집합에서 항목의 빈도 또는 백분율을 수집하여 범주 간의 차이를 확인 가능.
즉 하나에 질문에 대해 나오는 답들을 백분율로 표시한 것
tallies the frequencies or percentages of items in a set of categories so that you can see differences between categories ex)
1개의 질문과 5가지의 옵션(답)이 있다
Two Categorical Variables
질문이 두개다
[Contingency Table]
둘 이상의 범주형 변수의 반응 사이에 존재할 수 있는 패턴을 연구하는 데 사용됨
• 범주형 변수(categorical variables)의 반응을 교차표 또는 합동으로 취합 • 두 변수의 경우 한 변수에 대한 키가 행에 있고 두 번째 변수의 키가 열에 있음
ex)
Numerical Data
[Ordered Array]
오름차순으로 정리
- An ordered array is a sequence of data, in rank order, from the smallest value to the largest value.
- Shows range (minimum value to maximum value)
- May help identify outliers (unusual observations)
ex)
[Frequency Distribution]
빈도순으로 나열하는 것
[Cumulative Distributions]
Frequency Distribution를 만든 후, 이를 누적한 것
📜 Frequency, Cumulative Distribution 예시 보기
Example: A manufacturer of insulation randomly selects 20
winter days and records the daily high temperature
24, 35, 17, 21, 24, 37, 26, 46, 58, 30, 32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Sort raw data in ascending order:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
- Find range: 58 - 12 = 46
- Select number of classes: 5 (usually between 5 and 15
- Compute class interval (width): 10 (46/5 then round up)
- Determine class boundaries (limits):
- Class 1: 10 but less than 20
- Class 2: 20 but less than 30
- Class 3: 30 but less than 40
- Class 4: 40 but less than 50
- Class 5: 50 but less than 60
- Compute class midpoints: 15, 25, 35, 45, 55
- Count observations & assign to classes
- cumulative Frequency: 누적 빈도
Visualizing
Categorical Data
Summary Table For One Variable
[Bar Chart]
visualizes a categorical variable as a series of bars
- 각 막대의 길이는 각 범주의 값 빈도 또는 백분율을 나타냄
- 각 막대는 간격(gap)이라고 불리는 공간에 의해 분리됨(히스토그램과 가장 큰 차이)
[pie chart]
범주를 나타내는 조각으로 분할된 원.
- 파이의 각 조각의 크기는 각 범주의 백분율에 따라 다름.
- 전체 중의 비율을 보기 쉬움
[Pareto Chart]
범주형 데이터를 묘사하는 데 사용됨.
- 주파수의 내림차순으로 범주가 표시되는 수직 bar 차트
- bar 차트를 정렬한 것
- 누적 다각형이 동일한 그래프에 표시됨.
- “소수의”와 “소수의”를 분리하는 데 사용
- ❤ “vital Few” 집중해야할 곳(빈도수가 높은 즉 앞에 혹은 뒤에 오는 것) 이렇게 요약해서
이렇게 정렬한 것
Summary Table For Two Variable
[side by side bar chart]
Numerical Data
Ordered Array
[Stem-and-Leaf Display]
잘 안쓴다
Frequency Distributions and Cumulative Distributions
[Histogram]
빈도 분포의 데이터에 대한 수직 막대 차트
⛔ bar 차트와 헷갈리지 말기!!!
- 히스토그램에는 인접한 막대 사이에
간격(gap)이 없습니다.- 왜냐하면 연속되어있기 때문이다
- 등급 경계(또는 등급 중간점)는 수평 축에 표시됨.
- 수직 축은 주파수, 상대 주파수 또는 백분율 임.
- 막대의 높이는 주파수, 상대 주파수 또는 백분율을 나타냄.
[polygon]
- percentage polygon(백분율 폴리곤): 각 클래스의 중간점이 해당 클래스의 데이터를 나타내도록 한 다음 중간점 시퀀스를 각각의 클래스 백분율로 연결함으로써 형성됨
- cumulative percentage polygon, ogive(누적 백분율 폴리곤): X축을 따라 관심 변수를 표시하고 Y축을 따라 누적 백분율을 표시
- 비교할 그룹이 둘 이상 있을 때 유용
Two Numerical Data
[Scatter Plot]
- 산점도는 두 수치 변수에서 얻은 쌍체 관측치로 구성된 수치 데이터에 사용됨
- 한 변수는 수직축에서 측정되고 다른 변수는 수평축에서 측정됨
- 두 수치 변수 사이의 가능한 관계를 조사하기 위해 사용됨
[Time-Series Plot]
- x축이 시간일 경우
문제
[TABLE A]
The following are the durations in minutes of a sample of long-distance phone calls made within the continental United States reported by one long-distance carrier. Relative
Time (in Minutes) | Frequency |
---|---|
0 but less than 5 | 0.37 |
5 but less than 10 | 0.22 |
10 but less than 15 | 0.15 |
15 but less than 20 | 0.10 |
20 but less than 25 | 0.07 |
25 but less than 30 | 0.07 |
30 or more | 0.02 |
1. Referring to Table A, what is the width of each class?
a) 1 minute
b) 5 minutes
c) 2%
d) 100%
📝 답 보기
각 클래스의 range를 구해하 즉 5-0
b)
2. Referring to Table A, if 100 calls were randomly sampled, how many calls lasted 15 minutes or longer?
📝 답 보기
15 minutes or longer?의 확률을 더하면 0.10+0.07+0.07+0.02 = 0.26 이므로 100*0.26 = 26
26
3. Referring to Table A, what is the cumulative relative frequency for the percentage of calls that lasted under 20 minutes?
📝 답 보기
20 minutes 이하의 누적이므로,
0.37+0.22+0.15+0.10 = 0.84
0.84
4. Data on 1,500 students’ height were collected at a larger university in the East Coast. Which of the following is the best chart for presenting the information?
a) A pie chart.
b) A Pareto diagram.
c) A side-by-side bar chart.
d) A histogram.
📝 답 보기
numerical이므로
d)
5. You have collected data on the approximate retail price (in $) and the energy cost per year (in $) of 15 refrigerators. Which of the following is the best for presenting the data?
a) A pie chart.
b) A scatter diagram
c) A side-by-side bar chart.
d) A contingency table.
📝 답 보기
numerical이고 2개이므로,
b)
6. You have collected data on the number of U.S. households actively using online banking and/or online bill payment from 1995 to 2007. Which of the following is the best for presenting the data?
a) A pie chart.
b) A side-by-side bar chart.
c) A time-series plot.
📝 답 보기
numerical이고 2개, 시간이므로, c)
7. You have collected data on the responses to two questions asked in a survey of 40 college students majoring in business—What is your gender (Male = M; Female = F) and What is your major (Accountancy = A; Computer Information Systems = C; Marketing = M). Which of the following is the best for presenting the data?
a) A contingency table.
b) A time-series plot.
c) A Pareto diagram.
📝 답 보기
categorical, 2 Question
a)
8. True or False: The sum of relative frequencies in a distribution always equals 1.
📝 답 보기
relative
True
9. True or False: The sum of cumulative frequencies in a distribution always equals 1
📝 답 보기
cumulative
False