목차
- Objectives
- Definition Of Some Terms
- After Collection It Is Often Helpful To Recode
- Types of Samples
- Types of Survey Errors
- 관련 문제 풀어보기
👀, 🤷♀️ , 📜, 📝
이 아이콘들을 누르시면 정답, 개념 부가 설명을 보실 수 있습니다:)
Objectives
- To understand issues that arise when defining variables.
- How to define variables
- How to collect data
- To identify different ways to collect a sample
- Understand the types of survey errors
Definition Of Some Terms
VARIABLE(변수): A characteristic of an item or individual.
DATA(그 안에 들어있는 value, 자료): The set of individual values associated with a variable.
STATISTICS: The methods that help transform data into useful information for decision makerse
📝 '어떤 사람의 성별이 남자다' VARIABLE 와 DATA로 나눠보면?
‘어떤 사람의 성별이 남자다’ 를 VARIABLE 와 DATA로 나눠보면?
- VARIABLE: 성별
- DATA: 남자
[문제]
‘내 학교는 한국외국어대학교이다’ 를 VARIABLE 와 DATA로 나눠보면?
- VARIABLE: 학교
- DATA: 한국외국어대학교
📜 더 정확한 정의 보기
통계: 수치로 표현되는 사실이나 자료를 수집, 분석하고 이것을 표 OR 그림으로 만들어 어떤 주제에 대한 의미있는 정보를 얻어내는 일련의 과정.
DATA(자료): 어떤 통계적 목적에 맞춰 수집된 정보
STATISTICS(통계학): 효과적인 의사결정을 내리기 위해 자료르 수집하고, 분석하고 표현하고 판단하는 과학
📜 통계학 보기
크게 기술 통계학과 추측통게학이 있다
[기술통계학 descriptive statistics]
- 자료를 수집하고 정리하여, 표 또는 그래프나 그림 등으로 나타내거나 자료를 갖는 수치적인 특성을 분석하고 설명하고 방법을 다루는 통계학의 한 분야
- 샘플이 있으면, 그 샘플들을 하나의 요약치로 표현하거나, 데이터 시각화를 하는 것을 의미 즉, 샘플의 특징을 파악하는 관점임
[추측통계학 inferential statistics]
- 표본을 대상으로 얻은 정보로부터 모집단에 대한 불확실한 특성을 과학적으로 추론하는 방법을 다루는 통계학의 한 분야
- 모집단에 대한 추론을 하기 위해서 모집단으로부터 추출한 샘플을 사용
- 이러한 추측정보를 이용해서 생산된 모든 못들의 지름에 대한 일반화 가능
데이터의 타입
Categorical (qualitative): 숫자가 아닌 글자로 표현 됨
- variables take categories as their values such as “yes”, “no”, or “blue”, “brown”, “green”.
Numerical (quantitative): 글자가 아닌 숫자로 표현됨
- variables have values that represent a counted or measured quantity.
- Discrete variables(이산적): arise from a counting process
- Continuous variables(연속적): arise from a measuring process
📝 Types of Variables 분류해보기
데이터의 출처
Primary Sources
- 내가 직접 모은다
- The data collector is the one using the data for analysis
Secondary Sources
- 이미 있는 데이터
- The person performing data analysis is not the data collector
데이터의 범위
POPULATION
- 모집단
- 데이터 전체
- 통계적 분석을 위한 관심의 대상이 되는 모든사람, 응답결과, 실험경과, 측정값들 전체의 집합
- A population consists of all the items or individuals about which you want to draw a conclusion. The population is the “large group”
📜 추가 학습
유한모집단finite population: 유한개의 자료로 구성된 모집단
무한모집단infinite population: 자료의 수가 무수히 많은 모집단
모집단 크기population siz: 모집단을 이루는 자료의 수
SAMPLE
- 표본
- 모집단의 일부로 구성된 자료들의 집합
- 전체의 일부
- population을 잘 reflect 해둬야 함
- A sample is the portion of a population selected for analysis. The sample is the “small group
- 표본의 크기 sample size: 표본을 이루는 자료의 수
정형, 비정형 데이터
Structured Data (정형데이터)
- 분석하기 편하다
- ex) Stock Ticke(주식 매표기),표와 양식의 데이터
Unstructured Data (비정형 데이터)
- 더 중요함
- 하지만 분석하기 힘듦
- 이를 정형데이터로 바꾸고자 하는 시도가 있음
- Data Cleaning 필요
- 데이터에서 “불규칙”을 발견하는 경우가 많음
- 인쇄 또는 데이터 입력 오류
- 불가능하거나 정의되지 않은 값
- 결측값
- 특이치
- 이러한 불규칙성이 발견되면 검토해야 한다.
- ex) 주식 거래와 관련하여 5명이 보낸 이메일
After Collection It Is Often Helpful To Recode
Some Variables,
- Recoding a variable can either supplement or replace the original variable: 변수를 재코딩하면 원래 변수를 보충하거나 대체가능
- Recoding a categorical variable involves redefining categories: 범주형 변수를 재코딩하려면 범주를 재정의 필요
- Recoding a quantitative variable involves changing this variable into a categorical variable: 양적 변수를 재코딩하려면 이 변수를 범주형 변수로 변경 필요
- ✔ When recoding, be sure that the new categories are mutually exclusive (categories do not overlap) and collectively exhaustive (categories cover all possible values): 재코딩 시, 새로운 범주가 상호 배타적(범주가 중복되지 않음)이고 집합적으로 완전(범주가 가능한 모든 값을 포함함)인지 확인합니다
Types of Samples
[Nonprobability Sample]
- probability를 고려하지 않은 샘플 ex) 전국이 아닌 우리 동네만 조사
- In a nonprobability sample, items included are chosen without regard to their probability of occurrence
- convenience sampling: items are selected based only on the fact that they are easy, inexpensive, or convenient to sample(그냥 그렇게 하는게 편하니까 그렇게 했다)
- judgment sample: you get the opinions of pre-selected experts in the subject matter(전문가에게만 물어봤다 ➡ 물론 좋을 수 도 있지만 probability는 없다)
[Probability Sample]
- 우리가 고려할 샘플
- Simple Random: 그냥 눈감고 무작위로 뽑는것
- • Every individual or item from the frame has an equal chance of being selected
- Systematic
- 1) 내가 N명을 뽑고 싶다고 정함
- 2) 그 내가 가진 데이터 전체를 N개의 그룹으로 나눔
- 3) 각 그룹에서 동일한 행에서 사람을 뽑음(Select every kth individual thereafter)
- Stratified
- 비율대로 뽑는다
- 같은 성질을 갖은 애들끼리 그룹핑
- 각각의 성질에 따라 카테고리를 나눈다음 이의 비율을 고려하여 뽑는다
- ex) 1학년 30%, 2학년 50%, 3학년 20% 이면 전체에서 샘플을 이 비율대로 뽑는다
- Cluster
- N개의 클러스터로 나누는데 이 각각의 클러스터가 전체 데이터와 닯아 있음
- 전체가 1학년 30%, 2학년 50%, 3학년 20%이면 각각의 클러스터도 1학년 30%, 2학년 50%, 3학년 20%.
- 그러므로 어느 클러스터를 고르던 전체의 특징을 잘 반영함
📜 more learn about Systematic
📜 통계조사 방법 간단하게
전수조사census: 진짜 싹 다 조사
표본조사sample survey: 위의 sampling
임의추출random sampling: 개개의 요소들이 선정될 가능성을 동등하게 부여하고 객관적이고 공정하게 표본을 선택하여 조사하는 방법
Types of Survey Errors
• Coverage error: Excluded from frame
• Nonresponse error: Follow up on nonresponses
• Sampling error: Random differences from sample to sample
• Measurement error: Bad or leading question
관련 문제 풀어보기
1. Which of the following is a continuous quantitative variable?
a) The color of a student’s eyes
b) The number of employees of an insurance company
c) The amount of milk produced by a cow in one 24-hour period
d) The number of gallons of milk sold at the local grocery store yesterday
📜 정답/해설 보기
c)
quantitative: 양 즉, 숫자로 나타내는 데이터
continuous: 연속적인 데이터
❔ d)는 왜 답이 아닌가?
number of 이기도 하고 상점가서 3.4562 갤런 주세요 라고 하지 않기 때문이다.
2. A study is under way in Yosemite National Forest to determine the adult height of American pine trees.
Specifically, the study is attempting to determine what factors aid a tree in reaching heights greater than 60 feet tall.
It is estimated that the forest contains 25,000 adult American pines.
The study involves collecting heights from 250 randomly selected adult American pine trees and analyzing the results. Identify the population from which the study was sampled.
a) The 250 randomly selected adult American pine trees.
b) The 25,000 adult American pine trees in the forest.
c) All the adult American pine trees taller than 60 feet.
d) All American pine trees, of any age, in the forest.
📜 정답/해설 보기
b)
It is estimated that the forest contains 25,000 adult American pines ➡ 전체 American pines이므로 population이다.
The study involves collecting heights from 250 randomly selected adult American pine trees ➡ sample이다 a)
3. A study is under way in Yosemite National Forest to determine the adult height of American pine trees.
Specifically, the study is attempting to determine what factors aid a tree in reaching heights greater than 60 feet tall.
It is estimated that the forest contains 25,000 adult American pines.
The study involves collecting heights from 250 randomly selected adult American pine trees and analyzing the results. Identify the sample in the study.
a) The 250 randomly selected adult American pine trees.
b) The 25,000 adult American pine trees in the forest.
c) All the adult American pine trees taller than 60 feet.
d) All American pine trees, of any age, in the forest.
📜 정답/해설 보기
a)
It is estimated that the forest contains 25,000 adult American pines ➡ 전체 American pines이므로 population이다. b)
The study involves collecting heights from 250 randomly selected adult American pine trees ➡ sample이다
4. To obtain a sample of 10 books in the store, the manager walked to the first shelf next to the cash register to pick the first 10 books on that shelf. This is an example of a
a) systematic sample
b) simple random sample
c) stratified sample
d) convenience sample
📜 정답/해설 보기
d)
그냥 아무생각없이 뽑은거임
5. The Dean of Students mailed a survey to a total of 400 students.
The sample included 100 students randomly selected from each of the freshman, sophomore, junior, and senior classes on campus last term. What sampling method was used?
a) Simple random sample
b) Systematic sample
c) Stratified sample
d) Cluster sample
📜 정답/해설 보기
c): 같은 성질을 가진 애들끼리 모아줌
6. Which of the following yields a cluster sample?
a) All students in a class are divided into groups of 15. One student is randomly chosen from the 1st group, the remaining observations are every 15th student thereafter.
b) The best 15 students, according to the opinion of the instructor, in a class are selected.
c) All students in a class are grouped according to their gender. A random sample of 8 is selected from the males and a separate random sample of 7 is selected from the females.
d) All students in a class are divided into groups according to the rows that they are seated. One of the groups is randomly selected.
📜 정답/해설 보기
d)
a): Systematic -> every -th b): Nonprobability Sample
c): Stratified