• Home
  • About
    • Yerim Oh photo

      Yerim Oh

      Happy and worthwhile day by day :)

    • Learn More
    • Email
    • LinkedIn
    • Instagram
    • Github
    • Youtube
  • Posts
    • All Posts
    • All Tags
  • Projects

[03] STATISTICS: Numerical Descriptive Measures 1 (수치적 기술 방법)

10 Mar 2020

Reading time ~5 minutes

Table of Contents
  • 목차
  • central tendency
    • Mean
    • Median
    • Mode
  • variation
    • Range
    • Sample Variance
    • Sample Standard Deviation
    • Coefficient of Variation
    • Z-Score
  • shape
    • Skewness
    • Kurtosis

목차

  • central tendency
    • Mean
    • Median
    • Mode
  • variation
    • Range
    • Sample Variance
    • Sample Standard Deviation
    • Coefficient of Variation
    • Z-Score
  • shape
    • Skewness
    • Kurtosis

👀, 🤷‍♀️ , 📜, 📝
이 아이콘들을 누르시면 정답, 개념 부가 설명을 보실 수 있습니다:)



이번 챕터에선 앞서 배운 데이터들을 대표할 값을 찾는 것이 목표이다

central tendency

the extent to which the values of a numerical variable group around a typical or central value.
즉, 표준 값 또는 중심 값 주위의 수치 변수 그룹 값의 범위이다!
가운데를 찾는 것이다!

image


Mean

즉 평균이다.
arithmetic mean(ften just called the “mean”)

  • 산술 평균(= “평균”)
  • 중심 경향을 나타내는 가장 일반적인 척도

[구하는 식]
image

[평균의 문제]
만능일것만 같은 평균에도 문제가 존재한다.
아래의 경우를 생각해보자.
아래와 같은 경우 평균이 데이터의 특징을 잘 나타내준다.
image

하지만 이 데이터에 특이값(outliers) 인 ‘20’이 들어왔다고 생각해보자
그럼 평균이 상식적으로 데이터를 잘 나타낸다고 보긴 힘들 것이다.
image

[해결]
이럴 땐 Median으로 해결하자


Median

즉 중앙값이다.
In an ordered array, the median is the “middle” number (50% above, 50% below)으로,
쉽게 쓰자면 그냥 제일 가운데에 있는 데이터를 뽑아오면 된다.
image ➡ ❤ Less sensitive than the mean to extreme values

[구하는 식]
smallest to largest

  • 값이 숫자 순서일 때 중앙값의 위치 image

값의 개수가 홀수 일 때

  • number of values is odd
  • midian의 값은 중앙값이다 (middle number)

값의 개수가 짝수 일 때

  • number of values is even
  • midian의 값은 두 중간수의 평균 (average of the two middle numbers)
    image

Mode

  • Value that occurs most often: 가장 자주 발생하는 값
  • Not affected by extreme values: 극단값의 영향을 받지 않음
  • ❤ Used for either numerical or categorical data: 수치 또는 범주형 데이터에 사용 가능
  • There may be no Mode: Mode가 없을 수 있음
  • There may be several modes: Mode가 한개가 아닐 수 있다.

image

📝 예시 보기

image



variation

분산
the amount of dispersion or scattering away from a central value that the values of a numerical variable show.
수치 변수 값이 나타내는 중심 값에서 벗어나는 산포 또는 산란의 양
그 분포가 어떻게 생겼는지를 보는 것이다

image

같은 center여도 다른 variation을 갖을 수 있다.
image

Measures of variation give information on the spread or variability of the data values


Range

범위이다.
즉, 데이터 집합에서 가장 큰 값과 가장 작은 값의 차이

  • Simplest measure of variation: 가장 간단한 변동 측정이다.
  • Difference between the largest and the smallest values in a set of data

image

[range의 문제]
평균의 문제접과 비슷하다.
Sensitive to outliers
image


Sample Variance

즉 분산이다
평균에서 벗어난 값의 제곱 편차의 평균
주로 \(S^2\) 로 나타낸다.

[구하는 식]
smaple인 경우 계산 했을 때

  • n-1로 나눔 ➡ 분산값이 더 큼
    image image

population인 경우 계산 했을 때

  • n으로 나눔 ➡ 분산값이 더 작음
  • 우리가 고등학교때 배운것이다.
  • 하지만 우리는 전체 데이터를 다루는 경우는 거의 힘들 다는 것을 배웠다.
  • 그러므로 이제 대부분 sample임을 가정하고 계산을 해야한다.

Sample Standard Deviation

표준편차다.
그냥 분산에 루트 씌우면 된다.
퍼짐의 정도 이다
주로 \(S\) 로 나타낸다.

  • Most commonly used measure of variation: 가장 일반적으로 사용되는 변동 측도
  • Shows variation about the mean: 평균에 대한 변동 표시
  • Is the square root of the variance: 분산의 제곱근
  • ❤ Has the same units as the original data: 원본 데이터와 동일한 단위 보유(제곱을 했으니 뺴준다)

image

image

즉, 퍼짐의 정도이므로 아래와 같이 나타낼 수 있다. image

📝 예시 보기

image


Coefficient of Variation

즉, 변동 계수이다.

  • 상대적: Measures relative variation
  • 퍼센트: Always in percentage (%)
  • 평균으로 나눔1: Shows variation relative to mean
  • 비교 가능: Can be used to compare the variability of two or more sets of data measured in different units

image

  • Xbar: mean

위의 설명으로 이해가 안될테니 실전 문제에 적용해보자!

[ex 1]
두 Stock의 Coefficient of Variation를 구해보고 해석해봐라
Stock A
• Average price last year = $50
• Standard deviation = $5

Stock B
• Average price last year = $100
• Standard deviation = $5

📜 정답, 해설 보기

Stock A image 1년간 평균이 50달러
50달러를 중심으로 5달러만큼 흔들렸구나
5달러 만큼 흔들림
즉 변동폭이 비교적 큼

Stock B
image 1년간 평균이 100달러
100달러를 중심으로 5달러만큼 흔들렸구나
5달러 만큼 흔들림
즉 변동폭이 비교적 작음

➡ Both stocks have the same standard deviation, but stock B is less variable relative to its price
➡ 즉, Stock A가 더 불안정하다

[ex 2]
두 Stock의 Coefficient of Variation를 구해보고 해석해봐라
Stock A
• Average price last year = $50
• Standard deviation = $5

Stock C
• Average price last year = $8
• Standard deviation = $2

📜 정답, 해설 보기

Stock A image

Stock C
image

➡ Stock C has a much smaller standard deviation but a much higher coefficient of variation


Z-Score

  • 데이터 값의 Z-점수를 계산 방법
    • 하려면 평균을 빼고 표준 편차로 나눔: subtract the mean and divide by the standard deviation.
  • Z-점수는 데이터 값이 평균에서 벗어나는 표준 편차의 수입니다.
  • 데이터 값의 Z점수가 -3.0보다 작거나 +3.0보다 크면 극단 특이치(extreme outlier) 로 간주됨.
    • 약 97%에 들지 않음
  • Z-점수의 절대값이 클수록 데이터 값이 평균에서 멀어짐.

image

  • Xbar: the sample mean
  • S: the sample standard deviation

[ex]
• Suppose the mean math SAT score is 490, with a standard deviation of 100.
• Compute the Z-score for a test score of 620.

📜 정답, 해설 보기

image 📌 “A score of 620 is 1.3 standard deviations above the mean and would not be considered an outlier.
➡ S를 1.3에 넣어보면 된다.



shape

the pattern of the distribution of values from the lowest value to the highest value.
Describes how data are distributed

Two useful shape related statistics are:

  • Skewness(왜도)
    • Measures the extent to which data values are not symmetrical
    • 데이터 값이 대칭적이지 않은 정도를 측정한다.
    • 꼭지가 어디로 치우쳐있는지
  • Kurtosis(첨도)
    • Kurtosis affects the peakedness of the curve
    • 첨도는 곡선의 정점에 영향을 미칩니다.
    • 즉 얼마나 뾰족한지

Skewness

  • Measures the extent to which data values are not symmetrical
  • 데이터 값이 대칭적이지 않은 정도를 측정한다.

왼쪽팔로 눌러 오른쪽으로 치우쳐졌다고 생각하자
image

image


Kurtosis

  • Kurtosis affects the peakedness of the curve
  • 첨도는 곡선의 정점에 영향을 미칩니다.
  • 즉 얼마나 뾰족한지

image

📜 엑셀로 확인해보기

image image image image



Mathematics Share Tweet +1