datasets 사용 개요
1️⃣ Training set으로 모델들을 학습시킨다
2️⃣ [1]에서 학습된 모델들을 Validation set으로 평가한다
3️⃣ [2]에서 Validation set으로 성능이 가장 좋았던 모델을 선택한다
4️⃣ [3]에서 선택된 모델을 최종적으로 Test datasets을 사용하여 평가한다
datasets 비율
아래의 비율을 따르는 것이 필수는 아니지만 일반적으로 아래의 비율을 따른다.
Training set : Validation set : Test sets = 60 : 20 : 20
Training datasets
= 훈련 데이터
모델들을 학습하는데 사용된다.
명확히 구분하지 않는다면 Validation datasets을 포함한 개념으로 보기도 한다
Validation datasets
= 검정 데이터
Training datasets으로 만들어진 모델들의 성능을 측정하기 위해 사용됨
어떤 모델이 가장 데이터에 적합한지 찾아내기 위해서 다양한 파라미터와 모델을 사용해봄
➡ 그 중 validation set으로 가장 성능이 좋았던 모델을 선택
test datasets
= 테스트 데이터
validation set으로 사용할 모델이 결정 된 후, 마지막으로 딱 한번 해당 모델의 예상되는 성능을 측정하기 위해 사용됨
test set은 최종 모델에 대해 단 한번 성능을 측정하며, 앞으로 기대되는 성능을 예측하기 위해 사용됨
➡ 한반도 사용해본 적 없는 test set을 사용하여 최종 모델의 성능을 측정