모두를 위한 딥러닝 제19강 lec 07-2: Training/Testing 데이타 셋
# Model의 성능 평가방법
- Training / Testing set 두개로 나누는 경우도 있고, Training / Validation / Testing set 세개로 나누는 경우도 있다.
- case1) 2개로 나누는 경우 : Training set으로 훈련시킨 뒤, Testing set으로 오차값(선형값예측) 또는 Accuracy(분류예측)를 확인한다.
- case2) 3개로 나누는 경우 : Training set으로 훈련시킨 뒤, Validation set으로 learning rate, 람다를 여러번 튜닝한다.
그 후 최종적으로 Testing set으로 오차값(선형값예측) 또는 Accuracy(분류예측)를 확인한다.
- Validation set을 이용하는 방법은 실전 평가 전에 모의고사 단계가 추가되었다고 생각하면 됨.
- 이미지 분류문제에서는 최근 95~99%의 Accuracy를 보여주고 있음.
<MINIST Dataset에서의 Training set / Testing Set 나눔 예시>
# Online Learning
- 데이터셋이 굉장히 많을 경우, 그리고 계속해서 새로운 데이터가 추가되는 경우 사용하는 방법.
- 100만개의 데이터셋이 있을때 1/10씩 나눠서 차례대로 학습시킬 수 있고, 이전 단계에서 학습시킨 결과가 다음 단계에 남아있는 상태에서 훈련이 진행하는 방식이다.
- 그리고 이미 훈련된 모델이 있는데 이때 새로운 데이터가 들어온다고 하면 새로 들어온 데이터에 대해 추가적으로 학습을 시켜주는 방식.