Validation
学習目標
- Describe validation process and its purpose
- Compare validation strategies
- Identify train/test split in a competition
- Identify and analyze validation problems
Problems occurring during validation
バリデーション段階の問題
- データがあまりにも少ないとき
- データが多様すぎて、不整合があるとき
- KFold は大抵多くても5で充分
課題の提出段階の問題
- リーダーボードのスコアがバリデーションスコアより一貫して、高い or 低い
- リーダーボードのスコアがバリデーションスコアと相関がない
発生する原因
- Kfold でかなり異なるスコアかもしれない
- 公開リーダーボードのデータが少なすぎる場合
- 訓練データとテストデータの分布が異なっているかもしれない
まとめ
- 公開テストデータが少な過ぎる場合、バリデーションを信頼する(オーバフィットしてないことも確認)
- 訓練データとテストデータの分け方
- 訓練データとテストデータの分布