How to Win a Data Science Competition (Week2-3 part4)
Kaggle 機械学習
Published: 2019-05-29

Validation

学習目標

  • Describe validation process and its purpose
  • Compare validation strategies
  • Identify train/test split in a competition
  • Identify and analyze validation problems

Problems occurring during validation

バリデーション段階の問題

  • データがあまりにも少ないとき
  • データが多様すぎて、不整合があるとき
  • KFold は大抵多くても5で充分

課題の提出段階の問題

  • リーダーボードのスコアがバリデーションスコアより一貫して、高い or 低い
  • リーダーボードのスコアがバリデーションスコアと相関がない

発生する原因

  • Kfold でかなり異なるスコアかもしれない
  • 公開リーダーボードのデータが少なすぎる場合
  • 訓練データとテストデータの分布が異なっているかもしれない

まとめ

  • 公開テストデータが少な過ぎる場合、バリデーションを信頼する(オーバフィットしてないことも確認)
  • 訓練データとテストデータの分け方
  • 訓練データとテストデータの分布

参考