How to Win a Data Science Competition (Week2-3 part3)
Kaggle 機械学習
Published: 2019-05-28

Validation

学習目標

  • Describe validation process and its purpose
  • Compare validation strategies
  • Identify train/test split in a competition
  • Identify and analyze validation problems

Data splitting strategies

バリデーションの種類

バリデーションデータを作成するのに下記3通りがある。

  • ランダムに分ける
  • 時系列で分ける
  • idごとに分ける
  • 組み合わせ

あるモデルで、有効な特徴も他のモデルでは役に立たないことがある

異なる分割戦略

  • 生成された特徴では
  • モデルはその生成された特徴に依存する
  • ある種のリークがある

バリデーションの時に、コンペの主催者によって、作成された訓練データ、テストデータを再現するのが大切

参考