How to Win a Data Science Competition (Week2-4 part1)
Kaggle 機械学習
Published: 2019-05-28

Data Leakages

学習目標

  • Embrace the concept of data leakage
  • Find and exploit typical data leakages
  • Probe public leaderboard

Basic data leaks

リークとは

非現実的に良い予測をする予期しないデータ内の情報

リークが発生するのは、エラー、事故の結果である

データリークの種類

  • 時系列データ

    • 訓練データ、公開テストデータ、非公開テストデータで、時間順になってないものがあるなら、リークを見つけたことになる
  • 期待していない情報

    • メタ情報、ファイル作成日、画像の解像度 などから見つける (はるかに困難)
    • ID の情報
    • 行番号

参考