How to Win a Data Science Competition (Week2-3 part1)
Kaggle 機械学習
Published: 2019-05-26

Validation

学習目標

  • Describe validation process and its purpose
  • Compare validation strategies
  • Identify train/test split in a competition
  • Identify and analyze validation problems

Validation and overfitting

コンペで leaderboard から落ちる2つの理由

  • public leaderboard に対して、1番高いものを提出したこと
  • public/private に対して、一貫した分割を行なっていない または、データが少ない場合

次から

  • validation、overfitting (オーバーフィッティング) の概念を理解すること
  • 安定した validation が行われるべき分割数
  • コンペでよく使われる訓練データ/テストデータの分割方法
  • validation でよく発生する問題

モデルの品質は、訓練データと、将来新しく発生するテストデータで異なる可能性がある

自分たちが持っているデータを下記のように分ける

※ テストデータの分割の仕方は kaggle のコンペの特性上2つに分ける

  • 訓練データ
  • バリデーションデータ
  • テストデータ (public)
  • テストデータ (private)

モデル選択をするため、繰り返し validation にかけ、スコアをチェックする

モデル選択には overfitting, underfitting していないか確認する

=> overfitting と underfitting の中間のモデルを選ぶ

一般的な overfitting と、コンペでいう overfitting は異なる

一般的な overfitting

訓練データセットの品質 > テストデータセットの品質 の時

コンペでいう overfitting

テストデータセットの品質が予想より低くなった時のみ

訓練データとバリデーションデータ

  • underfitting の時、両方高いエラー率
  • overfitting の時、訓練データはエラー率低く、バリデーションデータはエラー率高い

参考