How to Win a Data Science Competition (Week2-3 part1)

Published: 2019-05-26

Validation

コンペで leaderboard から落ちる2つの理由

次から

モデルの品質は、訓練データと、将来新しく発生するテストデータで異なる可能性がある

自分たちが持っているデータを下記のように分ける

※ テストデータの分割の仕方は kaggle のコンペの特性上2つに分ける

モデル選択をするため、繰り返し validation にかけ、スコアをチェックする

モデル選択には overfitting, underfitting していないか確認する

=> overfitting と underfitting の中間のモデルを選ぶ

一般的な overfitting と、コンペでいう overfitting は異なる

一般的な overfitting

訓練データセットの品質 > テストデータセットの品質の時

コンペでいう overfitting

テストデータセットの品質が予想より低くなった時のみ