How to Win a Data Science Competition (Week3-1 part1)
Kaggle 機械学習
Published: 2019-06-16

Metrics optimization

学習目標

  • Describe the role of correct metric optimization method in a competition
  • Analyze new metrics
  • Create constant baselines
  • Recall the most important classification and regression metrics
  • Describe what libraries can be used to optimize a particular metric

Motivation

Metrics

  • 提出物の評価で使われるもの
  • コンペによって異なるのは、何に対して最適化するのかが決まっているからである
  • バリデーションデータのメトリクスを改善しても、テストデータのメトリクスが改善しないことがある

Regression metrics review I

Regression

  • MSE, RMSE, R-squared
  • MAE
  • ®MSPE, MAPE
  • ®MSLE

平均二乗誤差: MSE (Mean Square Error)

MSE=1/NNi=1(yi^yi)2

RMSE=MSE

R-squared

R2=1MSE1NNi=1(yi¯yi)2

MSEが0のとき、R-squared は1

MSEが定数と等しいとき、R-squared は0

MAE: Mean Absolute Error

MAE=1NNi=1|yi^yi|

  • MSE ほどには外れ値にペナルティを与えない
  • 最適な定数は中央値

MAE vs MSE

  • 外れ値があるなら、MAE
  • ただし、外れ値があるのが正常なら、MSE
  • 異常値であるなら、MAE

参考