How to Win a Data Science Competition (Week3-1 part1)
Kaggle 機械学習
Published: 2019-06-16

Metrics optimization

学習目標

  • Describe the role of correct metric optimization method in a competition
  • Analyze new metrics
  • Create constant baselines
  • Recall the most important classification and regression metrics
  • Describe what libraries can be used to optimize a particular metric

Motivation

Metrics

  • 提出物の評価で使われるもの
  • コンペによって異なるのは、何に対して最適化するのかが決まっているからである
  • バリデーションデータのメトリクスを改善しても、テストデータのメトリクスが改善しないことがある

Regression metrics review I

Regression

  • MSE, RMSE, R-squared
  • MAE
  • ®MSPE, MAPE
  • ®MSLE

平均二乗誤差: MSE (Mean Square Error)

$$ MSE = 1/N * \sum_{i=1}^N (y_i - \hat{y_i})^2 $$

$$ RMSE = \sqrt{MSE} $$

R-squared

$$ R^2 = 1 - \frac{MSE}{\frac{1}{N}\sum_{i=1}^N (y_i - \bar{y_i})^2} $$

MSEが0のとき、R-squared は1

MSEが定数と等しいとき、R-squared は0

MAE: Mean Absolute Error

$$ MAE = \frac{1}{N}\sum_{i=1}^N|y_i - \hat{y_i}| $$

  • MSE ほどには外れ値にペナルティを与えない
  • 最適な定数は中央値

MAE vs MSE

  • 外れ値があるなら、MAE
  • ただし、外れ値があるのが正常なら、MSE
  • 異常値であるなら、MAE

参考