How to Win a Data Science Competition (Week2-2 part3)
Kaggle 機械学習
Published: 2019-05-26

EDA examples

学習目標

  • Describe the major visualization tools
  • Generate hypotheses about data
  • Inspect the data and find golden features
  • Examine and analyze various plots and other data visualizations

Springleaf competition EDA II

Numerai competition EDA

コンペの例

  • ゴール: データセットに対して、二項分類のタスク
  • データ; 21の匿名化された数値的特徴データ

まずやることは、最近傍点を見つけ、21全ての特徴を追加すること

下記の 42 個の特徴を用いた、シンプルなロジスティクス回帰で TOP10 に入ることができた。

  • 元のデータから 21 個の特徴
  • 近傍点から 21 個の特徴

参考