How to Win a Data Science Competition (Week2-2 part2)
Kaggle 機械学習
Published: 2019-05-26

EDA examples

学習目標

  • Describe the major visualization tools
  • Generate hypotheses about data
  • Inspect the data and find golden features
  • Examine and analyze various plots and other data visualizations

Springleaf competition EDA II

データの種類を決定する

特徴ごとのユニークな値の数を取得する

nunique = train.nunique(dropna=False)

ヒストグラムを作成する

XGBoost は同じ特徴を見つけるのに苦労する

例 訓練データの特徴を数値とカテゴリで分けます

cat_cols = list(train.select_dtypes(include=['object']).columns)
num_cols = list(train.select_dtypes(exclude=['object']).columns)

2つ目の特徴が1つ目の特徴より大きいならば、時系列の累積データの可能性がある

例えば、月ごとの累積データから、月ごとのデータを抽出するのは、線形モデル、ニューラルネットワークなら行うことができる。(tree-based model はできない)

参考