EDA examples
学習目標
- Describe the major visualization tools
- Generate hypotheses about data
- Inspect the data and find golden features
- Examine and analyze various plots and other data visualizations
Springleaf competition EDA II
データの種類を決定する
特徴ごとのユニークな値の数を取得する
例
nunique = train.nunique(dropna=False)
ヒストグラムを作成する
XGBoost は同じ特徴を見つけるのに苦労する
例 訓練データの特徴を数値とカテゴリで分けます
cat_cols = list(train.select_dtypes(include=['object']).columns)
num_cols = list(train.select_dtypes(exclude=['object']).columns)
2つ目の特徴が1つ目の特徴より大きいならば、時系列の累積データの可能性がある
例えば、月ごとの累積データから、月ごとのデータを抽出するのは、線形モデル、ニューラルネットワークなら行うことができる。(tree-based model はできない)