How to Win a Data Science Competition (Week2-1 part4)
Kaggle 機械学習
Published: 2019-05-25

Exploratory Data Analysis

学習目標

  • Describe the major visualization tools
  • Generate hypotheses about data
  • Inspect the data and find golden features
  • Examine and analyze various plots and other data visualizations

Visualizations

  • 個別の特徴を探索する
    • ヒストグラム
    • プロット
    • 統計
  • 特徴の関連を探索する
    • 散布図
    • 相関プロット
    • プロット (インデックスと特徴の統計)

個別の特徴を探索する

ヒストグラム
plt.hist(x)
プロット
plt.plot(x, '.')
散布図
plt.scatter(range(len(x)), x, c=y)
統計値
df.describe()
x.mean()
x.var()
x.value_count()
x.isnull()

特徴の関連を探索する

単一の特徴で結論を出すのが難しいことが分かる

散布図
plt.scatter(x1, x2)
pd.scatter_matrix(df)
df.corr(), plt.matshow(...)
df.mean().plt(style='.')
df.mean().sort_values().plt(style='.')

※ 関数はビデオに出てたものを写経しました。動作は確認していません。

参考