Exploratory Data Analysis
学習目標
- Describe the major visualization tools
- Generate hypotheses about data
- Inspect the data and find golden features
- Examine and analyze various plots and other data visualizations
Visualizations
- 個別の特徴を探索する
- ヒストグラム
- プロット
- 統計
- 特徴の関連を探索する
- 散布図
- 相関プロット
- プロット (インデックスと特徴の統計)
個別の特徴を探索する
ヒストグラム
plt.hist(x)
プロット
plt.plot(x, '.')
散布図
plt.scatter(range(len(x)), x, c=y)
統計値
df.describe()
x.mean()
x.var()
x.value_count()
x.isnull()
特徴の関連を探索する
単一の特徴で結論を出すのが難しいことが分かる
散布図
plt.scatter(x1, x2)
pd.scatter_matrix(df)
df.corr(), plt.matshow(...)
df.mean().plt(style='.')
df.mean().sort_values().plt(style='.')
※ 関数はビデオに出てたものを写経しました。動作は確認していません。