How to Win a Data Science Competition (Week2-1 part3)
Kaggle 機械学習
Published: 2019-05-25

Exploratory Data Analysis

学習目標

  • Describe the major visualization tools
  • Generate hypotheses about data
  • Inspect the data and find golden features
  • Examine and analyze various plots and other data visualizations

Exploring anonymized data

明らかにしたくない情報などを内容が分からないようにしていることがある。

データはデコード、匿名化解除することができる場合がある。

  • 個別の特徴を探索する

    • カラムの意味を推測する
    • カラムの種類を推測する
  • 特徴の関連を探索する

    • ペアの関連を見つける
    • 特徴のグループを見つける

役に立つ関数 (Pandas)

-- データの型を予測
df.dtypes

df.info()

-- 値ごとのカウント
x.value_counts()

-- nullかどうかをチェック
x.isnull()

参考