Exploratory Data Analysis
学習目標
- Describe the major visualization tools
- Generate hypotheses about data
- Inspect the data and find golden features
- Examine and analyze various plots and other data visualizations
Dataset cleaning and other things to check
データセットクリーニング
- 一定の特徴
- 重複している特徴
他にチェックすること
- 重複レコード
- データセットがシャッフルされているかどうか
コンペの主催者はデータの一部を提供する(全部ではない)
traintest.nunique(axis=1) == 1
- サンプリングが原因で、全てのデータ(訓練データ、テストデータ)で同じものを取ることがある
特徴の重複
traintest.T.drop_duplicates()
※ 関数はビデオに出てたものを写経しました。動作は確認していません。