How to Win a Data Science Competition (Week2-1 part5)
Kaggle 機械学習
Published: 2019-05-25

Exploratory Data Analysis

学習目標

  • Describe the major visualization tools
  • Generate hypotheses about data
  • Inspect the data and find golden features
  • Examine and analyze various plots and other data visualizations

Dataset cleaning and other things to check

  • データセットクリーニング

    • 一定の特徴
    • 重複している特徴
  • 他にチェックすること

    • 重複レコード
    • データセットがシャッフルされているかどうか

コンペの主催者はデータの一部を提供する(全部ではない)

traintest.nunique(axis=1) == 1
  • サンプリングが原因で、全てのデータ(訓練データ、テストデータ)で同じものを取ることがある

特徴の重複

traintest.T.drop_duplicates()

※ 関数はビデオに出てたものを写経しました。動作は確認していません。

参考