How to Win a Data Science Competition (Week2-1 part2)
Kaggle 機械学習
Published: 2019-05-25

Exploratory Data Analysis

学習目標

  • Describe the major visualization tools
  • Generate hypotheses about data
  • Inspect the data and find golden features
  • Examine and analyze various plots and other data visualizations

Building intuition about the data

  • ドメイン知識の取得
    • 深く問題を理解するのに役立つ
  • データが直感的に分かるかどうか
    • データがドメイン知識と一致するかどうか
  • データがどのように作られたかを理解する
    • 適切なバリデーションを設定することは大切

何を予測するのか、持っているデータは何か、問題に対してどのようにアプローチするかを理解すること

データのカラムの意味を理解する

訓練データ、テストデータに偏りがあると、モデルの適切な評価ができないので注意する

参考