How to Win a Data Science Competition (Week1-5 part3)
Kaggle 機械学習
Published: 2019-05-21

はじめに

Coursera の 「How to Win a Data Science Competition」 のメモです。

英語字幕しかなかったので、翻訳の意味が分からないところがあるかもしれません。

Feature Preprocessing and Generation with Respect to Models

学習目標

  • Explain how employed model impacts choice of preprocessing
  • Summarize feature preprocessings for numeric and categorical features
  • Summarize feature generation approaches for datetime and coordinates
  • Summarize approaches to deal with missing values
  • Outline the pipeline of applying Bag of Words
  • Compare Bag of Words and Word2vec
  • Explain how to extract CNN descriptors from images

Datetime and coordinates

  • 数値特徴、カテゴリ特徴とは大きく異なる

Datetime

  • Datetime から生成されるほとんどの特徴は2つに分類できる
    • 期間内のある瞬間
    • データ内の繰り返しパータンを捉えるのに役立つ
    • 1週間の何日目、 季節、 年、月、日、時、分、秒
    • 特定のイベントからの経過時間
    • 行に依存しないもの (unix time)
    • 行に依存するもの (直近の休みから、次の休みまでどのくらい期間があるか)
    • 特徴間の差分

coordinates (座標)

下記を特徴として使う

  • 地図上の重要な点までの距離を計算する
  • クラスターの中央の点
  • 座標の周辺の集約統計を計算する
    • 面積
    • 極性 (polarity)

tips

  • decision trees をトレーニングする時、座標を回転させた特徴を作る
    • 回転させる角度のおすすめ (45度、22.5度)

参考