はじめに
Coursera の 「How to Win a Data Science Competition」 のメモです。
英語字幕しかなかったので、翻訳の意味が分からないところがあるかもしれません。
Feature Preprocessing and Generation with Respect to Models
学習目標
- Explain how employed model impacts choice of preprocessing
- Summarize feature preprocessings for numeric and categorical features
- Summarize feature generation approaches for datetime and coordinates
- Summarize approaches to deal with missing values
- Outline the pipeline of applying Bag of Words
- Compare Bag of Words and Word2vec
- Explain how to extract CNN descriptors from images
Datetime and coordinates
- 数値特徴、カテゴリ特徴とは大きく異なる
Datetime
- Datetime から生成されるほとんどの特徴は2つに分類できる
- 期間内のある瞬間
- データ内の繰り返しパータンを捉えるのに役立つ
- 1週間の何日目、 季節、 年、月、日、時、分、秒
- 特定のイベントからの経過時間
- 行に依存しないもの (unix time)
- 行に依存するもの (直近の休みから、次の休みまでどのくらい期間があるか)
- 特徴間の差分
coordinates (座標)
下記を特徴として使う
- 地図上の重要な点までの距離を計算する
- クラスターの中央の点
- 座標の周辺の集約統計を計算する
- 面積
- 極性 (polarity)
tips
- decision trees をトレーニングする時、座標を回転させた特徴を作る
- 回転させる角度のおすすめ (45度、22.5度)