How to Win a Data Science Competition (Week1-6 part2)
Kaggle 機械学習
Published: 2019-05-22

Feature extraction from text and images

学習目標

  • Explain how employed model impacts choice of preprocessing
  • Summarize feature preprocessings for numeric and categorical features
  • Summarize feature generation approaches for datetime and coordinates
  • Summarize approaches to deal with missing values
  • Outline the pipeline of applying Bag of Words
  • Compare Bag of Words and Word2vec
  • Explain how to extract CNN descriptors from images

Word2vec, CNN

Word2vec

Words

  • Word2vec
  • Glove
  • FastText

Sentences

  • Doc2vec

Bag of words と Word2vec の比較

  • Bag of words

    • ベクトルがかなり大きくなる
    • ベクトルのそれぞれの意味が分かっている
  • Word2vec

    • ベクトルが比較的小さい
    • 意味が解釈される時、不利になることがある
    • 似ている単語はベクトル表現も似ている

画像

  • 畳み込みニューラルネットワークは、画像の圧縮表現を可能にする

以下、画像の分類タスクの内容は今回省きます。

(TODO: 学んだら追記する)