Feature extraction from text and images
学習目標
- Explain how employed model impacts choice of preprocessing
- Summarize feature preprocessings for numeric and categorical features
- Summarize feature generation approaches for datetime and coordinates
- Summarize approaches to deal with missing values
- Outline the pipeline of applying Bag of Words
- Compare Bag of Words and Word2vec
- Explain how to extract CNN descriptors from images
Word2vec, CNN
Word2vec
Words
- Word2vec
- Glove
- FastText
Sentences
- Doc2vec
Bag of words と Word2vec の比較
Bag of words
- ベクトルがかなり大きくなる
- ベクトルのそれぞれの意味が分かっている
Word2vec
- ベクトルが比較的小さい
- 意味が解釈される時、不利になることがある
- 似ている単語はベクトル表現も似ている
画像
- 畳み込みニューラルネットワークは、画像の圧縮表現を可能にする
以下、画像の分類タスクの内容は今回省きます。
(TODO: 学んだら追記する)