はじめに
Coursera の 「How to Win a Data Science Competition」 のメモです。
英語字幕しかなかったので、翻訳の意味が分からないところがあるかもしれません。
Feature Preprocessing and Generation with Respect to Models
学習目標
- Analyze the final project task and requirements to compete it
- Start analyzing data in the final project
- Start creating benchmark for the final project
Final project
第5週に、コンペに出る。
- いくつかの異なるモデルを試す
- 前処理を行う
- 特徴を生成する
- テキストから特徴を抽出する
Final project overview
- コンペのチームに参加した方が良い
- 「1C」というロシアのソフトウェア会社が提供しているデータ
- トレーニングデータ
- 600 万件 (今日のコンペでは中規模のデータ量)
- あるアイテムが、ある日に、どの店舗で売れたかというデータ
- 予測するものは、来月のアイテム、店舗ごとの売上
- すぐに始めて提出し、毎週改善し続ける