はじめに
Coursera の 「How to Win a Data Science Competition」 のメモです。
英語字幕しかなかったので、翻訳の意味が分からないところがあるかもしれません。
Introduction & Recap
学習目標
- Describe competition mechanics
- Compare real life applications and competitions
- Summarize reasons to participate in data science competitions
- Describe main types of ML algorithms
- Describe typical hardware and software requirements
- Analyze decision boundries of different classifiers
- Use standard ML libraries
Welcome to “How to win a data science competition”
知っておくべきこと
- 前処理
- 特徴の抽出
- 正しくバリデーションを設定する
- 与えられた測定基準を最適化する
- 潜在的なデータ漏洩の原因について
- モデルでパラメータを調整すること
- 特徴量の生成方法
- モデルをアンサンブルする方法
データ漏洩ってなに
Leakage とは、モデルを作るときに、本来知らないはずの情報(変数やデータ)を不当に使ってしまうこと
モデルの選択が与える影響
We will see, that the choice of the machine learning model impacts both preprocessing we apply to the features and our approach to generation of new ones.
モデルの選択によって、前処理、新しい特徴量の生成のアプローチが変わってくるようです。
このコースの目標
データサイエンスのコンペに出る知識を身に付けること
1週目
- コンペの仕組み (実務との違い)
- 主要な機械学習のモデル
- データ分析のためのPythonライブラリ
- 特徴の種類、前処理、新しい特徴の作成 (テキスト、画像から特徴を抽出)
2週目
- コンペの最初にやること(データフレーム、モデル)
- データ分析のトピック、EDA (探索的データ解析)
- データの分析方法(匿名化された特徴、データをきれいにする)
- 検証(データ漏洩、Leaderboard の問題)
3週目
- 様々な回帰と分類の測定基準
- mean-encodings
4週目
- 他の高度な特徴
- 統計と距離に基づく特徴
- t-SNE (高次元データの次元を圧縮するアルゴリズム)
- パラメータ調整
- モデルのアンサンブル