はじめに
Coursera の 「How to Win a Data Science Competition」 のメモです。
英語字幕しかなかったので、翻訳の意味が分からないところがあるかもしれません。
Introduction & Recap
学習目標
- Describe competition mechanics
- Compare real life applications and competitions
- Summarize reasons to participate in data science competitions
- Describe main types of ML algorithms
- Describe typical hardware and software requirements
- Analyze decision boundries of different classifiers
- Use standard ML libraries
Software/Hardware Requirements
ハードウェア要件
メモリとCPU
コンペに出るのに困らなさそうな設定
- メモリ(RAM): 16GB 以上
- コア数: 4以上
かなり良い設定
- メモリ(RAM): 32GB 以上
- コア数: 6以上
ストレージ
- SSD
クラウド
- Amazon AWS
- Microsoft’s Azure
- Google Cloud
ソフトウェア要件
- R
Python
Numpy
- 線形代数ライブラリ
Pandas
- データのテーブルをSQLライクに操作できる
Scikit-learn
- 機械学習アルゴリズムのライブラリ
Matplotlib
- 折れ線グラフ
- ヒストグラム
- 散布図
jupyter notebook
- 対話的なIDE
勾配ブースト決定木の追加パッケージ
- XGBoost
- LightGBM
Keras
- ニューラルネットワークのフレームワーク
外部ツール
- Vowpal Wabbit
メモリに収まらない巨大データを処理するために設計されている
- libfm
- libffm
スパースデータ (疎なデータ) によく使われる
- fast_rgf
アンサンブルで使用するのにおすすめ
Anaconda
ここで紹介したものは、1つの選択肢に過ぎない。