How to Win a Data Science Competition (Week1-4)
Kaggle 機械学習
Published: 2019-05-18

はじめに

Coursera の 「How to Win a Data Science Competition」 のメモです。

英語字幕しかなかったので、翻訳の意味が分からないところがあるかもしれません。

Introduction & Recap

学習目標

  • Describe competition mechanics
  • Compare real life applications and competitions
  • Summarize reasons to participate in data science competitions
  • Describe main types of ML algorithms
  • Describe typical hardware and software requirements
  • Analyze decision boundries of different classifiers
  • Use standard ML libraries

Software/Hardware Requirements

ハードウェア要件

メモリとCPU

コンペに出るのに困らなさそうな設定

  • メモリ(RAM): 16GB 以上
  • コア数: 4以上

かなり良い設定

  • メモリ(RAM): 32GB 以上
  • コア数: 6以上
ストレージ
  • SSD

クラウド

  • Amazon AWS
  • Microsoft’s Azure
  • Google Cloud

ソフトウェア要件

  • R
  • Python

    • Numpy

      • 線形代数ライブラリ
    • Pandas

      • データのテーブルをSQLライクに操作できる
    • Scikit-learn

      • 機械学習アルゴリズムのライブラリ
    • Matplotlib

      • 折れ線グラフ
      • ヒストグラム
      • 散布図
    • jupyter notebook

      • 対話的なIDE
    • 勾配ブースト決定木の追加パッケージ

      • XGBoost
      • LightGBM
    • Keras

      • ニューラルネットワークのフレームワーク
    • 外部ツール

      • Vowpal Wabbit

      メモリに収まらない巨大データを処理するために設計されている

      • libfm
      • libffm

      スパースデータ (疎なデータ) によく使われる

      • fast_rgf

      アンサンブルで使用するのにおすすめ

    • Anaconda

ここで紹介したものは、1つの選択肢に過ぎない。

参考