第1章 Python ではじめる機械学習 (実践機械学習システム)
機械学習
Published: 2019-05-12

メモ

機械学習の目的は、データの裏側に潜むパターンや関係性を学ぶことで、データについてより深い洞察を得ることです。

作業の流れ

  1. データを読み込み、データを整形する
  2. 入力データの調査および解釈を行う
  3. 学習アルゴリズムにどのような形でデータを入力するのが相応しいか分析を行う
  4. 正しいモデルと学習アルゴリズムを選択する
  5. 結果に対して正確な評価を行う

改良したデータに対して単純なアルゴリズムを用いるほうが、生データに対して洗練されたアルゴリズムを用いるより、結果が良いことがほとんど です。

データを改良する行為を「特徴エンジニアリング (feature engineering)」と呼ばれます。

機械学習の初心者にとって最も間違いを起こしやすい場所は、性能を評価する段階です。

たとえば、まず全データの数%だけを保持 (ホールドアウト) しておき、残りのデータを使って学習を行うとします。そして保持したデータを用い て誤差を計算するのです。

まとめ

大切なこと

  • 機械学習の作業において最も大切なことは、データを理解しデータを扱いやすい形に整形すること。
  • 正しい評価を行うこと。正しい評価を行うにあたって、訓練データとテストデータを区別する。

参考

  • 実践機械学習システム