メモ
機械学習の目的は、データの裏側に潜むパターンや関係性を学ぶことで、データについてより深い洞察を得ることです。
作業の流れ
- データを読み込み、データを整形する
- 入力データの調査および解釈を行う
- 学習アルゴリズムにどのような形でデータを入力するのが相応しいか分析を行う
- 正しいモデルと学習アルゴリズムを選択する
- 結果に対して正確な評価を行う
改良したデータに対して単純なアルゴリズムを用いるほうが、生データに対して洗練されたアルゴリズムを用いるより、結果が良いことがほとんど です。
データを改良する行為を「特徴エンジニアリング (feature engineering)」と呼ばれます。
機械学習の初心者にとって最も間違いを起こしやすい場所は、性能を評価する段階です。
たとえば、まず全データの数%だけを保持 (ホールドアウト) しておき、残りのデータを使って学習を行うとします。そして保持したデータを用い て誤差を計算するのです。
まとめ
大切なこと
- 機械学習の作業において最も大切なことは、データを理解しデータを扱いやすい形に整形すること。
- 正しい評価を行うこと。正しい評価を行うにあたって、訓練データとテストデータを区別する。
参考
- 実践機械学習システム