train_test_split でデータを分割する

Python

Published: 2019-06-30

やったこと

訓練データを学習データ、性能評価用のデータに分割します。

確認環境

$ ipython --version
6.1.0
$ jupyter --version
4.3.0
$ python --version
Python 3.6.2 :: Anaconda custom (64-bit)

import sklearn
print(sklearn.__version__)

0.19.0

調査

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

from sklearn import datasets
X.shape: (150, 4)
y.shape: (150,)
X_train.shape: (120, 4)
X_test.shape: (30, 4)
y_train.shape: (120,)
y_test.shape: (30,)

全体150個のデータのうち、20% の 30個がテストデータになっていることが分かります。

参考

sklearn.model_selection.train_test_split — scikit-learn 0.21.2 documentation