やったこと
pandas のデータ構造である
- Series
- DataFrame
について調べたことを書きます。
確認環境
$ ipython --version
6.1.0
$ jupyter --version
4.3.0
$ python --version
Python 3.6.2 :: Anaconda custom (64-bit)
import pandas as pd
print(pd.__version__)
0.20.3
調査
Series (シリーズ)
シリーズは1次元の配列のようなオブジェクトです。シリーズには、(NumPayが持つデータ型の)データ配列とそれに関連付けられたインデックスというデータラベルの配列が含まれます。
obj = Series([4, 7, -5, 3])
obj
0 4
1 7
2 -5
3 3
dtype: int64
DataFrame (データフレーム)
データフレームはテーブル形式のスプレッドシート風のデータ構造を持ち、順序付けられた列を持っています。各列には別々の型(数値型、文字列型、ブール型、など)を持たせることができます。データフレームは行と列の両方にインデックスを持っています。
data = {'state': ['Ohio', 'Nevada'],
'year': [2000, 2001]}
df = DataFrame(data)
df
出力結果
state | year | |
---|---|---|
0 | Ohio | 2000 |
1 | Nevada | 2001 |
参考
- Pythonによるデータ分析入門