Pandas 数据结构
概述
import pandas as pd
from pandas import Series, DataFrame
Series
Series 是一种一维的类似数组的数据结构,其包含了一系列值,并有一个与之关联的数据标签,即其索引(index)。 可以在构造时传入一个 index 数组来手动指定 index。 由于 index 不只限于数值类型,因此 Series 也可以当成一个固定尺寸的有序字典来用。
Series 的构造
- 传入列表:
s = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
- 传入字典:
s = pd.Series(a_dict, index=[...])
Series 的属性
s = pd.Series([1, 2, 3, 4])
s.values
# array([1, 2, 3, 4], dtype=int64)
s.index
# RangeIndex(start=0, stop=4, step=1)
Series 和其索引都分别有一个 name 属性:
obj4.name = 'population'
obj4.index.name = 'state'
Series 相关的函数
pd.isnull(obj4)
obj4.isnull()
pd.notnull(obj4)
DataFrame
- DataFrame 表示了一个长方形的表格,其包含了一组有序的列,每一列可以有一个不同的数据类型。
- DataFrame 有一个行索引和一个列索引。
- DataFrame 可被认为是一组共享 index 的 Series 的字典。
- 可以通过直接赋值来修改其属性。
- 直接
df['new_col'] = ...
即可创建新的列,使用 del 进行删除。
DataFrame 相关的属性
# 所有列的名字列表
df.columns
# 某个列
df.col_name
# 使用 loc 属性
df.loc[]
# 交换行和列
df.T
# 名字属性
df.index.name = 'year'
df.columns.name = 'state'
# 获取索引
df.index
# 获取其值
df.values
DataFrame 相关的函数
df.head()
Links: pandas-data-structure