[关闭]
@songying 2018-05-25T16:51:24.000000Z 字数 1574 阅读 1248

Pandas

python库

参考

10 Minutes to pandas

十分钟快速入门 Pandas

Pandas速查手册中文版

引入

  1. from pandas import Series, DataFrame
  2. import pandas as pd

读写文件数据

读写excel文件

  1. pd.read_excel('filename', 'tablename', index_col=None, na_values=['NA']) # 读取文件数据
  2. df.to_excel('filename', sheet_name='tablename') #将df中的数据写入excel文件

读写CSV文件

  1. df.to_csv('filename.csv') # 将df中的数据写入CSV文件中
  2. pd.read_csv('filename.csv') # 读csv文件数据

读写HDF5文件

  1. df.to_hdf('filename.h5','df') # 写
  2. pd.read_hdf('filename.h5','df') # 读

Pandas中的数据类型

Pandas 基于两种数据类型,Series 和 Dataframe。

series 是一种一维的数据类型,其中的每个元素都有各自的标签。如果你之前看过这个系列关于 Numpy 的推文,你可以把它当作一个由带标签的元素组成的 numpy 数组。标签可以是数字或者字符。

dataframe 是一个二维的、表格型的数据结构。Pandas 的 dataframe 可以储存许多不同类型的数据,并且每个轴都有标签。你可以把它当作一个 series 的字典。

Series

Series = 索引 + 数据

创建Series

  1. pd.Series(data, index=index)
  2. # data: a python dict/list, an ndarray, a value
  3. # index: a python list of labels
  4. pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e']) # 从ndarray中读入
  5. pd.Series({'a' : 0., 'b' : 1., 'c' : 2.}) # 从字典中读入
  6. pd.Series(5., index=['a', 'b', 'c', 'd', 'e']) # 读入数字

对Series的操作

  1. # Series is ndarray-like
  2. s[0] # 访问第一个元素
  3. s[:3] # 访问第一个元素到第3个元素
  4. # Series is dict-like
  5. s['example_index'] = value
  6. example_index in s
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注