@songying
2018-05-25T16:51:24.000000Z
字数 1574
阅读 1248
python库
from pandas import Series, DataFrame
import pandas as pd
pd.read_excel('filename', 'tablename', index_col=None, na_values=['NA']) # 读取文件数据
df.to_excel('filename', sheet_name='tablename') #将df中的数据写入excel文件
df.to_csv('filename.csv') # 将df中的数据写入CSV文件中
pd.read_csv('filename.csv') # 读csv文件数据
df.to_hdf('filename.h5','df') # 写
pd.read_hdf('filename.h5','df') # 读
Pandas 基于两种数据类型,Series 和 Dataframe。
series 是一种一维的数据类型,其中的每个元素都有各自的标签。如果你之前看过这个系列关于 Numpy 的推文,你可以把它当作一个由带标签的元素组成的
numpy
数组。标签可以是数字或者字符。dataframe 是一个二维的、表格型的数据结构。Pandas 的 dataframe 可以储存许多不同类型的数据,并且每个轴都有标签。你可以把它当作一个 series 的字典。
Series = 索引 + 数据
pd.Series(data, index=index)
# data: a python dict/list, an ndarray, a value
# index: a python list of labels
pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e']) # 从ndarray中读入
pd.Series({'a' : 0., 'b' : 1., 'c' : 2.}) # 从字典中读入
pd.Series(5., index=['a', 'b', 'c', 'd', 'e']) # 读入数字
# Series is ndarray-like
s[0] # 访问第一个元素
s[:3] # 访问第一个元素到第3个元素
# Series is dict-like
s['example_index'] = value
example_index in s
pd.read_csv:这个函数的参数有很多,这里只讲解提到的参数:
pandas.read_csv(filepath_or_buffer, sep=', ', header='infer', names=None, ...)
返回值: 一个DataFrame数组
filepath_or_buffer:文件路径。
names:array-like, default None,用于结果的列名列表,如果数据文件中没有列标题行,就需要执行header=None。默认列表中不能出现重复,除非设定参数mangle_dupe_cols=True。
header:int or list of ints, default ‘infer’。指定行数用来作为列名,数据开始行数。
如果文件中没有列名,则默认为0,否则设置为None。
如果明确设定header=0 就会替换掉原来存在列名。
pandas.DataFrame.pop
参考:官方文档
从DataFrame数组中删除item代表的那一列,并将该列作为返回。
返回值:Return item and drop from frame. Raise KeyError if not found.
DataFrame.pop(item)
- item: str类型,要删除的列名