@jk88876594
2017-08-20T12:12:12.000000Z
字数 636
阅读 3075
阿雷边学边教python数据分析第3期——pandas与numpy
#示例数据
df = pd.read_csv("pokemon_data.csv",encoding="gbk")
#简单随机抽样,随机抽取5行数据
df.sample(n=5)
#设置抽样的权重,权重高的更有希望被选取
w = [0.2,0.3,0.5]
df.head(3).sample(n=2,weights=w)
抽样后是否放回,由replace参数控制
#抽样后不放回
df.head(5).sample(n=4,replace=False)
#抽样后放回
df.head(5).sample(n=4,replace=True)
#获得描述性统计信息
df.describe().round(1)
#均值
df["攻击力"].mean()
#标准差
df["攻击力"].std()
#求和
df["攻击力"].sum()
#中位数
df["攻击力"].median()
#最大值或最小值的索引idxmax,idxmin
df["攻击力"].idxmax()
#累计值
df["攻击力"].cumsum()
#频数分布
df["类型1"].value_counts()
#两变量的协方差
df["攻击力"].cov(df["防御力"])
#所有变量间的协方差
df.cov()
#两个变量间的相关系数
df["攻击力"].corr(df["防御力"])
#所有变量间的相关系数
df.corr()