[关闭]
@jk88876594 2017-08-20T12:12:12.000000Z 字数 636 阅读 3075

DataFrame——数据统计

阿雷边学边教python数据分析第3期——pandas与numpy


  1. #示例数据
  2. df = pd.read_csv("pokemon_data.csv",encoding="gbk")

一.简单随机抽样

  1. #简单随机抽样,随机抽取5行数据
  2. df.sample(n=5)
  1. #设置抽样的权重,权重高的更有希望被选取
  2. w = [0.2,0.3,0.5]
  3. df.head(3).sample(n=2,weights=w)

抽样后是否放回,由replace参数控制

  1. #抽样后不放回
  2. df.head(5).sample(n=4,replace=False)
  1. #抽样后放回
  2. df.head(5).sample(n=4,replace=True)

二.描述性统计

  1. #获得描述性统计信息
  2. df.describe().round(1)
  1. #均值
  2. df["攻击力"].mean()
  1. #标准差
  2. df["攻击力"].std()
  1. #求和
  2. df["攻击力"].sum()
  1. #中位数
  2. df["攻击力"].median()
  1. #最大值或最小值的索引idxmax,idxmin
  2. df["攻击力"].idxmax()
  1. #累计值
  2. df["攻击力"].cumsum()
  1. #频数分布
  2. df["类型1"].value_counts()

三.协方差与相关性

  1. #两变量的协方差
  2. df["攻击力"].cov(df["防御力"])
  1. #所有变量间的协方差
  2. df.cov()
  1. #两个变量间的相关系数
  2. df["攻击力"].corr(df["防御力"])
  1. #所有变量间的相关系数
  2. df.corr()

ZHZ}6FI~A`H~9}~CCI)Q5E7.png-258.9kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注