@BruceWang 2018-04-05T02:58:42.000000Z 字数 2832 阅读 1670

统计学

数学

p(x;theta)，p(x|theta)，p(y|x;theta)，p(y|x;theta) 分别是什么意思？

；后表示参数
，表示联合概率
| 条件概率

p(x,theta)：联合概率 p(d = 1, f = 0) = n(d=1) / n(f=0)

p(x;theta) : 一般可以看作是p(x)，待估参数（是固定的，不是随机的，只是当前未知）

p(x|theta) : 条件概率，是随机变量，theta条件下（成立）x的概率，如果不表示条件概率时是和p(x;theta)等价的

p(y|x;theta): 表示基于 $x^{(i)}$ 下的 $y^{(i)}$ 分布。
p(y|x,theta)：和p(y|x;theta)不一样，（因为在这里theta不是随机变量？）

1. 什么是概率

样本空间：所有可能情况

概率是随机事件发生的可能性的大小

确定概率的古典方法：抽样模型、放回抽样、彩票问题、盒子模型、生日问题
确定概率的几何方法：会面问题、模拟随机法（蒙特卡洛方法：实验次数越多，越接近真实概率）

全概率公式(B1、B2、...相互独立)： $P(A) = \sum_{i=1}^nP(B_i)P(A|B_i)$

条件概率：P(A|B) = P（AB）/P（B） A在B条件下发生的概率----> P（AB）= P(A|B)P(B)

贝叶斯公式： $P(B_i|A) = \frac {P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)} i = 1,2,3...$

2.离散型随机变量和抽样分布的：期望(清楚)，方差、标准差

2.1 离散型随机变量

任一随机变量都有一个分布函数（无论是离散还是连续）

概率分布举例

X	1	2	3	4	5	6
P	1/6	1/6	1/6	1/6	1/6	1/6

期望

期望就是：可以理解为物理中的重心，

$E(x) = \sum_i x_iP(x_i)$
注：连续函数就求积分 p(x) = f(x) 是x的概率密度函数

$E(x) = \int_{-\infty}^{+\infty}xp(x)dx$

正态分布期望：

$E(X) = \frac{1}{\sigma \sqrt{2 \pi}}\int_{-\infty}^{+\infty}xe^{-(x - \mu)^2/2 \sigma^2} dx = \mu$

注：期望和均值是不一样的，如果p(x)都相同，期望等于均值，期望可以理解为 加权平均

方差

期望反映X值在E（X）附近波动、方差反映大小（程度）、

$Var(X) = E(X-E(X))^2 = \sum_i(x_i - E(X))^2 p(x_i)$

（ ） ，

$Var(X) = E(X^2)-[E（X）]^2， D(CX)=C^2D(X),D(X+Y)=D(X)+D(Y)$

标准差
标准差也称均方差、,它表示各数据偏离平均数的距离（离均差）的平均数

$\sigma(X) = \sqrt{Var(X)}$

注意期望存在、方差不一定存在的喔~！
方差与我们要处理的数据的量纲是不一致的
均方误差
均方误差是各数据偏离真实值的距离平方和的平均数
均方差是数据序列与均值的关系，而均方误差是数据序列与真实值之间的关系

举个例子：我们要测量房间里的温度，很遗憾我们的温度计精度不高，所以就需要测量5次，得到一组数据[x1,x2,x3,x4,x5],假设温度的真实值是x
数据与真实值的误差 $\epsilon = x-x_i$ 那么均方误差 $MSE= \frac{\sum\epsilon^2_i}{n}$

协方差

$Cov(X,Y) = E{(X-E(X)) (Y-E(Y))} = E(XY)+E(X)E(Y)$ 看作是XY的协方差,如果其不等于零，说明XY是不独立的，他们关系就用协方差来衡量
协方差矩阵

$c_{ij} = Cov(X_i,X_j) = E{[(X_i-E(X_i)(X_j-E(X_j)]} , i,j = 1,2...n$

n 维正态随机变量的概率密度

$f(x_1,x_2...x_n) = \frac{1}{2\pi^{n/2}detC^{1/2}} exp (-\frac{1}{2}(X-\mu)^TC^{-1}(X-\mu))$
就是计算各维度之间的相关性（前提是已经经过白化）,由于样本特征均值白化后为0，各特征方差一样，计算得到的协方差矩阵，其中元素的值越大，则说明对应下标的特征之间相关性越高(PCA典型应用)

2.2 对于抽样分布：

均值

$\bar X = \frac{1}{n}\sum_{i=1}^{n} X_i$
方差

$S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar X)^2$
标准差

$S = \sqrt {S^2}$

3.常用的离散分布
二项分布

只有两种可能，重复n次伯努利实验，X~b（n,p）

$P(X=k) = \left\{ \begin{matrix} n\\ k \end{matrix} \right\} \tag{2} p^k(1-p)^k \to P(X=k) = C_n^k p^k(1-p)^k,$

$C_n^k = \frac{A_n^k} {k!} = \frac{n!}{k!(n-k)!}, A_n^k = \frac{n!}{(n-k)!}$

指数分布

，

$F(x) = \frac{1}{\theta}e^{\frac{-x}{\theta}}, x>0，\theta>0, \theta \in R$

正态分布（高斯分布）

$E(X) = \frac{1}{\sigma \sqrt{2 \pi}}\int_{-\infty}^{+\infty}xe^{-(x - \mu)^2/2 \sigma^2} dx , X\thicksim N(\mu, \sigma^2)$

条件分布

$P(X=x_i|Y=y_i) = \frac {P(X=x_i,Y=y_i)}{P(Y=y_i)} = \frac{p_{ij}}{p_.j} i,j = 1,2,3...$

边缘分布函数
就是把原有的多元函数，分别趋近于无穷大、 $F_x(x) = F(x, \infty)$

4. 中心极限定理与大数定律

大数定律
表达了随机现象最根本的性质：平均结果的稳定性
中心极限定理
均值为 $\mu$ 方差为 $\sigma^2>0$ 的独立同分布的随机变量 $X_1，X_2，...，X_n$ 的算数平均 $X = \frac{1}{n}\sum^{n}_{k=1}X_k$ ，当n足够大时，这是数理统计的基础。

5. 最大似然估计

X是离散值，其分布律 $P\{X=x\} = p(x; \theta)$ 的形式已知， $X_1, X_2, ... X_n,$ 是来自X的样本，那么 $X_1, X_2, ... X_n$ 的联合分布律为

$\prod_{i=1}^{n}p(x_i; \theta)$

那么 $\{X_1=x_1, X_2=x_2,...X_n=x_n\}$ 发生的概率是：似然函数 $L(\theta)$

$L(\theta) = L(x_1,x_2,...x_n; \theta) = \prod_{i=1}^{n}p(x_i; \theta)$

则

$L(\theta) = L(x_1,x_2,...x_n; \theta) = max_{\theta\in {\Theta}}p(x_i; \theta)$

那么这个 $\theta(x_1,x_2, ...x_n)$ 就是最大似然估计值

6. 估计量的评选标准

无偏性（E(x)=x）
有效性
相合性