概率论：均值、方差与协方差矩阵_均值向量和协方差矩阵

均值、方差和标准差

给定一个含有n个样本的集合，可以得到样本的均值，方差和标准差。

x ¯=1 n ∑ i =1 n x i

s 2=1 n ∑ i =1 n ( x i − x ¯)2

方差的算术平方根称为该随机变量的 标准差 。反应组内个体的离散程度，用数学符号σ表示。

总体标准差

为什么方差和标准差这里除以的是n-1 而不是 n？

[ 为什么样本方差（sample variance）的分母是 n-1？ - 知乎 ]
这个讨论下有很多答案，综合来看就很完善了。其实在现在的大数据情况下，这一区别也就很小了。

样本均值的抽样分布

[ 第 1 章绪论 | 数理统计讲义 ]

精度precision

方差的倒数。β = 1/σ^2。

加权平均值

加权标准差

[ 如何计算加权标准偏差？在Excel中？ ]

参见wiki中的数学定义如下：
这里写图片描述

期望的性质

[ 条件数学期望 ]

皮皮blog

一个随机变量的方差描述的是它的离散程度，也就是该变量离其期望值的距离。
这里写图片描述

方差的性质

随机变量的乘积和商的方差

一般V(x1x2)的方差推导到右边第二步即可，因为第4步中计算V(x1)还是需要通过V(x)公式计算（需要计算E(x^2)）
同理V(x1/x2-b)=E(x1^2)/E(x2^2)-[E(x1)]^2/[E(x2)]^2

[ 想问随机变量的乘积的方差怎么推？还有随机变量的商的方差呢 - 知乎 ]

方差体现的向量性质

切比雪夫不等式

切比雪夫不等式，对任何分布形状的数据都适用。lz这个不等式衡量的是变量的样本值和总体均值的接近程度。

在概率论中，切比雪夫不等式（英语：Chebyshev's Inequality）显示了随机变量的“几乎所有”值都会“接近”平均。这个不等式以数量化这方式来描述，究竟“几乎所有”是多少，“接近”又有多接近：

与平均相差2个标准差以上的值，数目不多于1/4
与平均相差3个标准差以上的值，数目不多于1/9
与平均相差4个标准差以上的值，数目不多于1/16
……
与平均相差k个标准差以上的值，数目不多于1/k^2

举例说，若一班有36个学生，而在一次考试中，平均分是80分，标准差是10分，我们便可得出结论：少于50分或多于110分（与平均相差3个标准差以上）的人，数目不多于4个（=36*1/9）。

[ https://zh.wikipedia.org/wiki/%E5%88%87%E6%AF%94%E9%9B%AA%E5%A4%AB%E4%B8%8D%E7%AD%89%E5%BC%8F ]

Chernoff-Hoeffding不等式

lz这个不等式衡量的是样本均值和真实均值的期望的接近程度。

[ 统计学习中的几个概率不等式 ]

在ucb中的应用
求估计出来的前n次收益均值ra^bar 跟真实收益ra的差值的概率上下界。

[ 计算广告中的点击率预估问题 ]

[ Chernoff-Hoeffding Bound ]

皮皮blog

方差和标准差反应的是一维数据的分布情况，那么如果要处理二维甚至更高维度的数据时该怎么办呢？
协方差表示的是两个随机变量的关系，首先我们看下它的定义：
这里写图片描述
联系前面的方差也就很好理解了，方差其实就是协方差的特殊形式

那么协方差是如何表示两个随机变量的关系的呢？
协方差表示在多大程序上x和y会共同变化。简单来说就是如果两个随机变量的协方差>0，则两者是正相关的，结果为负值就说明负相关的。如果为0，说明两者是不相关的，这里特别说明下，如果两个随机变量是相互独立的那么协方差
cov(X, Y) = cov( Y, X) = E(X, Y ) - uv = E(X) E(Y) - uv = uv- uv = 0
但是如果cov(X, Y) = 0 并不能说明X， Y相互独立，只能说明两者不相关，这里牵扯到相关系数，不详细说了。

[ 协方差的意义 ]

协方差矩阵

协方差计算的是两个随机变量间的关系，那么如果有n个随机变量呢，两两计算cov需要计算 n !2( n −2)!次，因此用矩阵来表示这个计算就得到协方差矩阵了。
定义：
这里写图片描述
Note : 根据定义，上面的协方差矩阵计算的是行向量X1, X2...（其中Xi代表的的随机变量，不是观测值）之间的协方差。随机变量举个例子就是坐标系中不同维度（坐标）(x1, x2, ..., xn)而不是坐标点(xi, yi, zi)，这点要格外注意。

协方差使用示例

设有一个三维的数据集{ X， Y， Z}，则协方差矩阵如下：
这里写图片描述

下面用代码验证下结果，并说下python中的协方差矩阵的函数使用。

4个坐标点，共3个维度（变量），每个维度4个值，下面这段代码中E是通过上面的公式来计算协方差矩阵的，然后调用np.cov(X, bias=1)和np.cov(X)函数进行对比：

import numpy as np
X = np.array([[0, 0, 0], [1, 0, 1], [1, 0, 0], [1, 1, 0]]).T
print('X = \n%s\n' % X)
X_mean = np.mean(X, 1)
E = np.zeros([len(X), len(X)])
for i in range(len(X)):
    for j in range(i, len(X)):
        E[j, i] = E[i, j] = (X[i] - X_mean[i]).dot(X[j] - X_mean[j]) / len(X[i])
print('E = \n%s\n' % E)
print("np.cov(X, bias=1) = \n%s\n" % np.cov(X, bias=1))
print("np.cov(X) = \n%s\n" % np.cov(X))
结果如下：
 X = 
 [[0 1 1 1]
  [0 0 0 1]
  [0 1 0 0]]

 E = 
 [[ 0.1875  0.0625  0.0625]
  [ 0.0625  0.1875 -0.0625]
  [ 0.0625 -0.0625  0.1875]]

 np.cov(X, bias=1) = 
 [[ 0.1875  0.0625  0.0625]
  [ 0.0625  0.1875 -0.0625]
  [ 0.0625 -0.0625  0.1875]]

 np.cov(X) = 
 [[ 0.25        0.08333333  0.08333333]
  [ 0.08333333  0.25       -0.08333333]
  [ 0.08333333 -0.08333333  0.25      ]] 
因此，python中cov默认（也就是bias=0）的计算公式应该如下：
 
且不同维度的表示用的是行向量，就是X中元素是行向量，代表某个维度。 
Note:  
1. numpy中的方差计算是除以N，而协方差计算是除以N-1，所以会发现单独计算向量的方差并不会与计算两个向量的协方差矩阵对角线上的元素相等！[numpy教程 - 统计函数] 
2. 注意这里的(X[i] - X_mean[i]).dot(X[j] - X_mean[j]) / len(X[i])，其中(X[i] - X_mean[i]).dot(X[j] - X_mean[j]) 是向量相乘，相当于使用了和公式∑，之后再除以len(X[i]) 
from:概率论：均值、方差与协方差矩阵_皮皮blog-CSDN博客_均值和方差 
                    http://blog.csdn.net/pipisorry/article/details/48788671要理解协方差矩阵，从以下几个步骤来说 期望 ——> 方差——>协方差——>协方差矩阵，这样更能理解它的由来和意义。本文主要讲意义和python里的使用，其实协方差矩阵有很强的实际意义和应用实例，有机会再补充。均值、方差和标准差给定一个含有n个样本的集合，可以得到样本的均值，方差和标准差。...
				方差 (variance)：单个向量
方差用来描述数值的分散(离散)程度，某个变量(向量)的方差可以用该变量的每个元素减去均值的完全平方再求平均来求得。
Var(a)=1m.∑i=1m(ai−μ)2
Var(a) = \frac 1m.\sum_{i=1}^{m} {(a_i-\mu)^2}
Var(a)=m1.i=1∑m(ai−μ)2
若将变量的均值化为零，则可以有
Var(a)=1m.∑i=1mai2
Var(a) = \frac 1m.\sum_{i=1}^{m} {a_i^2}
Var(a)=
本文通过探索线性变换和变换后数据协方差的的关系，提供一个直观的、几何图示的协方差矩阵解释。大多数教材都是通过协方差矩阵的概念来解释数据的分布形状。相反的我们通过数据分布的形状来解释协方差矩阵。
在先前的文章里我们探讨和方差的概念，并给出了预估方差的公式的推导和证明。这里Figure 1 展现了标准差——方差的根，量化了整个数据的分布：
下边这个公式可以或许样本方差的估计值：
σ2=1N−1∑i=1N(xi−μ)2=E[(x−E(x))(x−E(x))]=σ(x,x)\sigma^2=\frac{1
那么，正态分布的方差为：
-----------------------------------------------------------------------------
2.协方差矩阵
协方差矩阵 的理解可以参考这篇博客：https://zhuanlan.zhihu.com/p/706441
对于一般的分布，直接代入E(X)之类的就可以计算出来了，但真给你一个具体数值的分布，要计算协方差矩阵，根据这个公式来计算，还真不容易反应过来。网上值得参考的资料也不多，这里用一个例子说明协方差矩阵是怎么计算出来的吧。
记住，X、Y是一个列向量，它表示了
习题2.3
现选取内蒙古、广西、贵州、云南、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省区。选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口的比例等5项能较好的说明各地区社会经济发展水平的指标，验证边远及少数民族聚居区的社会经济发展水平与全国平均水平间有无显著差异。
将输入导入spss
				一、协方差矩阵
1.1 从方差/协方差到协方差矩阵
根据方差的定义，给定ddd个随机变量xk,i=1,2,...,dx_k,i=1,2,...,dxk,i=1,2,...,d，则这些随机变量的方差为：
σ(xk,xk)=1n−1∑i=in(xki−x‾k)2\sigma(x_k,x_k)={1\over n-1}\sum_{i=i}^n(x_{ki}-\overline{x}_k)^2σ(xk,xk)=n−11∑i=in(xki−xk)2
其中xkix_{ki}xki表示随机变量xkx_kx
连续型特征还有一种处理方式是，先分桶/分箱（如等频/等距的分）[待写]进行离散化后再使用离散数据的处理方法。
离散数据处理参考[数据预处理：独热编码（One-Hot Encoding）]。
基础知识参考：
[均值、方差与协方差矩阵]
正态分布（高斯分布）
若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布，记为N（μ，σ^2）。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。
正态随机变量概率密度函数
[正态分布-
 维基百科]
皮皮blog
				在信号分析和概率论中，求解方差、残值和高阶矩具有如下意义：
1. 方差：方差是衡量随机变量离其期望值的距离的度量。在信号分析中，方差可以用来衡量信号的稳定性和波动性。在概率论中，方差可以用来衡量随机变量的分散程度。
2. 残值：残值是指回归分析中模型预测值与实际观测值之间的差异。在信号分析中，残值可以用来衡量信号预测的准确性和误差大小。在概率论中，残值可以用来检测模型的拟合程度，以及分析模型的可靠性和误差来源。
3. 高阶矩：高阶矩是指随机变量的高维度矩。在信号分析中，高阶矩可以用来描述信号的统计特性，如偏态和峰度等。在概率论中，高阶矩可以用来描述随机变量的分布形态，以及分析随机变量的性质和特征。