多元统计分析大纲（适用于一轮复习）

Part 1：多元正态分布

1-1 多元正态分布基础

样本数据阵的排布，通常是将每一个样本视为一行， \(n\) 个样本得到的样本数据阵应当是 \(n\times p\) 的， \(p\) 是所感兴趣的维度。

接下来假设随机向量是 \(p\) 维的，总体是 \(X=(X_1,X_2,\cdots,X_p)\) 。随机向量具有如下的基本概念：

联合分布函数： \(p\) 元函数 \(F\) ，定义为

\[F(x_1,\cdots,x_p)=\mathbb{P}(X_1\le x_1,\cdots,X_p\le x_p).

联合密度函数： \(p\) 元函数 \(f\) ，如果某个联合分布可以表示为

\[F(x_1,\cdots,x_p)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p} f(u_1,\cdots,u_p){\rm d}u_1\cdots{\rm d}u_p. \]

满足非负性与规范性。

边缘分布：随机向量 \(X\) 的部分维度 \((X_{i_1},\cdots,X_{i_m})\) 的分布函数。类似定义边缘密度。

条件分布：将 \(X\) 分为 \(r\) 维分量 \(X^{(1)}\) 与 \(p-r\) 维分量 \(X^{(2)}\) ，在给定另一个分量的取值时，分量的分布。类似定义条件密度。

特征函数：是 \(p\) 元函数，定义为

\[\Phi(t)=\mathbb{E}(e^{{\rm i}t'X}). \]

类比一元情况下的特征函数。

在边缘分布下可定义分量的独立性：联合分布函数等于边缘分布函数的乘积。相互独立的分量之间，条件分布等于边缘分布。

设 \(X=(X_1,\cdots,X_p)\) 是 \(p\) 维随机向量， \(Y=(Y_1,\cdots,Y_q)\) 是 \(q\) 维随机向量。随机向量具有如下常用的数字特征：

均值向量，需要每一个 \(X_i\) 都有 \(\mathbb{E}(X_i)=\mu_i\) 存在。

\[\mathbb{E}(X)=\begin{bmatrix} \mathbb{E}(X_1) \\ \vdots \\ \mathbb{E}(X_p) \end{bmatrix}=\begin{bmatrix} \mu_1 \\ \vdots \\ \mu_p \end{bmatrix}\xlongequal{def}\mu.

自协方差阵，需要每一个 \(X_i, X_j\) 的协方差 \(\mathbb{Cov}(X_i, X_j)\) 存在。

\[\mathbb{D}(X)=\mathbb{E}[(X-\mathbb{E}(X))(X-\mathbb{E}(X))']\xlongequal{def}(\sigma_{ij})_{p\times p}, \\ \mathbb{D}(X)=\begin{bmatrix} \mathbb{Cov}(X_1, X_1) & \mathbb{Cov}(X_1, X_2) & \cdots & \mathbb{Cov}(X_1, X_p) \\ \mathbb{Cov}(X_2, X_1) & \mathbb{Cov}(X_2, X_2) & \cdots & \mathbb{Cov}(X_2, X_p) \\ \vdots & \vdots & \ddots & \vdots \\ \mathbb{Cov}(X_p, X_1) & \mathbb{Cov}(X_p, X_2) & \cdots & \mathbb{Cov}(X_p, X_p) \end{bmatrix}\xlongequal{def}\Sigma.

互协方差阵，需要每一个 \(X_i, Y_j\) 的协方差 \(\mathbb{Cov}(X_i, Y_j)\) 存在。

\[\mathbb{COV}(X, Y)=\begin{bmatrix} \mathbb{Cov}(X_1, Y_1) & \mathbb{Cov}(X_2, Y_1) & \cdots & \mathbb{Cov}(X_1, Y_q) \\ \mathbb{Cov}(X_2, Y_1) & \mathbb{Cov}(X_2, Y_2) & \cdots & \mathbb{Cov}(X_2, Y_q) \\ \vdots & \vdots & \ddots & \vdots \\ \mathbb{Cov}(X_p, Y_1) & \mathbb{Cov}(X_p, Y_2) & \cdots & \mathbb{Cov}(X_p, Y_q) \end{bmatrix}_{p\times q}.

相关系数阵，需要自协方差阵存在，即相关系数构成的矩阵。

\[r_{ij}=\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sqrt{\sigma_{jj}}}},R\xlongequal{def}(r_{ij})_{p\times p}.

标准差阵，每一个随机变量的标准差构成的对角阵，极少用到。

\[V^{1/2} ={\rm diag}(\sqrt{\sigma_{11}}, \cdots, \sqrt{\sigma_{pp}}). \]

有 \(\Sigma=V^{1/2}RV^{1/2}\) 和 \(R=V^{-1/2}\Sigma V^{-1/2}\) 。

数字特征的相关性质：

计算性质，有

\[\mathbb{E}(AXB)=A\mathbb{E}(X)B,\\ \mathbb{D}(AX)=A\mathbb{D}(X)A',\\ \mathbb{COV}(AX, BY)=A\mathbb{COV}(X, Y)B'.

\(\Sigma=\mathbb{D}(X)\) 是对称非负定的，且当 \(X\) 线性无关时是正定的。对称非负定矩阵具有平方根，即 \(\exists L\) 使得 \(\Sigma=L^2\) 。

\[\Sigma=U\Lambda U',\quad L=U\Lambda^{1/2}U'.

如果 \(\Sigma\) 追加是正定的，则有Cholesky分解： \(\Sigma=LL'\) ，这里 \(L\) 是下三角矩阵。

多元正态分布的定义方式：

独立标准正态分布的线性组合：设 \(U=(U_1,\cdots,U_q)'\) ，每一个 \(U_q\) 独立同分布服从 \(N(0, 1)\) 。任意 \(p\times q\) 矩阵 \(A\) 和 \(p\) 维常数列向量 \(\mu\) 构造的随机向量：

\[AU+\mu\xlongequal{def}X\sim N_p(\mu, AA').

特征函数法（几乎不用）：对于 \(\Sigma\ge 0\) 和常数向量 \(\mu\) ，多元正态分布随机向量 \(X\) 具有如下的特征函数：

\[\Phi_X(t)=\exp\left[{\rm i}t'\mu-\frac{1}{2}t'\Sigma t \right],\\ X\sim N_p(\mu,\Sigma).

分量的线性组合（可理解为一种性质，用于证否）：若 \(p\) 维随机向量 \(X\) 的任意线性组合均服从正态分布，则 \(X\) 服从多元正态分布。

联合密度法：对于 \(\Sigma>0\) 和常数向量 \(\mu\) ，多元正态分布随机向量 \(X\) 具有如下的联合密度：

\[f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac{1}{2}(x-\mu)'\Sigma^{-1}(x-\mu) \right],\\ X\sim N_p(\mu,\Sigma). \]

这给出非退化正态随机向量的定义方式。

多元正态分布的常用性质：

如果 \(X\sim N_p(\mu,\Sigma)\) ，常数阵 \(C_{q\times p}\) ，则

\[CX\sim N_q(C\mu, C\Sigma C').

如果 \(X\sim N_p(\mu,\Sigma\) ，将 \(X\) 分成 \(r\) 维的 \(X^{(1)}\) 与 \(p-r\) 维的 \(X^{(2)}\) ，则

\[X^{(1)}\sim N_r(\mu^{(1)}, \Sigma_{11}), \\ X^{(2)}\sim N_{p-r}(\mu^{(2)}, \Sigma_{22}), \\ \mathbb{COV}(X^{(1)}, X^{(2)})=\Sigma_{12}=\Sigma_{21}'.

多元正态分布分量间不相关性与独立性等价。

独立性投影： \(X^{(1)}\) 在 \(X^{(2)}\) 方向上的投影是

\[\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}, \]

这相当于 \(X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\) 与 \(X^{(2)}\) 不相关（即独立）。由此，可以作可逆线性变换如下：

\[B=\begin{bmatrix} I_r & -\Sigma_{12}\Sigma_{22}^{-1} \\ O & I_{p-r} \end{bmatrix},\\ Z=BX=\begin{bmatrix} X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \\ X^{(2)} \end{bmatrix}\xlongequal{def}\begin{bmatrix} Z^{(1)} \\ Z^{(2)} \end{bmatrix}. \]

由此，再结合随机向量函数密度公式，可以计算得到

\[(X^{(1)}|X^{(2)})\sim N_r(\mu_{1\cdot 2}, \Sigma_{11\cdot2}),\\ \mu=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(X^{(2)}-\mu^{(2)}),\\ \Sigma_{11\cdot 2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}.

1-2 参数估计与常用统计量

以下假设 \(X\) 是 \(n\times p\) 数据矩阵，第 \(i\) 行代表第 \(i\) 个样品的观测值 \(X_{(i)}\) ； \(\boldsymbol{1}_n\) 代表 \(n\) 维纯 \(1\) 列向量。常用统计量：

样本均值向量 \(\bar X\) ：常用作样本均值的估计。

\[\bar X=\frac{1}{n}\sum_{i=1}^nX_{(i)}=\frac{1}{n}X'\boldsymbol{1}_n.

样本离差阵 \(A\) ：类比一元情况下的离差平方和，是一个 \(p\times p\) 矩阵。

\[A=\sum_{i=1}^n(X_{(i)}-\bar X)(X_{(i)}-\bar X)'=X'X-\frac{1}{n}\bar X\bar X'=X'(I_n-\frac{1}{n}\boldsymbol{1}_n\boldsymbol{1}'_n)X.

样本协方差阵 \(S\) ：类比一元情况下的样本方差，常用作自协方差矩阵的估计。

\[S=\frac{1}{n-1}A\xlongequal{def}(s_{ij})_{p\times p}.

样本相关阵 \(R\) ：常用作相关阵的估计。

\[R\xlongequal{def}(r_{ij})_{p\times p},\quad r_{ij}=\frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}}. \]

在实际应用中，要求相关阵，一般先对数据矩阵进行标准化，再求协方差阵即可。标准化指的是扣掉均值、除以标准差。

正态总体 \(N_p(\mu,\Sigma)\) 中，常用统计量的性质：

\(\bar X\sim N_p(\mu,\Sigma/n)\) 。

设 \(Z_1,\cdots,Z_{n-1}\) 独立同分布于 \(N_p(0,\Sigma)\) ，则

\[A\xlongequal{d}\sum_{i=1}^{n-1}Z_iZ_i'.

\(\bar{X}\) 和 \(A\) 相互独立。

\(\mathbb{P}(A>0)=1\Leftrightarrow n>p\) 。

前三点通过构造正交矩阵 \(\Gamma\) （最后一行为 \(\frac{1}{\sqrt{n}}\) ）来证明，第四点令 \(B=(Z_1,\cdots,Z_{n-1})\) ，有 \(A=BB'\) ，由 \(r(A)=r(B)\) 只需证明 \(B\) 的前 \(p\) 列线性相关概率为0即可。

多元正态分布参数 \((\mu,\Sigma)\) 的极大似然估计：

如果 \(\mu,\Sigma\) 均未知，则

\[\hat{\mu}=\bar{X}, \hat{\Sigma}=\frac{1}{n}A. \]

注意极大似然估计不是样本协方差阵，经过无偏调整后才是样本协方差阵。

如果 \(\mu\) 已知，则

\[\hat{\Sigma}=\frac{1}{n}\sum_{i=1}^n(X_{(i)}-\bar{X})(X_{(i)}-\bar{X})'.

用到的矩阵求导公式： \(A\) 为实对称矩阵时，有

\[\frac{{\rm d}\ln|A|}{{\rm d}A}=A^{-1},\\ \frac{{\rm d}x'Ax}{{\rm d}A}=xx'. \]

似然函数为

\[L(\mu,\Sigma)=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\sum_{i=1}^n(x_{(i)}-\mu)'\Sigma^{-1}(x_{(i)}-\mu) \right], \\ l(\mu,\Sigma)=C+\frac{n}{2}\ln|\Sigma^{-1}|-\frac{1}{2}\sum_{i=1}^n(x_{(i)}-\mu)\Sigma^{-1}(x_{(i)}-\mu).

\(\hat{\Sigma}\) 不是无偏的而 \(S\) 是无偏的； \(\bar{X}, S\) 是 \(\mu, \Sigma\) 的UMVUE，而且是相合的。

MLE具有可映射性，对于Borel可测映射 \(g(\theta)\) ，如果 \(\hat\theta\) 是 \(\theta\) 的MLE，则 \(g(\hat{\theta})\) 是 \(g(\theta)\) 的MLE。

1-3 常用分布

如同一元数理统计一般，为了给出区间估计，需要构造一些常用分布。本节过于理论，建议结合1-4理解。

设 \(X=(X_1,\cdots,X_p)\) 且各分量相互独立，卡方分布与二次型切实相关，有以下相关结论，但卡方分布相关的结论在多元统计分析中并不常用：

如果对所有分量都有 \(\mu_i=0\) ， \(\sigma^2_i=\sigma^2\) ，则

\[\frac{1}{\sigma^2}X'X\sim \chi^2(n).

如果 \(\mu\ne\boldsymbol{0}\) ，令 \(\delta\) 为非中心参数，则

\[\frac{1}{\sigma^2}X'X\sim\chi^2_n(\delta),\quad \delta\xlongequal{def}\frac{\mu'\mu}{\sigma^2}.

若 \(X\sim N_n(\boldsymbol{0}_n,\sigma^2I_n)\) ， \(A\) 为对称矩阵且 \(r(A)=r\) ，则

\[\frac{X'AX}{\sigma^2}\sim\chi^2(r)\Leftrightarrow A^2=A.

若 \(X\sim N_n(\boldsymbol{0}_n,I_n)\) ， \(A\) 为 \(n\) 阶对称阵， \(B\) 为 \(m\times n\) 矩阵，则 \(BA=O\Leftrightarrow X'AX\) 与 \(BX\) 相互独立。

若 \(X\sim N_n(\boldsymbol{0}_n,I_n)\) ， \(A\) 和 \(B\) 都是 \(n\) 阶对称阵，则 \(AB=O\Leftrightarrow X'AX\) 和 \(X'BX\) 相互独立。

均值检验 若 \(X\sim N_p(\boldsymbol{0}_p,\Sigma)\) ，且 \(\Sigma>0\) ，则

\[X'\Sigma^{-1}X\sim \chi^2(p). \]

如果 \(X\sim N_p(\mu,\Sigma)\) ，则

\[X'\Sigma^{-1}X\sim \chi^2_p(\delta),\quad \delta=\mu'\Sigma^{-1}\mu.

若 \(X\sim N_p(\mu,\Sigma)\) ， \(A\) 为对称矩阵且 \(r(A)=r\) ，则

\[(X-\mu)'\Sigma^{-1}(X-\mu)\sim \chi^2(r)\Leftrightarrow \Sigma A\Sigma=\Sigma A\Sigma A\Sigma.

若 \(X\sim N_p(\mu, \Sigma)\) ， \(\Sigma>0\) 且 \(A\) 和 \(B\) 都是 \(p\) 阶对称阵，则 \((X-\mu)'A(X-\mu)\) 与 \((X-\mu)'B(X-\mu)\) 独立等价于

\[\Sigma A\Sigma B\Sigma = O_{p\times p}.

Wishart分布常用于表述样本离差阵、样本协方差阵的分布：设 \(X_{(\alpha)}\sim N_p(0,\Sigma)\) 相互独立， \(X=(X_{(1)}, \cdots, X_{(n)})'\) ，则

\[W_{}=\sum_{\alpha=1}^n X_{(\alpha)}X_{(\alpha)}'=X'X\sim W_p(n,\Sigma). \]

Wishart分布的性质（个人认为这里不是很重要）：

Wishart分布可以看成卡方分布的推广，其中 \(p\) 代表矩阵阶数，除此之外的两个参数是 \(n\) （代表独立同分布多元正态分布的个数）和 \(\Sigma\) （零均值正态分布的协方差阵）。

设 \(X_{(\alpha)}\sim N_p(\mu,\Sigma)\) 相互独立，则样本离差阵 \(A\) 服从Wishart分布，即

\[A=\sum_{\alpha=1}^{n}(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)'\sim W_p(n-1,\Sigma). \]

注意：自由度为 \(n-1\) ，与正态分布样本方差类似。

Wishart分布关于自由度具有可加性，即 \(W_i\sim W_p(n_i,\Sigma)\) 相互独立，则

\[W\xlongequal{def}\sum_{i=1}^n W_i\sim W_p\left(\sum_{i=1}^nn_i,\Sigma\right).

对称线性变换：若 \(W\sim W_p(n,\Sigma)\) ，则对于 \(m\times p\) 常数阵 \(C\) ，有

\[CWC'\sim W_m(n, C\Sigma C').

分块Wishart分布：独立同分布的 \(X_{(\alpha)}\sim N_p(0, \Sigma)\) ，如果可以对 \(\Sigma\) 分块成 \(\Sigma_{11},\Sigma_{12},\Sigma_{21},\Sigma_{22}\) ，则 \(W=\sum_{\alpha=1}^n X_{(\alpha)}X_{(\alpha)}'\) 也可以分块成 \(W_{11},W_{12},W_{21},W_{22}\) ，并且

\[W_{11}\sim N_r(n, \Sigma_{11}),W_{22}\sim N_{p-r}(n, \Sigma_{22}),\\ \]

\(\Sigma_{12}=O\) 时， \(W_{11}\) 和 \(W_{22}\) 相互独立。

Wishart分布的期望： \(W\sim W_p(n,\Sigma)\) ，则

\[\mathbb{E}(W)=n\Sigma.

霍特林 \(T^2\) 分布：设 \(X\sim N_p(0,\Sigma)\) 与 \(W_p(n,\Sigma)\) 相互独立，则

\[T^2=X'(\frac{W}{n})^{-1}X\sim T^2(p,n). \]

霍特林 \(T^2\) 分布的性质（比较重要）：

均值检验 设 \(X_{(\alpha)}\) 独立同分布于 \(N_p(\mu,\Sigma)\) ，则由于

\[X_{(\alpha)}-\mu \sim N_p(0,\Sigma),\\ \sqrt{n}(\bar X-\mu) \sim N_p(0,\Sigma) \\ A\sim W_p(n-1,\Sigma), \]

所以

\[n(n-1)(\bar X-\mu)'A^{-1}(\bar X-\mu)=n(\bar X-\mu)'S^{-1}(\bar X-\mu)\sim T^2(p,n-1). \]

这一性质常常用于协方差阵未知时的均值检验。

\(T^2\) 分布与 \(F\) 分布的关系：如果 \(T^2\sim T^2(p, n)\) ，则

\[\frac{n-p+1}{np}T^2\sim F(p,n-p+1). \]

由此，可以将 \(T^2\) 分布统计量转化为 \(F\) 统计量进行假设检验。

\(T^2\) 分布与 \(\Sigma\) 无关，因为

\[nU'W_I^{-1}U\sim T^2(p, n), \]

这里 \(U\sim N_p(0,I_p)\) ， \(W_I\sim W_p(n, I_p)\) ，而

\[X\xlongequal{d}\Sigma^{1/2}U, \\ W\xlongequal{d}\Sigma^{1/2}W_I\Sigma^{1/2}, \\ nU'W_I^{-1}U\xlongequal{d}nX'\Sigma^{-1/2}\Sigma^{-1/2}W_I^{-1}\Sigma^{1/2}\Sigma^{-1/2}X =nX'W^{-1}X.

在假设检验中， \(T^2\) 统计量对非退化变换保持不变，即对 \(X_{(\alpha)}\) 对 \(\mu\) 作假设检验的效果，与对 \(CX_{(\alpha)}+d\) 对 \(C\mu+d\) 作假设检验的效果一致。

威尔克斯 \(\Lambda\) 分布：设 \(A_1\sim W_p(n_1,\Sigma)\) ， \(A_2\sim W_p(n_2,\Sigma)\) ，这里 \(\Sigma>0\) ， \(n_1\ge p\) ，则

\[\Lambda=\frac{|A_1|}{|A_1+A_2|}\sim \Lambda(p, n_1, n_2). \]

威尔克斯 \(\Lambda\) 分布的性质：

若 \(\Lambda\sim \Lambda(p, n_1, n_2)\) ，则

\[\Lambda\xlongequal{d}B_1B_2\cdots B_p, \]

这里 \(B_k\) 相互独立，服从不同的分布为

\[B_k\sim \beta\left(\frac{n_1-p+k}{2}, \frac{n_2}{2} \right).

若 \(n_2<p\) ，则

\[\Lambda(p, n_1, n_2)\xlongequal{d}\Lambda(n_2, p, n_1+n_2-p).

1-4 均值假设检验

方差已知时，均值向量的假设检验：

\[H_0:\mu=\mu_0\Leftarrow H_1:\mu\ne\mu_0. \]

利用

\[\bar X\sim N_p(\mu,\frac{\Sigma}n), \]

可以得到

\[\sqrt{n}(\bar X-\mu)\sim N_p(\mu,\Sigma). \]

利用正态分布的二次型，可以构造

\[n(\bar X-\mu)'\Sigma^{-1}(\bar X-\mu)\stackrel{H_0}\sim \chi^2(p). \]

方差未知时，均值向量的假设检验，利用

\[\sqrt{n}(\bar X-\mu)\sim N_p(0,\Sigma),\\ A=\sum_{\alpha=1}^{n}(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)'\sim W_p(p, n-1), \]

可以得到

\[n(\bar X-\mu)'\left(\frac{A}{n-1} \right)^{-1}(\bar X-\mu)\stackrel{H_0}{\sim }T^2(p, n-1). \]

这里 \(A/(n-1)\) 就是样本自协方差矩阵 \(S\) 。

联合协方差阵：设 \(X_{(\alpha)}\sim N_p(\mu_1,\Sigma)\) ， \(Y_{(\alpha)}\sim N_p(\mu_2, \Sigma)\) ，即两总体有相同的协方差阵，则样本联合协方差阵为

\[S_\text{pooled}=\frac{A_1+A_2}{m+n-2}. \]

这里

\[A_1=\sum_{\alpha=1}^{m}(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)',\\ A_2=\sum_{\alpha=2}^{n}(Y_{(\alpha)}-\bar Y)(Y_{(\alpha)}-\bar Y)',\\ A_1+A_2\sim W_p(m+n-2, \Sigma). \]

方差未知但相等时，两样本均值检验：

\[H_0:\mu_1=\mu_2\Leftrightarrow H_1:\mu_1\ne \mu_2. \]

利用

\[\bar X\sim N_p\left(\mu_1,\frac{\Sigma}{m}\right),\bar Y\sim N_p\left(\mu_2,\frac{\Sigma}{n}\right),\\ \bar X-\bar Y\sim N_p\left(\mu_1-\mu_2,\left(\frac{1}{m}+\frac{1}{n} \right)\Sigma\right), \]

得到

\[\sqrt{\frac{mn}{m+n}}[\bar X-\bar Y-(\mu_1-\mu_2)]\sim N_p(0,\Sigma),\\ A_1+A_2\sim W_p(m+n-2,\Sigma), \]

所以

\[\frac{mn}{m+n}(\bar X-\bar Y)'\left(\frac{A_1+A_2}{m+n-2} \right)^{-1}(\bar X-\bar Y)\stackrel{H_0}{\sim }T^2(p,m+n-2),\\ \frac{mn}{m+n}(\bar X-\bar Y)S_{\text{pooled}}^{-1}(\bar X-\bar Y)\stackrel{H_0}{\sim }T^2(p,m+n-2). \]

方差不等但样本数量相等时，构造成对数据即

\[Z_{(\alpha)}=X_{(\alpha)}-Y_{(\alpha)}\sim N_p(\mu_1-\mu_2,\Sigma_1+\Sigma_2)\xlongequal{def}N_p(\mu_Z,\Sigma_Z). \]

将其转化为一元问题。

多元均值检验：对于 \(k\) 个总体 \(N_p(\mu_i,\Sigma)\) ， \(i=1,2,\cdots,k\) ，它们的协方差阵相等，检验问题是

\[H_0:\mu_1=\cdots=\mu_k\Leftrightarrow H_1:\text{otherwise}. \]

离差阵分解：定义 \(\bar X\) 为所有样本的均值， \(\bar X^{(i)}\) 为第 \(i\) 组的样本均值，则

\[T=A+B,\\ n=\sum_{i=1}^k n_i, \\ \bar X=\frac{1}{n}\sum_{i=1}^{k}\sum_{\alpha=1}^{n_j}X_{(\alpha)}^{(i)}, \\ \bar X^{(i)}=\frac{1}{n_i}\sum_{\alpha=1}^{n_i}X_{(\alpha)}^{(i)}. \\ T=\sum_{i=1}^{k}\sum_{\alpha=1}^{n_i}(X_{(\alpha)}^{(i)}-\bar X)(X_{(\alpha)}^{(i)}-\bar X)',\\ A = \sum_{i=1}^{k}\sum_{\alpha=1}^{n_i}(X_{(\alpha)}^{(i)}-\bar X^{(i)})(X_{(\alpha)}^{(i)}-\bar X^{(i)})',\\ B=\sum_{i=1}^k n_i(\bar X^{(i)}-\bar X)(\bar X^{(i)}-\bar X)'. \]

有相关结论：

\(A\) 为组内离差阵，如果 \(A_i\) 为第 \(i\) 组的离差阵，则

\[A_i\sim W_p(n_i-1, \Sigma),\\ A=\sum_{i=1}^{k}A_i\sim N(n-k,\Sigma).

\(B\) 为组间离差阵，如果 \(H_0\) 成立，有 \(B\sim W_p(k-1,\Sigma)\) ，且 \(A\) 与 \(B\) 相互独立。

\(T\) 为总离差阵，如果 \(H_0\) 成立，有 \(T=A+B\sim W_p(n-1,\Sigma)\) 。

因此，构造威尔克斯 \(\Lambda\) 统计量，有

\[\Lambda=\frac{|A|}{|A+B|}=\frac{|A|}{|T|}\stackrel{H_0}{\sim}\Lambda(p, n-k, k-1). \]

1-5 其他假设检验

似然比检验法：要检验的假设是 \(H_0\) ，似然函数为 \(L(\Theta)\) ，则似然比统计量为

\[\lambda=\frac{\max_{H_0}L(\Theta_0)}{\max L(\Theta)}\in[0, 1]. \]

这里 \(\Theta\) 为参数空间， \(\Theta_0\) 为 \(H_0\) 下参数空间，则

\[-2\ln\lambda \stackrel{\text{approx}}{\sim }\chi^2(f),\\ f=\dim(\Theta) - \dim(\Theta_0). \]

协方差阵为单位阵的检验：对于单总体 \(N_p(\mu,\Sigma)\) ，要检验的假设是

\[H_0:\Sigma = I_p\Leftrightarrow H_1:\Sigma \ne I_p. \]

构造似然比检验统计量为

\[\lambda = \frac{\max_{\mu,\Sigma_0}L(\mu,\Sigma_0)}{\max_{\mu,\Sigma}L(\mu,\Sigma)}=\frac{L(\bar X,I_p)}{L(\bar X, \frac{A}{n})}\\ -2\ln \lambda \stackrel{\text{approx}}{\sim} \chi^2\left(\frac{p(p+1)}{2} \right). \]

一般协方差阵的检验：要检验的假设是

\[H_0:\Sigma=\Sigma_0\Leftrightarrow H_1:\Sigma\ne \Sigma_0, \]

可以使用某个线性变换： \(\Sigma_0^{-1/2}X\sim N(\Sigma_0^{-1/2}\mu,I_0)\) ，转变成单位阵的检验。

检验如下的假设：

\[H_0:\Sigma=\sigma^2\Sigma_0\Leftrightarrow H_0:\Sigma\ne\sigma^2\Sigma_0. \]

这里 \(\sigma^2\) 未知但 \(\Sigma_0\) 已知，似然比检验统计量为

\[\lambda=\frac{\max_{\mu,\sigma}L(\mu,\sigma^2\Sigma_0)}{\max L(\mu,\Sigma)}=\frac{L(\bar X, \frac{1}{np}{\rm tr}(\Sigma_0^{-1}A)\cdot \Sigma_0)}{L(\bar X,\frac{A}{n})},\\ -2\ln\lambda \stackrel{\text{approx}}{\sim} \chi^2\left(\frac{p(p+1)}{2}-1 \right). \]

多总体协方差阵的检验：有 \(k\) 个总体 \(X_k\sim N(\mu_i,\Sigma_i)\) ，每一个总体中抽取样本容量为 \(n_i\) ，一共 \(n\) 个样本，检验假设为

\[H_0:\Sigma_1=\Sigma_2=\cdots=\Sigma_k\Leftrightarrow H_1:\text{otherwise}. \]

联合似然函数为

\[L(\mu_1,\Sigma_1,\cdots,\mu_k,\Sigma_k)=\prod_{i=1}^kL_i(\mu_i,\Sigma_i). \]

似然比检验统计量为（注意这里的 \(A\) 是组内离差阵而非总离差阵 \(T\) ）

\[\lambda=\frac{\prod_{i=1}^kL_i(\bar X^{(i)},\frac{A}{n})}{\prod_{i=1}^k L_i(\bar X_i^{(i)},\frac{A_i}{n_i})}=\frac{|\frac{A}{n}|^{-n/2}}{\prod_{i=1}^k|\frac{A_i}{n_i}|^{-n_i/2}},\\ -2\ln\lambda \stackrel{\text{approx}}{\sim }\chi^2\left(\frac{p(p+1)(k-1)}{2} \right). \]

一般说来， \(\mu\) 的极大似然估计为 \(\bar X\) ，每一组组内协方差阵 \(A_i\) 的极大似然估计为 \(\frac{A_i}{n_i}\) ，联合协方差阵的极大似然估计为 \(\frac{A}{n}\) 。也可以进行无偏修正，令

\[\hat{\Sigma}_i=\frac{A_i}{n_i-1},\quad \hat{\Sigma}_\text{pooled}=\frac{A}{n-k}. \]

独立性检验：检验两个总体 \(X^{(1)}\) 、 \(X^{(2)}\) 是否相互独立，即检验 \(\Sigma_{12}=O\) 是否成立。用似然比检验法，

\[\lambda=\frac{L(\bar X^{(1)},\frac{A_{11}}{n},\bar X^{(2)},\frac{A_{22}}{n})}{L(\bar X^{(1)},\bar X^{(2)},\frac{A}{n})}=\frac{|\frac{A_{11}}{n}|^{-n/2}|\frac{A_{22}}{n}|^{-n/2}}{|\frac{A}{n}|^{-n/2}}=\left(\frac{|A|}{|A_{11}A_{22}|} \right)^{n/2},\\ -2\ln \lambda \stackrel{\text{approx}}{\sim}\chi^2(r(p-r)). \]

如果要检验 \(k\) 个总体的是否相互独立，则

\[\lambda=\frac{L(\bar X^{(1)},\frac{A_{11}}{n},\cdots,\bar X^{(k)},\frac{A_{kk}}{n})}{L(\bar X^{(1)},\cdots,\bar X^{(k)},\frac{A}{n})}=\frac{\prod_{i=1}^n|\frac{A_{ii}}{n}|^{-n/2}}{|\frac{A}{n}|^{-n/2}}=\left(\frac{|A|}{\prod_{i=1}^n |A_{ii}|} \right)^{n/2} \\ -2\ln\lambda\stackrel{\text{approx}}{\sim}\chi^2\left(\frac{p(p+1)}{2}-\sum_{i=1}^k\frac{p_i(p_i+1)}{2} \right) \]

要注意的是，此时各个分块的极大似然估计为

\[\hat\Sigma_{ii}=\frac{A_{ii}}{n}, \]

与之前在多总体检验中的不同（分母、阶数都不同）。

Part 2：归类

2-1 距离判别

基本思想：样本距离哪个总体最近，就判断它属于哪一个总体。

度量方式：马氏距离，设 \(G\) 为 \(p\) 元总体，均值为 \(\mu\) ，自协方差矩阵 \(\Sigma\) ，则样品 \(X\) 与 \(G\) 的马氏距离为

\[d^2(X,G)=(X-\mu)'\Sigma^{-1}(X-\mu) \]

实际应用中如果 \(\mu\) 和 \(\Sigma\) 是未知量，则从样本均值 \(\bar X\) 和样本自协方差阵 \(S\) 出发计算马氏距离。

联合协方差阵：在判别分析中，我们常常假定总体有相同的自协方差矩阵 \(\Sigma\) ，从而判别函数是线性的。 \(k\) 个总体的联合协方差阵是

\[S_\text{pooled}=\frac{A_1+A_2+\cdots+A_k}{n-k}. \]

此时的线性判别函数为

\[W(X)=\left(X-\frac{1}{2}(\bar X^{(1)}+\bar X^{(2)})\right)'S^{-1}(\bar X^{(1)}-\bar X^{(2)}). \]

其最后一部分是 \(\bar X^{(1)}-\bar X^{(2)}\) ，这意味着，如果 \(W(X)>0\) ，则判 \(X\in G_1\) ；如果 \(W(X)<0\) ，则判 \(X\in G_2\) 。

错判概率：假设 \(X^{(i)}\sim N_p(\mu_i,\Sigma)\) 并假定其已知，则

\[D\xlongequal{def}(\mu_1-\mu_2)'\Sigma^{-1}(\mu_1-\mu_2),\\ \begin{aligned} \mathbb{P}(2|1)=&\mathbb{P}\left((\mu_1-\mu_2)'\Sigma^{-1}X<\frac{1}{2}(\mu_1-\mu_2)'\Sigma^{-1}(\mu_1+\mu_2)\bigg|X\sim N_p(\mu_1,\Sigma) \right)\\ =&\mathbb{P}\left((\mu_1-\mu_2)'\Sigma^{-1}(X-\mu_1)<-\frac{1}{2}D\bigg|X\sim N_p(\mu_1,\Sigma) \right)\\ =&\mathbb{P}\left(N(0,1)<-\frac{1}{2}\sqrt{D}\bigg|X\sim N_p(\mu_1,\Sigma) \right)\\ =&\Phi(-\frac{1}{2}\sqrt{D})<\frac{1}{2}. \end{aligned} \]

这表明线性判别的错判概率不会高于50%.

2-2 贝叶斯判别

贝叶斯判别的目标是使得错判损失的期望值最小。

先验概率： \(q_i\) ，表明样本出自某个类 \(i\) 的概率。

错判损失： \(L(j|i)\) ，表明样本出自 \(i\) 类却被错判成 \(j\) 类的损失大小，常常 \(L(j|i)=1-\delta_{j-i}\) 。

判别法：一种划分， \(\mathbb{R}^n=\{D_1,D_2,\cdots,D_k\}\) ，将样本空间划分成 \(k\) 块。

贝叶斯判别：设有 \(k\) 个总体 \(G_1,\cdots,G_k\) ，每一类 \(G_i\) 的联合密度为 \(f_i(X)\) ，先验概率为 \(q_i\) ，错判损失为 \(L(j|i)\) ，贝叶斯判别要使得

\[g(D)=\sum_{i=1}^kq_i\sum_{j=1}^k\mathbb{P}(j|i)L(j|i)=\sum_{i=1}^k q_i\sum_{j=1}^kL(j|i)\int_{D_j^n}f_i(X){\rm d}X. \]

将样品判别到第 \(i\) 类的平均损失：

\[h_i(X)=\sum_{j=1}^k q_jf_j(X)L(i|j) \]

贝叶斯判别的依据是，在 \(h_1(X),\cdots,h_k(X)\) 中，选择判别平均损失最小的一个。如果 \(L(j|i)=1-\delta_{j-i}\) ，则

\[h_i(X)<h_j(X)\Leftrightarrow q_if_i(X)>q_jf_j(X), \]

所以等价于选择 \(q_if_i(X)\) 最大的那个 \(i\) 作为贝叶斯判别的归类，看起来就像是来自哪个总体的概率最大，就归为哪一类。

同损失正态总体：

\[q_if_i(X)=\frac{q_i}{(2\pi)^{p/2}|\Sigma_i|^{1/2}}\exp\left(-\frac{1}{2}(X-\mu_i)'\Sigma^{-1}(X-\mu_i) \right),\\ \ln(q_if_i(X))=\ln|q_i|-\frac{1}{2}\ln|\Sigma_i|-d^2(X,G_i). \]

所以基于贝叶斯判别的广义平方距离为

\[\bar d^2(X,G_i)=d^2(X,G_i)+\ln|\Sigma_i|-2\ln q_i . \]

它没有考虑损失函数的设置。

2-3 费希尔判别

费希尔判别的方法是对样本做某个线性变换，使不同类之间的差距尽可能大，表现为组间离差阵（组间平方和）占总离差阵（总离差平方和）的比例大。

考虑双总体 \(X^{(1)}\sim N_p(\mu_1,\Sigma_1)\) 和 \(X^{(2)}\sim N_p(\mu_2,\Sigma_2)\) ，在没有给定样本的情况下，视为各组使用相同的样本容量，则组内离差阵和组间离差阵分别为

\[A=\Sigma_1+\Sigma_2,\\ B=(\mu_1-\bar \mu)'(\mu_1-\bar \mu)+(\mu_2-\bar\mu)'(\mu_2-\bar\mu),\\ \bar\mu=\frac{1}{2}(\mu_1+\mu_2). \]

如果给定了各组样本，则可以计算组内离差阵 \(A\) 和组间离差阵 \(B\) 。目标是使用线性变换 \(a\) ，让 \(a'Ba/a'Aa\) 最大，并规定 \(a'Aa=1\) ，变为如下的规划问题：

\[\max {a'Ba}=\Delta(a),\\ \text{s.t. } a'Aa=1. \]

解得 \(a'Ba\) 为 \(A^{-1}B\) 的特征值， \(a\) 为相应的特征向量（使得 \(a'Aa=1\) ，但实际应用中是否归一化对问题没有影响）。

结论：设 \(A^{-1}B\) 的非零特征值为 \(\lambda_1\ge\lambda_2\ge \cdots\lambda_r>0\) ，相应的满足约束的特征向量为 \(l_1,l_2,\cdots,l_r\) ，则前 \(l\) 个线性判别函数为

\[l_1'X,\cdots,l_l'X, \]

其判别能力为

\[P_l=\frac{\lambda_1+\cdots+\lambda_l}{\lambda_1+\cdots+\lambda_r}. \]

实际应用时，常取使得 \(P_l\ge 0.7\) 的 \(l\) 值。

2-4 系统聚类

点间度量：闵可夫斯基距离（绝对值距离、欧氏距离、切比雪夫距离），兰氏距离，马氏距离，斜交空间距离等。

系统聚类步骤：

初始每个样品视为一类，计算样品间距离

每一次选择两个距离最小的类，合并，总类数减少1

重新计算新类与其他类的距离

直到总类数为1时，停止合并过程

绘制谱系聚类图，决定分类个数

聚类方法：以下定义 \(D_{pq}\) 为类 \(G_p,G_q\) 间的距离， \(\bar X_i\) 为 \(G_i\) 的均值， \(n_i\) 为 \(G_i\) 内的样本数量， \(D_{rk}\) 为由 \(G_p,G_q\) 合并后的新类 \(G_r\) 与其他类 \(G_k\) 间的距离。

最短距离法(single)：定义类间距离为，两类中相距最近的样品之间的距离。

\[D_{pq}=\min_{i\in G_p,j\in G_q} d^2_{ij},\\ D_{rk}=\min\{D_{pk},D_{qk} \}.

最长距离法(complete)：定义类间距离为，两类中相距最远的样品之间的距离。

\[D_{pq}=\max_{i\in G_p,j\in G_q} d^2_{ij},\\ D_{rk}=\max\{D_{pk},D_{qk} \}.

中间距离法(median)：基于递推的距离定义法，根据参数的不同而不同。

\[D^2_{rk}=\frac{1}{2}(D_{pk}^2+D_{qk}^2)+\beta D_{pq}^2,\quad \beta\in[-\frac14, 0]. \]

常取 \(\beta=-1/4\) ，此时 \(D_{rk}\) 就是以 \(D_{pk},D_{qk},D_{pq}\) 为边的三角形中， \(D_{pq}\) 边上的中线长度。

重心法(centroid)：每一类的重心即均值，定义类间距离类重心间的距离。

\[D_{pq}=d^2(\bar X_p, \bar X_q),\\ D_{rk}^2=\frac{n_p}{n_r}D_{pk}^2+\frac{n_q}{n_r}D_{qk}^2-\frac{n_pn_q}{n_r^2}D_{pq}^2.

类平均法(average)：用两类中所有样品之间距离的平均作为类间距离。

\[D_{pq}=\frac{1}{n_pn_q}\sum_{i\in G_p,j\in G_q} d^2_{ij},\\ D_{rk}^2=\frac{n_p}{n_r}D^2_{pk} + \frac{n_q}{n_r}D^2_{qk}.

MCQ相似分析法(mcquitty)：使用如下的递推公式。

\[D^2_{rk}=\frac{D_{pk}^2+D_{qk}^2}{2}.

离差平方和法(ward)：类间平方距离视为合并类后会增加的离差平方和，它是实际应用中效果最好的方法。

\[D_{pq}^2=W_r-(W_p+W_q), \\ D_{rk}^2=\frac{n_p+n_k}{n_r+n_k}D^2_{pk}+\frac{n_q+n_k}{n_r+n_k}D^2_{qk}-\frac{n_k}{n_r+n_k}D^2_{pq}.

统一表达式：

\[D_{rk}^2=\alpha_pD_{pk}^2+\alpha_qD_{qk}^2+\beta D_{pq}^2+\gamma|D_{pk}^2-D_{qk}^2|. \]

应用此公式时，重心法和Ward法要求使用欧氏距离。

Part 3：降维

3-1 主成分分析

基本思想：用总体的线性组合形成新的变量来代替原有变量，要求尽可能保留多的信息，数量尽可能少。

主成分：设 \(X=(X_1,\cdots,X_p)'\) 为 \(p\) 维随机向量， \(Z_i=a_i'X\) 为 \(X\) 的第 \(i\) 主成分，如果

\[a_i'a_i=1,\\ \forall j<i,\quad {\rm Cov}(Z_i, Z_j) = a_i'\Sigma a_j=0,\\ \mathbb{D}(Z_i)=\max_{a'a=1, a'\Sigma a=0}\mathbb{D}(a'X). \]

求解第一主成分：即求解以下的线性规划问题：

\[\max a_1'\Sigma a_1',\\ \text{s.t. } a_1'a_1 = 1. \]

其拉格朗日函数是

\[L(a_1,\lambda)=a_1'\Sigma a_1-\lambda(a_1'a_1-1), \]

解得 \(\lambda_1=a_1'\Sigma a_1'\) ，且 \(\lambda_1\) 是 \(\Sigma\) 的最大特征值， \(a_1\) 是对应的单位正交向量。

主成分的求法：设 \(X=(X_1,\cdots,X_p)'\) 且 \(\mathbb{D}(X)=\Sigma\) ， \(\Sigma\) 的特征值为 \(\lambda_1\ge \lambda_2 \ge \cdots \ge\lambda_p\ge 0\) ，相应的单位正交向量为 \(a_1,\cdots,a_p\) ，则 \(X\) 的第 \(i\) 主成分为 \(Z_i=a_i'X\) 。

令 \(Z=(Z_1,\cdots,Z_p)'\) ，则 \(Z=A'X\) ，这里 \(A\) 是正交阵，即

\[A = \begin{bmatrix} a_1 & a_2 & \cdots & a_p \end{bmatrix}=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1p} \\ a_{21} & a_{22} & \cdots & a_{2p} \\ \vdots & \vdots & & \vdots \\ a_{p1} & a_{p2} & \cdots & a_{pp}. \end{bmatrix} \]

矩阵 \(A\) 中，每一列代表一个主成分系数，即一个特征向量。

\(\mathbb{D}(Z)={\rm diag}(\lambda_1,\cdots,\lambda_p)\) ，且 \(\lambda_1\ge \lambda_2\ge \cdots \lambda_p\) 。这也是 \(Z\) 的各个分量依次是 \(X\) 的第 \(i\) 主成分的充要条件。

总方差（总惯量）：令 \(\mathbb{D}(X)=\Sigma=(\sigma_{ij})_{p\times p}\) ，则 \(\sum_{i=1}^p \sigma_{ii}\) 称为原总体的总方差（总惯量），即各分量方差之和。有

\[\sum_{i=1}^p \sigma_{ii} = \sum_{i=1}^p \lambda_i. \]

因子载荷：把主成分 \(Z_k\) 与原始变量 \(X_i\) 之间的相关系数，称为因子载荷量，即

\[\rho(Z_k, X_i)=\frac{{\rm Cov}(a_k'X, e_i'X)}{\sqrt{\mathbb{D}(Z_k)\mathbb{D}(X_i)}}=\frac{\lambda_ke_i'a_k}{\sqrt{\lambda_k\sigma_{ii}}}=\frac{\sqrt{\lambda_k}a_{ik}}{\sqrt{\sigma_{ii}}}.\\ A'\Sigma A=\Lambda\Rightarrow \Sigma=A\Lambda A',\sigma_{ii}=\sum_{k=1}^p\lambda_k a_{ik}^2. \\ \sum_{k=1}^p\rho^2(Z_k, X_i)=\sum_{k=1}^p\frac{\lambda_k a_{ik}^2}{\sigma_{ii}}=1,\\ \sum_{i=1}^p \sigma_{ii}\rho^2(Z_k, X_i)=\lambda_k. \]

贡献率：贡献率分为两种，一种是主成分整体的贡献率，一种是主成分对某个变量的贡献率。

主成分 \(Z_k\) 的贡献率：

\[\frac{\lambda_k}{\lambda_1+\cdots +\lambda_k}.

前 \(m\) 个主成分 \(Z_1,\cdots,Z_m\) 的累计贡献率：

\[\frac{\sum_{k=1}^m\lambda_k}{\sum_{i=1}^p\lambda_i}.

主成分 \(Z_k\) 对变量 \(X_i\) 的贡献率：

\[\rho^2(Z_k,X_i)=\frac{\lambda_k a_{ik}^2}{\sigma_{ii}}.

前 \(m\) 个主成分 \(Z_1,\cdots,Z_m\) 对变量 \(X_i\) 的贡献率：

\[\nu_i^{(m)}=\sum_{k=1}^m \rho^2(Z_k, X_i)=\sum_{k=1}^m\frac{\lambda_ka_{ik}^2}{\sigma_{ii}}. \]

由前面的性质， \(p\) 个主成分对任何变量的贡献率都是1。

3-2 主成分分析实操

样本主成分的处理，一般会使用标准化以后的数据，此时得到的自协方差矩阵就是相关阵 \(R\) ，

\[R=\frac{1}{n-1}X'X. \]

得到 \(R\) 的按特征值大小排列的单位正交向量 \(a_1,\cdots,a_p\) ， \(A=(a_1,\cdots,a_p)\) 。

主成分得分：第 \(t\) 个样品 \(X^{(t)}=(x_{t1},x_{t2},\cdots,x_{tp})'\) ，主成分得分向量为

\[Z_{(t)}=A'X^{(t)}=\begin{bmatrix} z_{t1} \\ z_{t2} \\ \vdots \\ z_{tp} \end{bmatrix}, \]

所有样品的主成分得分矩阵为

\[ Z=\begin{bmatrix} Z_{(1)}' \\ Z_{(2)}' \\ \vdots \\ Z_{(n)}' \end{bmatrix}=\begin{bmatrix} z_{11} & z_{12} & \cdots & z_{1p} \\ z_{21} & z_{22} & \cdots & z_{2p} \\ \vdots & \vdots & & \vdots \\ z_{n1} & z_{n2} & \cdots & z_{np} \end{bmatrix}. \]

3-3 因子模型

正交因子模型：设 \(X=(X_1,\cdots,X_p)'\) 是可观测的随机向量， \(\mathbb{E}(X)=\mu\) ， \(\mathbb{D}(X)=\Sigma\) 。设 \(F=(F_1,\cdots,F_m)\) ， \(m<p\) 是不可观测的随机变量，称为公共因子； \(\varepsilon=(\varepsilon_1,\cdots,\varepsilon_p)'\) 称为特殊因子。正交因子模型是这样的模型：

\[X=\mu+AF+\varepsilon, \]

这里

公共因子满足 \(\mathbb{E}(F)=0\) ， \(\mathbb{D}(F)=I_m\) ，即因子是标准化互不相关的。

特殊因子满足 \(\mathbb{E}(\varepsilon)=0\) ， \(\mathbb{D}(\varepsilon)={\rm diag}(\sigma_1^2,\cdots,\sigma_p^2)\xlongequal{def}D\) ，即方差是对角阵；

公共因子与特殊因子互不相关，即 \({\rm COV}(F, \varepsilon)=O\) 。

\(A=(a_{ij})_{m\times p}\) 是待估的系数矩阵，称为因子载荷阵。 \(a_{ij}\) 是变量 \(X_i\) 在因子 \(F_j\) 上的载荷，简称为因子载荷。

方差分解：可以把原始变量的方差分解为公共方差与特殊方差。

\[\mathbb{D}(X)=\Sigma=AA'+D\Rightarrow \Sigma-D=AA'. \]

载荷分析：

\[{\rm COV}(X, F)=A\Rightarrow{\rm Cov}(X_i, F_j)=a_{ij}. \]

因子载荷 \(a_{ij}\) 反映了变量 \(X_i\) 在因子 \(F_j\) 上的相对重要性。

变量共同度： \(A\) 中第 \(i\) 行元素的平方和称为变量 \(X_i\) 的共同度，即

\[h_i^2=\sum_{j=1}^m a_{ij}^2. \]

有 \(\mathbb{D}(X_i)=h_i^2+\varepsilon_i^2\) ，即分量 \(X_i\) 的方差可以分为公因子方差与特殊方差两部分。 \(h_i^2\) 描述了变量 \(X_i\) 对所有公因子的依赖程度，它越大，变量 \(X_i\) 就越能由因子描述。

公因子贡献： \(A\) 中第 \(j\) 列元素的平方和称为公因子 \(F_j\) 对 \(X\) 所有分量的总影响，即

\[q_j^2=\sum_{i=1}^p a_{ij}^2. \]

如果 \(q_j^2\) 越大，则 \(F_j\) 对 \(X\) 的贡献越大。如果把载荷矩阵每一列的 \(q_j^2\) 算出来，就能够找到最有贡献的因子。

载荷矩阵 \(A\) 的参数估计：由 \(p\) 个相关变量的观测数据得到协方差阵 \(S\) 和相关阵 \(R\) 。

主成分解：设 \(S\) 的特征值为 \(\lambda_1\ge\cdots\ge\lambda_p\ge0\) ，相应的单位正交向量为 \(l_1,\cdots,l_p\) ，则 \(S\) 有谱分解式

\[S=\sum_{i=1}^n \lambda_il_il_i'. \]

如果最后几个特征值比较小，则近似有

\[\begin{aligned} S&\approx \sum_{i=1}^m\lambda_il_il_i'+D\\ &=(\sqrt{\lambda_1}l_1,\cdots,\sqrt{\lambda_m}l_m)\begin{pmatrix} \sqrt{\lambda_1}l_1 \\ \vdots \\ \sqrt{\lambda_m}l_m \end{pmatrix}+\begin{pmatrix} \sigma_1^2 \\ & \sigma_2^2 \\ && \ddots \\ &&& \sigma_p^2 \end{pmatrix}\\ &\xlongequal{def}AA'+D,\\ \sigma_{i}^2&=s_{ii}-\sum_{t=1}^m a_{it}^2. \end{aligned} \]

主成分解的每一列与主成分分析中使用的主成分，仅相差 \(\sqrt{\lambda_i}\) 倍数。事实上也经常用相关阵 \(R\) 代替 \(S\) 计算主成分解。

主因子解：从相关阵 \(R\) 出发，需要特殊方差的初始估计量 \((\hat{\sigma}_i^*)^2\) ，得到初始共同度的估计量 \((h_i^*)^2=1-(\hat{\sigma}_i^*)^2\) ，定义约相关阵为

\[R^*=R-D=\begin{bmatrix} (\hat{\sigma}_1^*)^2 & r_{12} & \cdots & r_{1p} \\ r_{21} & (\hat{\sigma}_2^*)^2 & \cdots & r_{2p} \\ \vdots & \vdots & & \vdots \\ r_{p1} & r_{p2} & \cdots & (\hat{\Sigma}_p^*)^2 \end{bmatrix}. \]

从这个约相关阵出发，如同主成分解一样构造近似分解 \(R^*=AA'\) ，然后重新计算特殊方差：

\[\hat{\sigma}_i^2=1-\sum_{t=1}^m a_{it}^2. \]

再将这个方差作为特殊方差的初始估计量，反复迭代计算，直到得出稳定界。

3-4 因子模型实操

求主成分解的步骤：

由样本数据阵，计算相关数字特征： \(\bar X, A, R\) 。

求 \(R\) 的特征值和标准化特征向量，特征值为 \(\lambda_1\ge \cdots \ge\lambda_p\ge 0\) ，对应的单位特征向量为 \(l_1,\cdots,l_p\) 。

确定因子个数 \(m\) ，一般使用特征值之和不小于0.7的 \(m\) 作为因子个数。

令 \(a_i=\sqrt{\lambda_i}l_i\) ，得到载荷矩阵 \(A=(a_1,\cdots,a_m)\) 。

求特殊因子方差，得到对角阵 \(D\) ：

\[\sigma_{ii}^2=1-\sum_{t=1}^m a_{it}^2.

解释因子。

正交旋转：找到一个正交矩阵 \(\Gamma_{m\times m}\) ，使得旋转因子为 \(Z=\Gamma' F\) ，构建出的因子模型为

\[X = A\Gamma Z+\varepsilon.

目标：使得因子载荷矩阵 \(A\) 的方差尽可能大，即希望每一列的数值是分散的。

方差度量（用不上吧）：

\[V=\sum_{j=1}^m V_m=\frac{1}{p^2}\left\{\sum_{j=1}^m\left[p\sum_{i=1}^p\frac{a_{ij}^4}{h_i^4}-\left(\sum_{t=1}^p\frac{a_{tj}^2}{h_t^2} \right)^2 \right] \right\}.

因子得分：把公共因子表示为变量的线性组合，或反过来对每一个样品估计公共因子的估计值，是对不可观测的随机向量的估计。现假设 \(X=AF+\varepsilon\) ， \(\Sigma=AA'+D\) ，对于每一个观测样本， \(X\) 、 \(A\) 和 \(D\) 是已知的。

加权最小二乘法：因子得分为

\[\hat{F}=(A'D^{-1}A)^{-1}(A'D^{-1})X. \]

这样算出来的因子得分称为Bartlett因子得分。如果使用主成分法估计，因子得分常使用不加权的最小二乘法，即

\[\hat{F}=(A'A)^{-1}A'X.

回归法：因子得分为

\[\hat{F}=A'R^{-1}X=A'(AA'+D)^{-1}X. \]

这样算出来的因子得分称为Thompson因子得分。

3-5 典型相关变量求解

典型相关分析：研究两组随机变量 \(X=(X_1,\cdots,X_p)'\) 、 \(Y=(Y_1,\cdots,Y_q)'\) 之间的相关性。

\(p=q=1\) 时，相关性为相关系数：

\[\rho(X, Y)=\frac{{\rm Cov}(X, Y)}{\sqrt{\mathbb{D}(X)\mathbb{D}(Y)}}.

\(p>1, q=1\) 时，相关性为全相关系数：

\[R=\sqrt{\frac{\Sigma_{XY}\Sigma_{XX}^{-1}\Sigma_{YX}}{\sigma_{YY}}}.

\(p\ne 1,q\ne 1\) 时，研究两个线性组合之间的相关系数：

\[V=\boldsymbol{a}_p'X,\quad W=\boldsymbol{b}_q'Y,\\ \rho(V, W).

典型相关系数：设 \(X=(X_1,\cdots,X_p)'\) ， \(Y=(Y_1,\cdots,Y_q)'\) ，将其连接为 \(Z=(X', Y')'\) ， \(p\le q\) ，满足 \(\mathbb{E}(Z)=0\) ， \(\mathbb{D}(Z)=\Sigma>0\) 。如果存在 \(a_1=(a_{11},\cdots,a_{1p})'\) 和 \(b_1=(b_{11},\cdots,b_{1q})'\) ，使得

\[\rho(a_1'X, b_1'Y)=\max_{\mathbb{D}(a'X)=\mathbb{D}(b'Y)=1}\rho(a'X, b'Y), \]

则称： \(a_1X, b_1Y\) 是第一对典型相关变量，相关系数 \(\rho(a_1X, b_1Y)\) 是第一个典型相关系数。

如果存在 \(a_k=(a_{k1},\cdots,a_{kp})'\) 和 \(b_k=(b_{k1},\cdots,b_{kq})'\) 使得

\(a_k'X\) 与 \(b_k'Y\) 与前面的 \(k-1\) 对典型相关变量都不相关；

\(\mathbb{D}(a_k'X)=\mathbb{D}(b_k'Y)=1\) ；

\(a_k'X\) 与 \(b_k'Y\) 的相关系数最大；
则称 \(a_k'X, b_k'Y\) 是第 \(k\) 对典型相关变量， \(\rho(a_k'X, b_k'Y)\) 为第 \(k\) 个典型相关系数。这里 \(k\le p\) 。

协方差阵分块： \(\mathbb{D}(Z)=\Sigma\) 将分解为

\[\Sigma=\begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix}. \]

求解典型相关变量：求解第一对典型相关变量是求解以下的规划问题：

\[\max a_1'\Sigma_{12} b_1,\\ \text{s.t. }a_1'\Sigma_{11} a_1=b_1'\Sigma_{22} b_2=1. \]

拉格朗日函数为

\[L(a_1,b_1,\lambda_1,\lambda_2)=a_1'\Sigma_{12}b_1-\frac{\lambda_1}{2}(a_1'\Sigma_{11}a_1-1)-\frac{\lambda_2}{2}(b_1'\Sigma_{22}b_1-1),\\ \frac{\partial L}{\partial a_1}=\Sigma_{12}b_1-\lambda_1\Sigma_{11}a_1=0,\\ \frac{\partial L}{\partial b_1}=\Sigma_{21} a_1-\lambda_2\Sigma_{22}b_1=0. \]

用 \(a_1'\) ， \(b_1'\) 左乘以上方程，得到

\[a_1'\Sigma_{12}b_1=\lambda_1=\lambda_2\xlongequal{def}\lambda. \]

代回上式得到

\[\left\{ \begin{array}l -\lambda \Sigma_{11} a_1 + \Sigma_{12} b_1 = 0, \\ \Sigma_{21} a_1 - \lambda \Sigma_{22} b_1 = 0, \end{array} \right. \]

方程组具有非零解的条件是：

\[\begin{vmatrix} -\lambda \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & -\lambda\Sigma_{22} \end{vmatrix}= 0. \]

为了求解此 \(\lambda\) ，常作以下变换：将拉格朗日偏导中的二式左乘 \(\Sigma_{12}\Sigma_{22}^{-1}\) 后，代入一式，得到（另一个式子同理）

\[(\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}-\lambda^2 I_p)\alpha = 0.\\ (\Sigma_{22}^{-1}\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}-\lambda^2 I_p)\beta = 0. \]

即 \(\lambda^2\) 是 \(\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\) 和 \(\Sigma_{22}^{-1}\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\) 的公共特征值，且非零特征值至多为 \(p\) 个。

求解定理：设 \(T=\Sigma_{11}^{-1/2}\Sigma_{12}\Sigma_{22}^{-1/2}\) ， \(p\) 阶方阵 \(TT'\) 的特征值依次是 \(\lambda_1^2\ge \lambda_2^2\ge\cdots\ge \lambda_p^2>0\) ，对应的单位特征向量为 \(l_1,\cdots,l_p\) ，则第 \(k\) 对典型相关变量为

\[a_k=\Sigma_{11}^{-1/2}l_k,\quad b_k=\frac{1}{\lambda_k}\Sigma_{22}^{-1}\Sigma_{21} a_k. \]

如果以上任何矩阵不是可逆的，则使用其广义逆矩阵。

矩阵 \(A\) 的广义逆矩阵 \(D\) 是唯一的，满足

\[ADA=A,\quad DAD=D, \quad (AD)'=AD, \quad (DA)'=DA.

典型相关变量的相关性：设 \(V_k, W_k\) 分别是 \(A, B\) 的第 \(k\) 对典型相关变量，定义 \(V=(V_1,\cdots, V_p)'\) ， \(W=(W_1,\cdots,W_p)'\) ，则

\[\mathbb{D}\begin{bmatrix} V \\ W \end{bmatrix}=\begin{bmatrix} I_p & \Lambda \\ \Lambda & I_p \end{bmatrix},\\ \Lambda = {\rm diag}(\lambda_1, \lambda_2, \cdots, \lambda_p). \]

典型结构：记 \(A_{p\times p}=(a_1,\cdots, a_p)\) ， \(B_{q\times p}=(b_1,\cdots, b_q)\) ，则 \(V=A'X\) ， \(W=B'Y\) ，有

\[{\rm COV}(X, V)={\rm COV}(X, A'X)=\Sigma_{11}A,\\ {\rm COV}(X, W)={\rm COV}(X, B'Y)=\Sigma_{12}B,\\ {\rm COV}(Y, V)={\rm COV}(Y, A'Y)=\Sigma_{21}A,\\ {\rm COV}(Y, W)={\rm COV}(Y, B'Y)=\Sigma_{22}B. \]

3-6 典型相关实操

\(\Sigma\) 未知时，会使用其无偏估计 \(S\) 作为替代，也常常从相关阵 \(R\) 出发导出典型相关变量：

\[a_k=R_{11}^{-1/2} l_k, b_k=\frac{1}{\lambda_k}\Sigma_{22}^{-1}\Sigma_{21}a_k,\\ T = R_{11}^{-1/2}R_{12}R_{22}^{-1/2},\\ {\rm eigenvalue}(TT')=\lambda_k^2,\quad {\rm eigenvector}(TT')=l_k,\\ V_k=a_k'X_\text{scale}, \quad W_k=b_k'Y_\text{scale}. \]