六、假设检验

概念、一个正态总体均值的检验、两个正态总体均值差的检验、成对比较、二样本方差比的检验、拟合优度检验

问题的提出及几个概念

100件产品,6件次品

  1. 次品率是多少?(点估计)
  2. 次品率的范围?(区间估计)
  3. 次品率不会超过多少?(置信上限)
    次品率不会低于多少?(置信下限)
  4. 次品率是不是5%?
    次品率是不是不超过6%?
    次品率是不是不低于5%?

假设\(H_0\)(零假设、原假设):

  1. 原先就有的假设
  2. 经过长期实践,被认为是正确的假设。

假设检验就是通过样本来回答\(H_0\)是否正确。

对正态总体\(N(\mu,\sigma^2)\)而言,一个\(H_0: \mu=\mu_0\),其中\(\mu\)是一个未知常数,\(\mu_0\)是已知的常数。

检验分为参数检验(总体已知,参数未知)和非参数检验(总体未知,参数未知)。

  • 参数检验:
    • 用\(N(0,1)\)检验均值:\(u\)-检验、\(t\)-检验
    • 方差:\(\chi^2\)检验、\(F\)检验
  • 非参数检验:拟合优度检验:取有限值的离散分布

若否定原假设,则接受的假设要事先规定好,这一假设称为对立假设(备择假设),记为\(H_1\)。

  • 若\(H_1:P \neq 0.05\),称为双侧检验
  • 若\(H_1:P >0.05\),称为单侧检验

一个完整的假设检验形如:

\[H_0:... \leftrightarrow H_1:...\]
\(H_0\)和\(H_1\)的地位不平等,检验时,以站在保护原假设的立场上。因此在没有充分的证据下,总是认为\(H_0\)是正确的。

接受\(H_0\),不能说明\(H_0\)一定正确,只能说明到目前为止,没有足够的证据说明\(H_0\)不对,所以接受原假设。

否定(拒绝)\(H_0\),意味着有充分的证据说明\(H_0\)不对。

一个正态总体均值的检验

(待补充)

两个正态总体均值差的检验

\(X\backsim N(\_mu_1,\sigma_1^2),Y\backsim N(\mu_2,\sigma_2^2)\)

  1. \(H_0:\mu_1-\mu_2=\sigma \leftrightarrow H_1:\mu_1-\mu_2 \neq \sigma\)
  2. \(H_0:\mu_1-\mu_2=\sigma \leftrightarrow H_1:\mu_1-\mu_2 > \sigma\)
  3. \(H_0:\mu_1-\mu_2=\sigma \leftrightarrow H_1:\mu_1-\mu_2 < \sigma\)

\(\mu_1,\mu_2\)都是未知常数。

检验规则:
\(\widehat {\mu_1-\mu_2}=\bar X-\bar Y\)

  1. 双侧检验:
    \(\left| \bar Y-\bar Y-\sigma \right| \leqslant d\),接受\(H_0\)
    \(\left| \bar Y-\bar Y-\sigma \right| > d\),拒绝\(H_0\)
  2. 从\(H_1\)验证:
    \(\bar X -\bar Y-\sigma>d\),拒绝\(H_0\)
    \(\bar X -\bar Y-\sigma\leqslant d\),接受\(H_0\)
  3. 从\(H_1\)验证:
    \(\bar Y -\bar X-\sigma>d\),拒绝\(H_0\)
    \(\bar Y -\bar X -\sigma\leqslant d\),接受\(H_0\)

\(\bar X \backsim N(\mu_1,\frac{\sigma_1^2}{n_1}),\bar Y \backsim N(\mu_2,\frac{\sigma_2^2}{n_2}),\bar X-\bar Y\backsim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})\)

标准化:
\[\frac{\bar X-\bar Y-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\backsim N(0,1)\]

  1. 方差已知: \(d=\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}U_{\frac{\alpha}{2}}\)
    单侧时:\(U_{\frac{\alpha}{2}}\)
    双侧时:\(U_\alpha\)
  2. \(\sigma_1^2=\sigma_2^2=\sigma^2\)未知:
    \(d=\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}S_Tt_{\frac{\alpha}{2}}(n_1+n_2-2)\)
  3. \(n_1>30,n_2>30\):
    \(d=\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}U_{\frac{\alpha}{2}}\)

成对比较

\(Z_1,...,Z_n\)来自一份新的总体,\(Z=X-Y\),\(X_1,X_2\),\(Y_1,Y_2\)可能不同分布,但关心的是\(X-Y\)。

检验:

\(H_0:\mu_z=\sigma \leftrightarrow H_1:\mu_z \neq \sigma\)

\(H_0:\mu_z=\sigma \leftrightarrow H_1:\mu_z > \sigma\)

\(H_0:\mu_z=\sigma \leftrightarrow H_1:\mu_z < \sigma\)

  • 成组比较:\(X_1,...,X_n\)比较\(Y_1,...,Y_n\)
  • 成对比较:\(X_1,Y_2\)比较\(X_2,Y_2\)

二样本方差比的检验

\(H_0:\frac{\sigma_1^2}{\sigma_2^2}=\sigma \leftrightarrow H_1: \frac{\sigma_1^2}{\sigma_2^2} \neq \sigma\)

\(\hat{(\frac{\sigma_1^2}{\sigma_2^2})}=\frac{S_1}{S_2}\)

\(\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\backsim F_{n_1-1,n_2-1}\)

\(\frac{1}{B}<\frac{S_1^2}{S_2^2}<\frac{1}{A},0<A<1<B\)

拟合优度的检验

\(\chi^2\)统计量:\[\sum_{i=1}^k \frac{(O_i-E_i)^2}{E_i}\]
\(O_i\):观察值,\(E_i\):理论值、期望值。

当\(n \to \infty\)时,\(\chi^2\)的分布趋向于自由度为\(n-1(P_1+P_2+...+P_n=1)\)的\(\chi^2\)分布。

当\(\chi^2> \chi_{k-1}^2(\alpha)\)时,拒绝\(H_0\)。

\[P(\chi_{k-1}^2 > \chi^2)=p\]
\(p\)值即\(p-value\),即拟合优度,\(p\)值越小越,拟合优度越差,越要拒绝原假设

2016/9/6 posted in  Statistics
 

五、数理统计的基本概念

基本概念、点估计(矩估计、极大似然估计)、区间估计

统计:描述性统计、数理统计

数理统计:以数学和概率论为工具,研究

  1. 如何有效地手机有随机性的数据
  2. 如何手机数据
  3. 在给定模型下进行统计推断

有效收集数据:抽样、试验设计

统计推断

  1. 估计
    1. 点估计
    2. 参数估计(区间估计)
  2. 检验
    1. 参数检验
    2. 非参数检验

基本概念

总体

研究对象的全体

  • 研究对象某个指标取值的全体、取值的可能性(统计总体)
  • 可视为某随机变量的取值及其分布
  • 一般用随机变量\(X\)来表示一个总体

样本

从总体中按一定规则抽取的一些个体,记为\((X_1,X_2,...,X_n)\),称为一个样本,\(n\)为样本大小(样本容量)。

抽取的规则:要有代表性(有放回抽样、无放回抽样)

对于有放回抽样:\((X_1,X_2,...,X_n)\)独立同分布,且服从\(F_X\),即\[(X_1,X_2,...,X_n)\backsim F(x_1,x_2,...,x_n)=\sum\limits_{i=1}^{n}F_X(x_i)\]
若有密度函数,则\[f(x_1,x_2,...,x_n)=\prod\limits_{i=1}^{n}f_X(x_i)\]
有时,分布函数中含有参数,记为\[\theta=(\theta_1,\theta_2,...,\theta_k)\]
分布函数记为\(F(x;\theta)\)或\(f(x;\theta)\)

样本的二重性:样本既是随机变量,也是一组数字。在抽样方案实施之前,样本被视为随机变量,以便于进行理论研究。实施之后,样本就是一组数,记为\((x_1,x_2,...,x_n)\),称为样本的一组实现。

统计量

统计量是为了刻画总体某个特征,对样本的一种加工,即统计量是样本的函数。

样本均值:
\[\bar X=\frac{1}{n}\sum\limits_{i=1}^{n}X_i\]则\(\bar X \overset{P}{\to}\mu\)(大数定理)

样本方差
\[S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar X)^2\]
则\(S^2\overset{P}{\to}EX^2-(EX)^2=Var(X)\)

样本\(l\)阶原点矩
\[a_l=\frac{1}{n}\sum_{i=1}^{n}X_i^l\]

样本\(k\)阶中心矩
\[m_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^k\]


\((X_1,X_2,...,X_n)\)为从总体\(N(\mu,\sigma^2)\)中抽取的一个样本,则
\[\bar X\backsim N(\mu,\frac{\sigma^2}{n})\\
\frac{(n-1)S^2}{\sigma^2}\backsim \chi_{n-1}^2\\
\frac{\frac{\bar X-\mu}{\sigma /\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}}
\backsim t_{n-1}\\
\implies \frac{\sqrt{n}(\bar X-\mu)}{S}\backsim t_{n-1}\]

点估计

总体\(X\backsim F(x;\theta_1,\theta_2,...,\theta_k)\)中抽取一个样本\((X_1,X_2,...,X_n)\),如何从样本来估计未知参数\(\theta\):

  1. 矩方法
  2. 极大思然估计

矩估计

原理:用样本矩代替总体矩(大数定理)

\[\bar X \backsim EX,S^2\backsim Var(X)\]

设\(\theta=(\theta_1,\theta_2,...,\theta_k)\),
\[EX=\int{xf(x,\theta)}\,dx=g(\theta_1,\theta_2,...,\theta_k)\]
或近似地有:
\[g(\theta_1,\theta_2,...,\theta_k)=\bar X\]
同样:
\[EX^j=\int{x^jf(x;\theta_1,\theta_2,...,\theta_k)\,dx}=g_j(\theta_1,\theta_2,...,\theta_k)\\ \implies g_j(\theta_1,\theta_2,...,\theta_k)=G_j,(j=1,2,...,k)\]

解\(k\)个联立方程,可以得到\(\theta_1,\theta_2,...,\theta_k\)的估计,即\(\hat\theta_1,\hat\theta_2,...,\hat\theta_k\),即\[\hat \theta_i=\hat \theta_i(x_1,x_2,...,x_n)\]

其中,\(\hat \theta\)是样本对参数所做的估计,是一个统计量;\(\theta\)是真正的参数。

例:\[X\backsim F(x),EX=\mu,\theta=\mu \implies \hat \mu=\bar X\\
\sigma^2=Var(X)=E(X-EX)^2\\
\hat\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2\]

极大似然估计

总体\(X\backsim f(x;\theta)\)或概率函数\(P_\theta(X=x_i)=p_i(\theta)=P(x_i;\theta),X=x_2,x_2,...,x_n\)

记\[L(X_1,X_2,...,X_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta)\\ \implies L(\vec X;\vec \theta)=\prod_{i=1}^{n}f(x_i;\theta)\]

给定\(\theta\),\(L\)称为\(X_1,X_2,...,X_n\)的密度函数

给定\(X=(X_1,X_2,...,X_n)\),\(L\)称为似然函数

点估计的优良性准则

无偏性

参数\(\theta=(\theta_1,\theta_2...,\theta_k)\),估计\(g(\theta)\)

由样本构造统计量\(\hat g(X_1,X_2,...,X_n)\)。

用\(\hat g(X_1,X_2,...,X_n)\)作为\(g(\theta)\)的一个估计。

无偏性是指\(E\hat g(X_1,X_2,...,X_n)=g(\theta)\),即无系统偏差。

例如:

\(\hat \mu=\bar X,(X_1,X_2,...,X_n)\)是独立同分布,且服从\(F\)分布的总体,

\[E\bar X =E\sum_{i=1}^nX_i/n=\frac{1}{n}(EX_1+EX_2+...+EX_n)=EX=\mu\]
所以\(\bar X\)是总体样本均值的无偏估计。

注:\(g(\theta)\)的无偏估计不唯一。

例如:\(m_2=\frac{1}{n}\sum\limits_{i=1}^{n}(X_i-\bar X)^2\)与\(\hat \sigma^2\)

\[\begin{aligned}\sum(X_i-\bar X)^2&=\sum((X_i-\mu)-(\bar X-\mu))^2\\&=\sum(X_i-\mu)^2+n(\bar X -\mu)^2-2(\bar X-\mu)\sum(X_i-\mu)\end{aligned}\]
\[E\sum(X_i-\mu)^2=n\sigma^2\\
\sum(\bar X-\mu)^2=\frac{1}{n}\sigma^2,(X\backsim N(\mu,\sigma^2),\bar X \backsim N(\mu,\frac{\sigma^2}{n}))\\
\sum(X_i-\mu)=\sum X_i-n\mu=n(\bar X-\mu)\\
(\bar X-\mu)\sum(X_i-\mu)=n(\bar X-\mu)^2\\
Em_2=\frac{1}{n}(n\sigma^2-\sigma^2)=\frac{n-1}{n}\sigma^2
\]

因此对\(m_2\)做修正:
\[S^2=\frac{n}{n-1}m_2=\frac{1}{n-1}\sum(X_i-\bar X)^2\]
即样本方差。

最小方差无偏估计(MVUE)

  1. 无偏性
  2. 在所有无偏估计中找一个“好”的估计,“好”是指方差越小越好

\(g_1(X)\)和\(g_2(X)\)是\(g(\theta)\)的2歌无偏估计。

若\(Var \hat g_1(X) \leqslant Var \hat g_2(X)\),则称\(\hat g_1(X)\)优于\(\hat g_2(X)\)。

若对任一\(g(\theta)\)的无偏估计\(\hat g(X)\),都有\(Var \hat g_1(X) \leqslant Var \hat g(X)\),称\(g_1(X)\)是\(g(\theta)\)的最小方差无偏估计。

一般来说,极大似然估计的结果要比据估计的结果好。

\(E\hat g(X)=g(\theta)\),则\(Var \hat g(X)\)必有下界。

相合性和渐进正态性

设\(\hat g(X_1,X_2,...,X_n)\)是\(g(\theta)\)的一个估计。若\[\hat g(X_1,X_2,...,X_n)\overset{P}{\to}g(\theta)\]
称\(\hat g(X_1,X_2,...,X_n)\)为\(g(\theta)\)的一个相合估计(大样本性质)。

若\(\hat g(X)\)标准化以后的分布函数趋于\(N(0,1)\)的分布函数\(\Phi(x)\),则称\(\hat g(X)\)有渐进正态性。

均方误差最小(MSE)

\[\begin{aligned} min \ E(\hat g(X)-g(\theta))^2&=E(\hat g(X)-E\hat g(X)+E\hat g(X)-g(\theta))^2\\&=Var \hat g(X)+(E\hat g(X)-g(\theta))^2\end{aligned}\]

区间估计

精度和可靠度

区间\((a,b)\)

\(a=a(X_1,X_2,...,X_n),b=b(X_1,X_2,...,X_n)\)(\(a,b\)其实是两个统计量)
精度:区间长度的一半
\(1-\alpha\):置信度、置信水平

\(\alpha=0.05\)时,有\(95\%\)的的可靠度,在区间\((a,b)\) 上

\[P(\mu \in (a(X_1,X_2,...,X_n),b(X_1,X_2,...,X_n)))\geqslant 1-\alpha\]
\((a,b)\)称为置信水平为\((1-\alpha)\times 100\%\)的置信区间

在保证可靠度的前提下,精度越高越好。

应该知道总体\(X\)的分布。

\(\mu \in (\bar X-d,\bar X+d)=(\bar X \pm d)\),\(d\)即精度。

\(\hat \mu =\bar X \)服从正态分布,\(\sigma^2=S^2\)服从\(\chi^2\)分布。

\(\sigma^2 \in (\frac{S^2}{B},\frac{S^2}{A}),0<A<1<B\)

一样本正态总体均值的区间估计

\(X\backsim (\mu,\sigma^2)\),用样本\((X_1,X_2,...,X_n)\)来估计未知参数\(\mu\)。

\(\hat \mu =\bar X\),\(P(\mu \in(\bar X-d,\bar X+d))\geqslant 1-\alpha \implies \)求解\(d\)。
\(\mu\)是一个常数,概率是对\(\bar X\)来求的。
\[\begin{aligned}P(\mu \in(\bar X-d,\bar X+d)) &=P(\bar X-d< \mu < \bar X +d)\\
&=P(-d< \bar X -\mu < d)\\
&=P(\left| \bar X -\mu \right| \leqslant d)\end{aligned}\]
\(\bar X \backsim N(\mu,\frac{\sigma^2}{n})\)
其中,\(P(\left| \bar X -\mu \right| \leqslant d) \implies P(\left| \frac{\bar X -\mu}{\sigma/\sqrt{n}} \right| \leqslant \frac{d}{\sigma \sqrt{n}} )\geqslant 1-\alpha\)

取等号时,精度\(d\)最大:
\[P(\left| \frac{\bar X -\mu}{\sigma/\sqrt{n}} \right| \leqslant \frac{d}{\sigma/ \sqrt{n}} )= 1-\alpha \\
\iff P(\frac{\bar X -\mu}{\sigma/\sqrt{n}}>\frac{d}{\sigma/\sqrt{n}})\\
\implies \frac{d}{\sigma/ \sqrt{n}}=U_{\frac{\alpha}{2}} \]
即上\(\frac{\alpha}{2}\)分位点。
因此,\[d=\frac{\sigma}{\sqrt{n}}U_{\frac{\alpha}{2}}\]

  1. 因此,\(\mu,\sigma^2\)已知时,\(d=\frac{\sigma}{\sqrt{n}}U_{\frac{\alpha}{2}}\)

    不能理解为\(\mu\)有\((1-\alpha)\times 100\%\)的可能落在\((\bar X \pm d)\) 里,因为\(\mu\)是一个常数。应该理解为区间\((\bar X \pm d)\),即样本\((X_1,X_2,...,X_n)\)的\(\bar X\)在移动。

  2. \(\sigma^2\)未知时\[P(\left| \bar X -\mu \right | \leqslant d)=P(\frac{\left| \bar X -\mu \right |}{S/\sqrt{n}}\leqslant \frac{d}{S/\sqrt{n}})\geqslant 1-\alpha\]

    \(\frac{ \bar X -\mu }{\sigma/\sqrt{n}}\backsim N(0,1)\)

    \(\frac{(n-1)S^2}{\sigma^2}\backsim \chi_{n-1}^2\)

    二者相互独立,相除:
    \(\frac{ \bar X -\mu }{S/\sqrt{n}}\backsim t_{n-1}\)

    当\(n\)增大时,\(t_n(\alpha)\)趋向于\(U_\alpha\),即\(n \to \infty\)时,可以用标准正态分布的上\(\alpha\)分位点替代\(t_n(\alpha)\)

    \(\frac{d}{S/\sqrt{n}}=t_{n-1}(\frac{\alpha}{2})\\ \implies d=\frac{S}{\sqrt{n}}t_{n-1}(\frac{\alpha}{2})\)

    特例:当\(n\)很大(\(n>30\))时,\(\sigma^2\)未知,\(d=\frac{S}{\sqrt{n}}U_{\frac{\alpha}{2}}\)

二样本正态总体均值差的区间估计

两个正态总体:

\(X\backsim N(\mu_1,\sigma_1^2),Y\backsim N(\mu_2,\sigma_2^2)\)

\(\hat \mu_1=\bar X,\hat \mu_2=\bar X,\widehat {(\mu_1-\mu_2)}=\bar X-\bar Y\)

\(\mu_1-\mu_2\in (a,b)\)

\(a=a(X_1,...,X_n,Y_1,...,Y_n),b=b(X_1,...,X_n,Y_1,...,Y_n)\)

\(\bar X-\bar Y \backsim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})\)

因此\(\mu_1-\mu_2 \in (\bar X-\bar Y \pm d)\)

\[P(\mu_1-\mu_2 \in (\bar X-\bar Y\pm d))\geqslant 1-\alpha\\
\iff P(\frac{\left| \bar X-\bar Y-(\mu_1-\mu_2)\right|}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\leqslant \frac{d}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}})\geqslant 1-d\\
\implies \frac{d}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\geqslant {frac{\alpha}{2}}\]
取等号:\(d={\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\)

  1. \(\sigma_1^2,\sigma_2^2\)已知:\[d={\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\]
  2. \(\sigma_1^2,\sigma_2^2\)未知,一般情况无解,仅讨论\(\sigma_1^2=\sigma_2^2=\sigma^2\)未知这一情况。

    已知

    \(\frac{1}{n_1-1}\sum(X_i-\bar X)^2\)估\(\sigma^2\)

    \(\frac{1}{n_2-1}\sum(Y_j-\bar Y)^2\)估\(\sigma^2\)

    用两者一起估计来提高精度

    \(\implies \sum(X_i-\bar X)^2+\sum(Y_j-\bar Y)\)

    \(\implies \frac{1}{n_1+n_2-2}(\sum(X_i-\bar X)^2+\sum(Y_j-\bar Y)^2)\)估\(\sigma^2\)

    \(\sum(X_i-\bar X)^2 \implies \frac{(n_1-1)S_1^2}{\sigma^2}\backsim \chi_{n_1-1}^2\)

    \(\sum(Y_j-\bar Y)^2 \implies \frac{(n_2-1)S_2^2}{\sigma^2}\backsim \chi_{n_2-1}^2\)

    \(\frac{(n_1-1)S_1^2}{\sigma^2}+\frac{(n_2-1)S_2^2}{\sigma^2}\backsim \chi_{n_1+n_2-2}^2\)

    \(\bar X-\bar Y\)与\((n_1-1)S_1^2+(n_2-1)S_2^2\)独立



    \(\begin{aligned}S_T^2&=\frac{1}{n_1+n_2-2}((n_1-1)S_1^2+(n_2-1)S_2^2)\\
    &=\frac{1}{n_1+n_2-2}(\sum(X_i-\bar X)^2+\sum(Y_j-\bar Y))\end{aligned}\)



    \(\frac{d}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}=\frac{d}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_T}\\
    \implies t_{n_1+n_2-2}(\frac{\alpha}{2})\)

  3. \(\sigma_1^2,\sigma_2^2\)未知,\(n_1>30,n_2>30\)

    \(\mu_1-\mu_2 \in (\bar X -\bar Y \pm \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}U_{\frac{\alpha}{2}})\)

样本大小的确定

\[d=\frac{\sigma}{\sqrt{n}}U_{\frac{d}{2}}\]
\(d\):精度

\(U_{\frac{d}{2}}\):置信度

\(n\):样本大小

\(n=(\frac{\sigma}{d}U_{\frac{d}{2}})^2\)

\(\sigma^2\)未知时,先全区一小部分样本,作\(\sigma^2\)的估计,然后根据上式定出\(n\)的大小。

一样本正态总体方差的区间估计

方差的区间估计精度较差,实际中较少使用。

总体\(X\backsim(X_1,X_2,...,X_n),\hat \sigma^2=S^2\)

\(\sigma^2 \in (\frac{S^2}{B},\frac{S^2}{A})\)

目的:定出\(A,B\)

\(P(\sigma^2 \in (\frac{S^2}{B},\frac{S^2}{A}))\geqslant 1-\alpha\)

\(\frac{(n-1)S^2}{\sigma^2}\backsim \chi_{n-1}^2\)

\(\implies P(\frac{S^2}{B}\leqslant \sigma^2 \leqslant \frac{S^2}{A})\\
=P(A(n-1)\leqslant \frac{S^2}{\sigma^2}(n-1)\leqslant B(n-1))\)

\(P(\frac{S^2}{\sigma^2}(n-1)\geqslant B(n-1))\leqslant \frac{\alpha}{2},P(\frac{S^2}{\sigma^2}(n-1)\leqslant A(n-1))\leqslant \frac{\alpha}{2}\)

\((n-1)B=\chi_{n-1}^2(\frac{\alpha}{2})\implies B=\frac{1}{n-1}chi_{n-1}^2(\frac{\alpha}{2})\)

同理:\(A=\frac{1}{n-1}\chi_{n-1}^2(\frac{\alpha}{2})\)

所以\(\sigma^2 \in (\frac{(n-1)S^2}{\chi_{n-1}^2(\frac{\alpha}{2})},\frac{(n-1)S^2}{\chi_{n-1}^2(1-\frac{\alpha}{2})})\)

当\(n\)较小时,区间差异较大;当\(n\)较大时,区间差异较小。

二样本正态总体方差比的区间估计

\(X\backsim N(\mu_1,\sigma_1^2),Y\backsim N(\mu_2,\sigma_2^2)\)

\(\hat \sigma_1^2=S_1^2,\hat \sigma_2^2=S_2^2\),\(S_1^2\)与\(S_2^2\)独立。

\(F_{m,n}=\frac{\chi_m^2/m}{\chi_n^2/n}\)用于方差分析。

\[\frac{\frac{(n_1-1)S_1^2}{\sigma_1^2}/(n_1-1)}{\frac{(n_2-1)S_1^2}{\sigma_2^2}/(n_2-1)}=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\backsim F_{n_1-1,n_2-1}\]

\(\hat {(\frac{\sigma_1^2}{\sigma_2^2})}=\frac{S_1^2}{S_2^2}\)

\(P(\frac{\sigma_1^2}{\sigma_2^2} \in (a\frac{S_1^2}{S_2^2},b\frac{S_1^2}{S_2^2}))\geqslant 1-\alpha , 0<a<1<b\)

\(P(a\frac{S_1^2}{S_2^2}\leqslant \frac{\sigma_1^2}{\sigma_2^2}\leqslant b\frac{S_1^2}{S_2^2})=P(\frac{1}{b}\leqslant \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\leqslant \frac{1}{a})\geqslant 1-\alpha\)

\(\frac{1}{a}=F_{n_1-1,n_2-1}(\frac{\alpha}{2}),\frac{1}{b}=F_{n_1-1,n_2-1}(1-\frac{\alpha}{2})\)

由上\(\alpha\)分位点定义:
\[P(\frac{\chi_m^2/m}{\chi_n^2/n}\geqslant F_{m,n}(\alpha))=\alpha
\iff P(\frac{\chi_n^2/n}{\chi_m^2/m}\leqslant \frac{1}{F_{m,n}(x)})=\alpha\\
\implies \frac{1}{F_{m,n}(\alpha)}=F_{n,m}(1-\alpha)\]
所以\(b=F_{n_2-1,n_1-1}(\frac{\alpha}{2})\)

2016/9/6 posted in  Statistics
 

四、随机变量的数字特征

数学期望、条件数学期望、方差、标准差、协方差、相关系数、大数定律、中心极限定理

数字特征

  • 位置参数
    • 期望:平均数
    • 中位数:若为\(m\),则:
      \[P(X\geqslant m)\geqslant \frac{1}{2}\]
      \[P(X\leqslant m)\geqslant \frac{1}{2}\]
      中位数不唯一,可以是一个区间
    • 众数:密度函数的最大值
  • 刻度参数
    • 方差
    • 标准差
    • 极差
  • 其他
    • 协方差
    • 相关系数

数学期望

定义1

设\(X\)为离散型随机变量,\(P(X=x_i)=p_i,i=1,2,...\),

若\(\sum\limits_{i=1}^{\infty}p_i \left| x_i \right|<\infty\),称 \(\sum\limits_{i=1}^{\infty}p_i \left| x_i \right| \)为随机变量\(X\)的数学期望,记为\(EX\)。

注: \(EX\)是一个数,而不是一个随机变量。

定义2

设\(X\)为连续型随机变量,\(X\backsim f(x)\)。

若\(\int{\left| x \right| f(x)\,dx}<\infty\),称\(\int{xf(x)\,dx}\)为随机变量\(X\)的期望,记为\(EX\)。

性质

  1. 线性性

    设\(X_1,X_2,...,X_n\)为随机变量,\(a_1,a_2,...,a_n\)为一组常数,则\[E(\sum\limits_{i=1}^{\infty}a_iX_i)=\sum\limits_{i=1}^{\infty}a_iEX_i\]

  2. 若\(X,Y\)独立,则\[E(XY)=(EX)(EY)\]

    \(E(XY)=(EX)(EY)\nRightarrow X,Y\)独立。

  3. 随机变量的函数的数学期望
    \(Y=g(X_1,X_2,...,X_p)\\(X_1,X_2,...,X_p)\backsim f(x_1,x_2,...,x_p)\)

    则\[\begin{aligned}EY&=\int yf_Y(y)\,dy\\&=\int ...\int g(x_1,x_2,...,x_p)f(x_1,x_2,...x_p)\,dx_1dx_2,...,dx_p\end{aligned}\]

    对于\(X,Y\backsim f_1(x)f_2(y),XY=g\),

    \[\begin{aligned}E(XY)&=\int {xyf_1(x)f_2(y)\,dxdy}\\&=\int{xf_1(x)\,dx}\cdot \int{yf_w(y)\,dy}\\&=EXEY\end{aligned}\]

  4. 若\(X\geqslant Y\),则\(EX\geqslant EY\)

条件数学期望

\((X,Y)\backsim f(x,y)\),给定\(Y=y\)下,\(X\)的条件密度为\[f_{X|Y}(x|y)=\frac{f(x,y)}{f_2(y)}\]
记\[\int{xf_{X|Y}(x|y)\,dx}\]为给定\(Y=y\)下,随机变量\(X\)的条件期望,记为\(E(X|Y=y)\)。

在条件期望中\(E(X|Y=y)\)与\(y\)的取值有关,因此\(E(X|Y=y)\)是\(y\)的函数。若记\(E(X|Y=y)=\varphi(Y)\),即为随机变量\(Y\)的一个函数。

\[\begin{aligned}E\varphi(Y)&=\int{\varphi(y)f_2(y)\,dy}\\&=\int(\int{xf_{X|Y}(x|y)\,dx})f_2(y)\,dy\\&=\iint{x\frac{f(x,y)}{f_2(y)}f_2(y)}\,dxdy\\&=\iint{xf(x,y)}\,dxdy\\&=\int{xf_1(x)}\,dx\\&=EX\end{aligned}\]
即:\[EX=E(E(X|Y))\]
称为条件期望的平滑公式。

方差、标准差

方差

\(X\)为随机变量,称\(E(X-EX)^2\)为随机变量\(X\)的方差。记为\(Var(X)\)或\(DX\)。

\(\sqrt{E(X-EX)^2}\)为标准差,记为\(\sigma\),\(\sigma\)可以保证单位量纲一致。

\[E(X-EX)^2=\int{(x-\mu)^2f(x)}\,dx\]
\[\begin{aligned}E(X-\mu)^2&=E(X^2-2\mu X+\mu^2)\\&=EX^2-2\mu^2+\mu^2\\&=EX^2-(EX)^2\end{aligned}\]
对离散型的随机变量:

\(P(X=x_i)=p_i,i=1,2,...\)

\[EX=\sum{x_ip_i}\]
\[\begin{aligned}Var(X)&=E(X-EX)^2\\&=\sum\limits_{i=1}^{\infty}(x_i-\mu)^2p_i\\&=\sum\limits_{i=1}^{\infty}x_i^2p_i-(\sum x_ip_i)^2\\&=EX^2-(EX)^2\end{aligned}\]

方差描述了:

  1. 波动程度
  2. 信息
  3. 风险

方差的性质

  1. 常数的方差为0,即\(Var(c)=0\)
  2. \(Var(aX+b)=a^2Var(X)\)
  3. 若\(X,Y\)独立,则:\[Var(X\pm Y)=Var(X)+Var(Y)\]推广:若\(X_1,X_2,...,X_n\)相互独立,则:\[Var(\sum\limits_{i=1}^{n}{a_iX_i})=\sum\limits_{i=1}^{n}a_i^2Var(X_i)\]

切比雪夫不等式

设\(Y\geqslant 0\),则对\(\forall \varepsilon >0\),
\[P(Y\geqslant \varepsilon)\leqslant \frac{EY}{\varepsilon}\]
设\(Y\backsim f(y)\),\[\begin{aligned}E(Y)&=\int_{0}^{+\infty}{yf(y)}\,dy\\ &\geqslant \int_{\varepsilon}^{\infty}yf(y)\,dy\\&\geqslant \varepsilon \int_{\varepsilon}^{\infty}f(y)\,dy\\&=\varepsilon P(Y\geqslant \varepsilon)\end{aligned}\]

特例:取\(Y=(X-EX)^2,\varepsilon=\varepsilon_1^2\),则\[P(\left| X-EX \right|^2\geqslant \varepsilon_1^2)\leqslant\frac{Var(X)}{\varepsilon_1^2}\\ \iff P(\left| X-EX \right|\geqslant \varepsilon_1)\leqslant \frac{Var(X)}{\varepsilon_1^2} \]

标准差

\[\sigma=\sqrt{Var(X)}\]
\[Y=\frac{X-EX}{\sigma},EY=0,Var(Y)=1\]称为随机变量\(X\)的标准化。标准化的目的是为了与正太随机变量做比较。

\(k\)阶原点矩\(EX^k\):\(f(X)=X^k\)

\(k\)阶中心矩\(E(X-EX)^k\):\(f(X)=(X-EX)^k\)

偏度系数

\[X\backsim N(\mu,\sigma^2),\frac{\mu_3}{\sigma^3}\]
\[\frac{E(X-EX)^3}{(E(X-EX)^2)^{\frac{3}{2}}}\overset{\triangle}{=}\frac{\mu_3}{\sigma^3}\]

峰度系数

是否都集中在均值附近

\[\frac{E(X-EX)^4}{\sigma^4}\overset{\triangle}{=}\frac{\mu_4}{\sigma^4}\]
若\(X\backsim N(\mu,\sigma^2)\),则\[\frac{\mu_4}{\sigma^4}=3\]

协方差和相关系数

描述两个随机变量之间的关系

\(X,Y\)的混合矩

混合原点矩:\(E(X^n)(Y^n)\)

混合中心矩:\(E(X-EX)^n(Y-EY)^n\)

协方差

\[Cov(X,Y)\overset{\triangle}{=}E(X-EX)(Y-EY)\]
若\(Y=X\),则
\[Cov(X,X)=Var(X)\]

性质

  1. \(Cov(aX+b,cY+d)=acCov(X,Y)\)
  2. \(Cov(aX+bY,cX+dY)=\left(\begin{array}{ccc}a & b
    \end{array}\right)\left(
    \begin{array}{ccc}
    Var(X) & Cov(X,Y) \\
    Cov(X,Y) & Var(Y)
    \end{array}
    \right)\left(\begin{array}{ccc}
    c \\
    d
    \end{array}\right)\)
    特例:\[\begin{aligned}Cov(aX+bY,aX+bY)&=Var(aX+bY)\\
    &=\left(\begin{array}{ccc}
    a & b
    \end{array}\right)\left(
    \begin{array}{ccc}
    Var(X) & Cov(X,Y) \\
    Cov(X,Y) & Var(Y)
    \end{array}
    \right)\left(\begin{array}{ccc}
    a \\
    b
    \end{array}\right)
    \end{aligned}\]
    是二次型

  3. \(X,Y\)独立,则\(Cov(X,Y)=0\)

    \(Cov(X,Y)=0\),称随机变量\(X,Y\)不相关

    独立\(\implies\) 不相关

    不相关\(\nRightarrow\) 独立

  4. \(Cov^2(X,Y)\leqslant Var(X)Var(Y)\)

    等号成立\(\iff X,Y\)之间有着严格的线性关系(例如\(Y=aX+b\))

相关系数

\(Corr(X,Y)=\rho_{X,Y}=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}\)

性质

\(\left| \rho_{X,Y} \right| \leqslant 1\)无量纲

\(\rho_{X,Y}=0 \implies X,Y\)不是线性相关

\(\left\{
\begin{aligned}
\rho=1 \implies Y=a+bX ,b>0 \\
\rho=-1 \implies Y=a+bX ,b<0
\end{aligned}
\right.\)

\(\left\{
\begin{aligned}
0<\rho_{XY}<1 &\implies X与Y正相关\\
-1<\rho_{XY}<0 &\implies X与Y负相关
\end{aligned}
\right.\)

\(X,Y\)独立\(\iff \rho=0\)

\(\rho\)可以看成向量\(\vec{X},\vec{Y}\)的夹角的余弦,即当\(\rho_{XY}=0,X\perp Y\)

大数定律和中心极限定理

大数定律(弱大数定律)

\(X_1,X_2,...,X_n\)是独立同分布的随机变量,设\(EX_i=\mu\),\(Var(X_i)=\sigma^2\)

令\(\bar X_n=\frac{1}{n}\sum\limits_{i=1}^{n}X_i\)(样本均值),则当

\(n \to \infty\)时,对\(\forall \epsilon >0\), \[P(\left| \bar X -\mu \right|>\epsilon)\to 0\]

也记为\[\bar X_n \overset{P}{\to} \mu\]

证明过程

由切比雪夫不等式:\(\forall \epsilon >0\)
\[P(\left| \bar X -\mu \right|\geqslant \epsilon)\leqslant \frac{Var(\bar X-\mu)}{\epsilon^2}\\\]易得

\[E\bar X_n=\mu,Var(\bar X_n)=\frac{\sigma^2}{n}\]
将\(\bar X\)标准化:
\[\frac{\bar X_n-\mu}{\sigma/\sqrt{n}}=Y\\
\lim\limits_{n\to \infty}{\frac{Var(\bar X-\mu)}{\epsilon^2}}=\lim\limits_{n\to \infty}{\frac{\sigma}{n\epsilon^2}}\to 0
\]

这里的证明有点问题,回头再改。

中心极限定理

当\(X_1,X_2,...,X_n\)为独立同分布的随机变量(连续或独立)

\[EX_i=\mu,Var(X_i)=\sigma^2\]
则\[P(\frac{X_1+X_2+...+X_n-N\mu}{\sqrt{n}\sigma}\leqslant x)\to \Phi(x),(n\to \infty)\]
若设\(X_1+X_2+...+X_n=S_n\),则\(\frac{X_1+X_2+...+X_n-N\mu}{\sqrt{n}\sigma}\)为\(S_n\)的标准化。

即:\(X_1,X_2,...,X_n\)的和呈现正态分布的规律。

注:条件可以放宽(可以不是独立同分布等)

\[\begin{aligned}\frac{X_1+X_2+...+X_n-N\mu}{\sqrt{n}\sigma}&=\frac{\frac{X_1+X_2+...+X_n}{n}-\mu}{\frac{\sigma}{\sqrt{n}}}\\&=\frac{\bar X_n-\mu}{\sigma/\sqrt{n}}\end{aligned}\]

若\(X_i\)服从\((0,1)\)分布,则:
\[S_n\backsim B(n,p),\mu =p,\sigma^2=pq,(q=1-p)\]
所以,当\(X_i\backsim B(0,1)\):
\[P(\frac{X-np}{\sqrt{npq}}\leqslant x)\approx \Phi(x)\]
所以
\[\begin{aligned}P(k_1\leqslant X\leqslant k_2)&=P(\frac{k_1-np}{\sqrt{npq}}\leqslant \frac{X-np}{\sqrt{npq}}\leqslant \frac{k_2-np}{\sqrt{npq}})\\&\approx\Phi(\frac{k_2-np}{\sqrt{npq}})-\Phi(\frac{k_1-np}{\sqrt{npq}})\end{aligned}\]

提高精度(逼近分布曲线的\(y\)点的面积):
\[P(k_1\leqslant X\leqslant k_2)=P(k-\frac{1}{2} < X\leqslant k_2+\frac{1}{2})\]
在分布靠中心处精度较高,两端尾部的精度低

2016/9/6 posted in  Statistics
 

三、多维随机变量及其分布

随机向量及其分布、多元分布、条件分布、随机向量的函数的分布、统计中的重要分布

随机向量及其分布

定义

设\(X_1,X_2,...,X_n\)为同一样本空间\(S\)上的随机变量,则称\(X=(X_1,X_2,...,X_n)\)为随机向量,\(n\)为维数。

即,\(X\)是一个\(n\)维向量,其中每一个分量都是随机变量,也称为\(n\)维随机变量。

随机向量的分布

二维离散型随机向量

\[P(X=x_i,Y=y_i)=P_{ij}\\ i=1,2,...,m \\ j=1,2,...,n\]
\[P_{ij} \geqslant 0\]
\[\sum\limits_{i=1}^{\infty}\sum\limits_{j=1}^{\infty}P_{ij}=1\]

二维随机联分布函数

设\((X,Y)\)为二维随机向量,称\[F(x,y)=P(X \leqslant x,Y \leqslant Y)\]为\((x,y)\)的联合分布函数。

性质

  1. 给定\(y\),\(F(x,y)\)是\(x\)的非减函数;
    给定\(x\),\(F(x,y)\)是\(y\)的非减函数。
  2. \[0 \leqslant F(x,y) \leqslant 1 \]
    \[\lim\limits_{x \to {-\infty}}F(x,y)=0\]
    \[\lim\limits_{y \to {-\infty}}F(x,y)=0\]
    \[\lim\limits_{x \to {+\infty} \atop y \to {+\infty}}F(x,y)=1\]

  3. \[P(a<x \leqslant b,c<y\leqslant d)=F(b,d)-F(a,d)-F(b,c)+F(a,c)\geqslant 0\]

  4. \(F(x,y)\)分别关于\(x,y\)右连续

连续型随机向量的概率密度函数

定义:若对\(F(x,y)\)存在\(f(x,y)\geqslant 0\),使得对任一\((x,y)\in R^2\),有\[F(x,y)=\int_{-\infty}^x\int_{-\infty}^yf(u,v)\,dudv\]则称\(F(x,y)\)为连续型联合分布函数,\(f(x,y)\)称作密度函数。

由定义可知:

\[f(x,y)\geqslant 0, \iint f(x,y)\,dxdy=1\]
在\(f(x,y)\)的连续点上,\[\frac{\partial^2F}{\partial x \partial y}=f(x,y)\]

重要的二维连续随机分布

二维均匀分布

设\(G \subset R^2, \left| G \right|\)表示面积

\[(x,y) \backsim f(x,y)=\left\{
\begin{aligned}
\frac{1}{\left| G \right|}&, \quad (x,y) \in G \\
0&, \quad 其他
\end{aligned}
\right.\]

二维正态分布

\[(x,y)\backsim f(x,y)=\frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}+\frac{(y-\mu_2)^2}{\sigma_2^2}-\frac{2\rho (x-\mu_1)(y-\mu_2)}{\sigma_1 \sigma_2}]}\]

称\((x,y)\)为服从二维联合正太分布的随机变量,

记为\[(x,y)\backsim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\]

边缘分布(边际分布)

\((X,Y)\backsim F(x,y)\)

则\(X\)的分布\(F_1(x)\)和\(Y\)的分布\(F_2(y)\)称为\(F(x,y)\)的边缘分布。

\[\begin{aligned}F_1(x)&=P(X\leqslant x)\\&=P(X \leqslant X,Y \leqslant +\infty)\\&=F(x,+\infty)\\&=\lim\limits_{y \to +\infty}F(x,y)\end{aligned}\]
同理\[F_2=\lim\limits_{x \to +\infty}F(x,y)\]

边缘密度函数:

\[\begin{aligned}f_1(x)&=\frac{\partial F(x,+\infty)}{\partial x}\\&=\frac{\partial}{\partial x}\int_{-\infty}^x\int_{-\infty}^{+\infty}f(x,y)\,dxdy\\&=\int_{-\infty}^{+\infty}f(x,y)\,dy\end{aligned}\]

同理\[f_2(y)=\int_{-\infty}^{+\infty}f(x,y)\,dx\]

离散型:

\[\begin{aligned}P(X=x_i)&=P(X=x_i,\bigcup\limits_{j=1}^{\infty}Y=y_j)\\&=\sum\limits_{j=1}^{\infty}P(X=x_i,Y=y_i)\\&=\sum\limits_{j=1}^{\infty}P_{ij}\\&=P_{i\cdot}\end{aligned}\]

同理:\[P(Y=y_i)=P_{\cdot j}\]

多元分布

\(X=(X_1,X_2,...,X_n)\),

称\[F(x_1,x_2,...,x_n)=P(X_1\leqslant x_1,X_2\leqslant x_2,...,X_n\leqslant x_n)\]为随机向量\(X=(X_1,X_2,...,X_n)\)的联合分布。

设\(\vec{x}=(X_1,X_2,...,X_n)\)

定义:\[\vec{a}\leqslant\vec{b}\iff a_i \leqslant b_i,i=1,2,...,n\]
\[F(\vec{x})=P(X\leqslant \vec{x})\]
若\[\exists f(x_1,x_2,...,x_n) \ne 0\]
使\[\forall (x_1,x_2,...,x_n)\in R^n\]
\[F(x_1,x_2,...,x_n)=\int_{-\infty}^{x_1}\int_{-\infty}^{x_2}\cdot \cdot \cdot \int_{-\infty}^{x_n}f(u_1,u_2,...,u_n)\,du_1du_2...du_n\]

则\(F\)称为连续型分布函数,\(f\)称为联合密度函数。

\[F(\vec{x})=\int_{-\infty}^{\vec{x}}f(\vec{u})\,d{\vec{u}}\]

条件分布

离散型随机向量

\[P(X=x_i,Y=y_j)=P_{ij}\]
\[\begin{aligned}P(X=x_i|Y=y_j)&=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}\\&=\frac{P_{ij}}{P_{\cdot j}}\end{aligned}\]

连续型随机向量

\((X,Y)\backsim f(x,y)\)

定义:\[F_{x|y}=P(X\leqslant x|Y=y)\]称为给定\(Y=y\)下随机变量\(X\)的条件分布。

\[\begin{aligned}f(x|y)&=\frac{P(X\leqslant x,Y=y)}{P(Y=y)}\\&=\lim\limits_{\epsilon \to 0}\frac{P(X=x,y\leqslant Y \leqslant y+\epsilon)}{P(y\leqslant Y \leqslant y+\epsilon)}\\&=\int_{-\infty}^{x}\frac{f(u,y)}{f_2(y)}\,du\end{aligned}\]

称\(\frac{f(x,y)}{f_2(y)}\)为给定\(Y=y\)下随机变量\(X\)的条件密度,记为\[f_{X|Y}(x|y)\]

即:\[f(x,y)=f_{X|Y}(x|y)f_2(y)\]

相互独立的随机变量

\(X,Y\)独立

\(X,Y\)独立是指与随机变量$X$有关的任一事件发生与否与与随机变量$Y$有关的任意事件发生与否无关。

\[P\{(X\leqslant x),(Y \leqslant y)\}=P(X\leqslant x)P(Y\leqslant y)\]
即:\[F(x,y)=F_1(x)F_2(y)\]
若密度函数存在,则\[f(x,y)=f_1(x)f_2(y)\]
\(\implies\)若\(X,Y\)独立,则\[f_{X|Y}(x|y)=f_1(x),f_{Y|X}(y|x)=f_2(y)\]
\((X,Y)\backsim f(x,y)\),则\[X,Y独立\iff f(x,y)=g_1(x)g_2(y)\]
此时,\(\exists \)常数\(a,b\)使\[ag_1(x)=f_1(x),bg_2(x)=f_2(x),ab=1\]

对于\((X,Y)\backsim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),\[(X,Y)独立\iff \rho=0\]

\(X_1,X_2,...,X_n\)相互独立

\[F(x_1,x_2,...,x_n)=\prod\limits_{i=1}^{n}F_i(x_i)\]或\[f(x_1,x_2,...,x_n)=\prod\limits_{i=1}^{n}f_i(x_i)\]

性质:

  1. \[y=g(x_1,x_2,...,x_k),z=h(x_{k+1},x_{k+2},...,x_n)\]则\(y\)与\(z\)独立
  2. 若\(X_1,X_2,...,X_n\)相互独立,并且有相同的边缘分布,则称\(X_1,X_2,...,X_n\)为独立同分布,简记为\(iid\)

随机向量的函数的分布

\[(X,Y)\backsim f(x,y)\\Z=g(X,Y)\\ F_Z(z)=P(g(x,y)\leqslant z)=\iint\limits_{g(x,y)\leqslant z} f(x,y)\,dxdy\]

统计中的重要分布

\(\Gamma\)函数、\(\beta\)函数

\(\Gamma\)函数

\[\Gamma(x)=\int_{0}^{\infty}e^{-t}t^{x-1}\,dt, x>0\]
性质:

  1. \[\Gamma(x+1)=x\Gamma(x),\Gamma(1)=1 \\ \implies \Gamma(n+1)=n!\]
  2. \[\Gamma(\frac{1}{2})=\sqrt{\pi}\]

\(\beta\)函数

\[B(x,y)=\int_0^1 t^{x-1}(1-t)^{y-1}\,dt,x>0,y>0\]
则\[B(x,y)=\frac{\Gamma(x)\Gamma(y)}{\Gamma(x+y)}\]

上下侧分位数

对于随机变量\(X\)的分布函数为\(F(x)\),\(0<\alpha <1\)

  • 上侧分位数:
    \[P(X>\lambda)=1-F(\lambda)=\alpha\]称\(\lambda\)为上侧\(\alpha\)分位数
  • 下侧分位数:
    \[P(X<\lambda)=F(\lambda)=\alpha\]称\(\lambda\)为上侧\(\alpha\)分位数
  • 双侧分位数:
    \[P(X<\lambda_1)=F(\lambda_1)=0.5\alpha\] \[P(X<\lambda_2)=1-F(\lambda_2)=0.5\alpha\] 称\(\lambda_1,\lambda_2\)为双侧\(\alpha\)分位数

\(\chi^2\)分布

定义:设\(X_1,X_2,...,X_n\)是独立同分布的随机变量,\(X_i\backsim N(0,1)\)

\[\chi ^2=\sum\limits_{i=1}^n x_i^2\]则称\(\chi^2\)服从自由度为\(n\)的\(\chi^2\)分布,记为\(\chi_n^2\)

自由度:能够自由变化的自变量的个数。

例如:若限制\(\sum\limits_{i=1}^n x_i=1\),则自由度为\(n-1\)

\(t\)分布

设\(X\backsim N(0,1)\),\(Y\backsim \chi^2\),\(X,Y\)相互独立

\[t_n=\frac{X}{\sqrt{Y/n}}\]则称\(t\)服从自由度为\(n\)的\(t\)分布,记为\(t_n\)。

\[f_n(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{t^2}{n})^{-\frac{n+1}{2}}\]

当\(n \to \infty\)时,\(f_n(t)\)与\(N(0,1)\)近似。

若\(X_1,X_2,...,X_n\)是独立同分布,且服从\(N(\mu,\sigma^2)\),则:

\[\frac{\sqrt{n}(\bar x-\mu)}{\sigma}\backsim N(0,1)\]
\[\frac{1}{\sigma^2}\sum\limits_{i=1}^{n}(x_i-\bar x)\backsim\chi_{n-1}^2\]

二者相互独立。

\[\implies \frac{\frac{\sqrt{n}(\bar x-\mu)}{\sigma}}{\sqrt{\frac{1}{\sigma^2}\sum\limits_{i=1}^{\infty}\frac{(x-\bar x)^2}{n-1}}}\backsim t_{n-1}\]

\(F\)分布

设\(X \backsim \chi_m^2\),\(Y \backsim \chi_n^2\)

且\(X\)与\(Y\)独立,\[F=\frac{X/m}{Y/n}\]
则称\(F\)服从自由度为\(m,n\)的\(F\)分布,记为\(F_{m,n}\)

\[t_n^2=\frac{X^2}{Y/n}=F_{1,n}\]

最大最小分布

\(X,Y\)独立,\[Z=max(X,Y),W=min(X,Y)\]
\[\begin{aligned}F_Z(z)&=P(Z\leqslant z)\\&=P(max(X,Y)\leqslant z)\\&=P(X\leqslant z,Y\leqslant z)\\&=P(X\leqslant z)P(Y\leqslant z)\\&=F_X(z)F_Y(z)\end{aligned}\]
因此\[f_Z(z)=f_X(z)F_Y(z)+F_X(z)f_Y(z)\]
若\(X,Y\)独立同分布,则\[f_Z(z)=2f(z)F(z)\]

\[\begin{aligned}P(W\leqslant w)&=P(min(X,Y)\leqslant w)\\&=1-P(min(Z,Y)> w)\\&=1-P(X>w,Y>w)\\&=1-P(X>w)P(Y>w)\\&=1-(1-F_x(w))(1-F_y(w))\end{aligned}\]

2016/9/6 posted in  Statistics
 

二、随机变量及其分布

随机变量、离散型随机变量、连续型随机变量

随机变量

研究:随机事件中的一串事件所发生的概率,事件之间可能有联系。

引入随机变量:用一个数或一个区间来表示所关心的事件,这种对应关系叫随机变量。

随机变量研究:

  1. 随机变量取哪些值
  2. 随机变量取这些值的概率

离散型随机变量

随机变量\(X\)取有限或可数多个值,

\(P(X=x_k)=P_k, \quad k=1,2,...,n\)称为随机变量的分布,

\(X\)是随机变量,\(x_k\)是一个实数,没有随机性。

离散的均匀分布

\(P(x=k)=\frac{1}{n},\quad k=1,2,...,n\)

二项分布

在一次试验中事件\(A\)发生的概率为\(p\),把这一试验独立重复做\(n\)次,将\(x\)记为\(n\)次试验中事件\(A\)发生的次数。

\(P(X=k)=P_{n,k}={n \choose k}p^k(1-p)^{n-k}, \quad k=0,1,...,n\),称随机变量服从二项分布,记为\(X \backsim B(n,p)\)

超几何分布二项分布:二项分布是有放回的试验;超几何分布是不放回的试验

泊松分布

观测量很大时,无法统计。

  • 二项分布:\(p\)已知,发生次数\(\lambda\)不确定
  • 泊松分布:\(\lambda\)已知,\(p\)不确定

\(P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},\quad k=0,1,2,...,\quad \lambda >0\)

\(\lambda\)称为泊松分布的强度

  1. 描述稀有事件发生的概率
  2. 作为二项分布的一种近似(泊松逼近定理):
    设\(X\backsim B(n,p)\)
    当\(n\)很大(\(n\geqslant 30\)),\(np\)较小(\(np\leqslant\) 5)时:
    \(b_{nk}={n \choose k}p^k(1-p)^{n-k} \backsim e^{-\lambda}\frac{x^k}{k!} \)
    其中\(\lambda=np\),当\(p\)很小时,
    \((1-x) \backsim e^{-x} \implies (1-p)^{n-k} \backsim e^{-p(n-k)} \backsim e^{-pn}=e^{-\lambda}\) \(\begin{align} {n \choose k}p^k(1-p)^{n-k}& =\frac{n(n-1)...(n-k+1)}{k!}p^k(1-p)^{n-k}\\ & \approx \frac{(np)^k}{k!}e^{-\lambda}=e^{-\lambda}\frac{\lambda ^k}{k!} \end{align}\)

连续型随机变量

定义1:设\(X\)为随机变量,称\(P(X\leqslant x)=F(x)\)为\(X\)的分布函数

定义2

若分布函数\(F(x)\)满足:存在非负函数\(f(x)\),且\(\int{f(x)}\,dx=1\)。

且\(F(x)=\int_{-\infty}^{x}{f(t)}\,dt\),则称\(F(x)\)为连续型分布函数,对应的随机变量\(X\)称为连续型随机变量。

分布函数的性质

  1. \(F(x)\)单调非降 \(\uparrow\)
  2. \(0 \leqslant F(x)\leqslant 1\\
    F(-\infty)=\lim\limits_{x \to -\infty}F(x)=0\\
    F(+\infty)=\lim\limits_{x \to +\infty}F(x)=1\)

  3. \(F(x)\)右连续

连续型随机变量的概率密度函数

定义:若对于随机变量\(X\)的分布函数\(F(x)\),存在一个非负函数\(f(x)\),使得对\(\forall x \in R,F(x)=\int_{-\infty}^{x}f(t)\,dt\),则称\(X\)为连续型随机变量,\(F(x)\)称为连续型分布函数,\(f(x)\)称为概率密度函数。

由定义:\(f(x) \geqslant 0\),\(\int f(x)\,dx=1\)。

  1. \(P(a <x\leqslant b)=F(b)-F(a)=\int_a^b f(x)\,dx\)
  2. \(F(X=a)=\lim\limits_{h \to 0}P(a-h<X\leqslant a)=\lim\limits_{h \to 0}f(x)\,dx=0\)
  3. 当\(\Delta x\)很小时,\(f(x)\Delta x \approx \Delta F(x)=P(x<x\leqslant x+\Delta x)\)

几个重要的连续型随机变量的分布

均匀分布:\(U(a,b)\)

\(f(x)=\left\{
\begin{aligned}
\frac{1}{b-a}&, \quad a<x<b \\
0&, \quad 其他
\end{aligned}
\right.\)

则随机变量\(X\)称为均匀分布的随机变量。
性质:\(\forall 区间(c,d)\subset (a,b),P(c<x<d)=\frac{d-c}{b-a}\)

指数分布

密度函数为:\(f(x)=\lambda e^{-\lambda x},x>0,\lambda>0\)

性质:无后效性

\(P(x>t+s | x>t)=P(x>s)\),经常用来描述元件的寿命。

另外,若\(\lim\limits_{h \to 0}\frac{F(x<X<x+h)}{h}\to \lambda\),则\(F\)为指数分布

正态分布

\(X \backsim f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
,称随机变量\(X\)为服从参数为\(\mu\),\(\sigma^2\)的正态分布,记为\(X \backsim N(\mu,\sigma^2)\)。

当\(\mu =0\),\(\sigma =1\)时,称为标准正太分布,分布函数\(F(x)\)记为\(\Phi(x)\),密度函数\(f(x)\)记为\(\varphi(x)\)。

\(X \backsim N(\mu,\sigma^2)\),则密度函数\(f(x)=\varphi(\frac{x-\mu}{\sigma})\),\(P(a<x\leqslant b)=F(b)-F(a)=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma})\)

随机变量的函数分布

若\(X\)是随机变量,一般来说,\(g(X)\)仍为随机变量。

定理1:设\(X \backsim f(x)\),\(g(\cdot)\)是严格的单调增(减)函数。则\(y=g(x)\backsim f_y(h(y))\left| h'(y)\right |\),其中\(h\)是\(g\)的反函数,\([\alpha,\beta)\)是\(y\)的值域。

2016/9/6 posted in  Statistics