基本概念、点估计(矩估计、极大似然估计)、区间估计
统计:描述性统计、数理统计
数理统计:以数学和概率论为工具,研究
- 如何有效地手机有随机性的数据
- 如何手机数据
- 在给定模型下进行统计推断
有效收集数据:抽样、试验设计
统计推断:
- 估计
- 点估计
- 参数估计(区间估计)
- 检验
- 参数检验
- 非参数检验
基本概念
总体
研究对象的全体
- 研究对象某个指标取值的全体、取值的可能性(统计总体)
- 可视为某随机变量的取值及其分布
- 一般用随机变量\(X\)来表示一个总体
样本
从总体中按一定规则抽取的一些个体,记为\((X_1,X_2,...,X_n)\),称为一个样本,\(n\)为样本大小(样本容量)。
抽取的规则:要有代表性(有放回抽样、无放回抽样)
对于有放回抽样:\((X_1,X_2,...,X_n)\)独立同分布,且服从\(F_X\),即\[(X_1,X_2,...,X_n)\backsim F(x_1,x_2,...,x_n)=\sum\limits_{i=1}^{n}F_X(x_i)\]
若有密度函数,则\[f(x_1,x_2,...,x_n)=\prod\limits_{i=1}^{n}f_X(x_i)\]
有时,分布函数中含有参数,记为\[\theta=(\theta_1,\theta_2,...,\theta_k)\]
分布函数记为\(F(x;\theta)\)或\(f(x;\theta)\)
样本的二重性:样本既是随机变量,也是一组数字。在抽样方案实施之前,样本被视为随机变量,以便于进行理论研究。实施之后,样本就是一组数,记为\((x_1,x_2,...,x_n)\),称为样本的一组实现。
统计量
统计量是为了刻画总体某个特征,对样本的一种加工,即统计量是样本的函数。
样本均值:
\[\bar X=\frac{1}{n}\sum\limits_{i=1}^{n}X_i\]则\(\bar X \overset{P}{\to}\mu\)(大数定理)
样本方差:
\[S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar X)^2\]
则\(S^2\overset{P}{\to}EX^2-(EX)^2=Var(X)\)
样本\(l\)阶原点矩:
\[a_l=\frac{1}{n}\sum_{i=1}^{n}X_i^l\]
样本\(k\)阶中心矩:
\[m_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^k\]
例:
\((X_1,X_2,...,X_n)\)为从总体\(N(\mu,\sigma^2)\)中抽取的一个样本,则
\[\bar X\backsim N(\mu,\frac{\sigma^2}{n})\\
\frac{(n-1)S^2}{\sigma^2}\backsim \chi_{n-1}^2\\
\frac{\frac{\bar X-\mu}{\sigma /\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}}
\backsim t_{n-1}\\
\implies \frac{\sqrt{n}(\bar X-\mu)}{S}\backsim t_{n-1}\]
点估计
总体\(X\backsim F(x;\theta_1,\theta_2,...,\theta_k)\)中抽取一个样本\((X_1,X_2,...,X_n)\),如何从样本来估计未知参数\(\theta\):
- 矩方法
- 极大思然估计
矩估计
原理:用样本矩代替总体矩(大数定理)
\[\bar X \backsim EX,S^2\backsim Var(X)\]
设\(\theta=(\theta_1,\theta_2,...,\theta_k)\),
\[EX=\int{xf(x,\theta)}\,dx=g(\theta_1,\theta_2,...,\theta_k)\]
或近似地有:
\[g(\theta_1,\theta_2,...,\theta_k)=\bar X\]
同样:
\[EX^j=\int{x^jf(x;\theta_1,\theta_2,...,\theta_k)\,dx}=g_j(\theta_1,\theta_2,...,\theta_k)\\ \implies g_j(\theta_1,\theta_2,...,\theta_k)=G_j,(j=1,2,...,k)\]
解\(k\)个联立方程,可以得到\(\theta_1,\theta_2,...,\theta_k\)的估计,即\(\hat\theta_1,\hat\theta_2,...,\hat\theta_k\),即\[\hat \theta_i=\hat \theta_i(x_1,x_2,...,x_n)\]
其中,\(\hat \theta\)是样本对参数所做的估计,是一个统计量;\(\theta\)是真正的参数。
例:\[X\backsim F(x),EX=\mu,\theta=\mu \implies \hat \mu=\bar X\\
\sigma^2=Var(X)=E(X-EX)^2\\
\hat\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2\]
极大似然估计
总体\(X\backsim f(x;\theta)\)或概率函数\(P_\theta(X=x_i)=p_i(\theta)=P(x_i;\theta),X=x_2,x_2,...,x_n\)
记\[L(X_1,X_2,...,X_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta)\\ \implies L(\vec X;\vec \theta)=\prod_{i=1}^{n}f(x_i;\theta)\]
给定\(\theta\),\(L\)称为\(X_1,X_2,...,X_n\)的密度函数
给定\(X=(X_1,X_2,...,X_n)\),\(L\)称为似然函数
点估计的优良性准则
无偏性
参数\(\theta=(\theta_1,\theta_2...,\theta_k)\),估计\(g(\theta)\)
由样本构造统计量\(\hat g(X_1,X_2,...,X_n)\)。
用\(\hat g(X_1,X_2,...,X_n)\)作为\(g(\theta)\)的一个估计。
无偏性是指\(E\hat g(X_1,X_2,...,X_n)=g(\theta)\),即无系统偏差。
例如:
\(\hat \mu=\bar X,(X_1,X_2,...,X_n)\)是独立同分布,且服从\(F\)分布的总体,
\[E\bar X =E\sum_{i=1}^nX_i/n=\frac{1}{n}(EX_1+EX_2+...+EX_n)=EX=\mu\]
所以\(\bar X\)是总体样本均值的无偏估计。
注:\(g(\theta)\)的无偏估计不唯一。
例如:\(m_2=\frac{1}{n}\sum\limits_{i=1}^{n}(X_i-\bar X)^2\)与\(\hat \sigma^2\)
\[\begin{aligned}\sum(X_i-\bar X)^2&=\sum((X_i-\mu)-(\bar X-\mu))^2\\&=\sum(X_i-\mu)^2+n(\bar X -\mu)^2-2(\bar X-\mu)\sum(X_i-\mu)\end{aligned}\]
\[E\sum(X_i-\mu)^2=n\sigma^2\\
\sum(\bar X-\mu)^2=\frac{1}{n}\sigma^2,(X\backsim N(\mu,\sigma^2),\bar X \backsim N(\mu,\frac{\sigma^2}{n}))\\
\sum(X_i-\mu)=\sum X_i-n\mu=n(\bar X-\mu)\\
(\bar X-\mu)\sum(X_i-\mu)=n(\bar X-\mu)^2\\
Em_2=\frac{1}{n}(n\sigma^2-\sigma^2)=\frac{n-1}{n}\sigma^2
\]
因此对\(m_2\)做修正:
\[S^2=\frac{n}{n-1}m_2=\frac{1}{n-1}\sum(X_i-\bar X)^2\]
即样本方差。
最小方差无偏估计(MVUE)
- 无偏性
- 在所有无偏估计中找一个“好”的估计,“好”是指方差越小越好
\(g_1(X)\)和\(g_2(X)\)是\(g(\theta)\)的2歌无偏估计。
若\(Var \hat g_1(X) \leqslant Var \hat g_2(X)\),则称\(\hat g_1(X)\)优于\(\hat g_2(X)\)。
若对任一\(g(\theta)\)的无偏估计\(\hat g(X)\),都有\(Var \hat g_1(X) \leqslant Var \hat g(X)\),称\(g_1(X)\)是\(g(\theta)\)的最小方差无偏估计。
一般来说,极大似然估计的结果要比据估计的结果好。
\(E\hat g(X)=g(\theta)\),则\(Var \hat g(X)\)必有下界。
相合性和渐进正态性
设\(\hat g(X_1,X_2,...,X_n)\)是\(g(\theta)\)的一个估计。若\[\hat g(X_1,X_2,...,X_n)\overset{P}{\to}g(\theta)\]
称\(\hat g(X_1,X_2,...,X_n)\)为\(g(\theta)\)的一个相合估计(大样本性质)。
若\(\hat g(X)\)标准化以后的分布函数趋于\(N(0,1)\)的分布函数\(\Phi(x)\),则称\(\hat g(X)\)有渐进正态性。
均方误差最小(MSE)
\[\begin{aligned} min \ E(\hat g(X)-g(\theta))^2&=E(\hat g(X)-E\hat g(X)+E\hat g(X)-g(\theta))^2\\&=Var \hat g(X)+(E\hat g(X)-g(\theta))^2\end{aligned}\]
区间估计
精度和可靠度
区间\((a,b)\)
\(a=a(X_1,X_2,...,X_n),b=b(X_1,X_2,...,X_n)\)(\(a,b\)其实是两个统计量)
精度:区间长度的一半
\(1-\alpha\):置信度、置信水平
\(\alpha=0.05\)时,有\(95\%\)的的可靠度,在区间\((a,b)\) 上
\[P(\mu \in (a(X_1,X_2,...,X_n),b(X_1,X_2,...,X_n)))\geqslant 1-\alpha\]
\((a,b)\)称为置信水平为\((1-\alpha)\times 100\%\)的置信区间
在保证可靠度的前提下,精度越高越好。
应该知道总体\(X\)的分布。
\(\mu \in (\bar X-d,\bar X+d)=(\bar X \pm d)\),\(d\)即精度。
\(\hat \mu =\bar X \)服从正态分布,\(\sigma^2=S^2\)服从\(\chi^2\)分布。
\(\sigma^2 \in (\frac{S^2}{B},\frac{S^2}{A}),0<A<1<B\)
一样本正态总体均值的区间估计
\(X\backsim (\mu,\sigma^2)\),用样本\((X_1,X_2,...,X_n)\)来估计未知参数\(\mu\)。
\(\hat \mu =\bar X\),\(P(\mu \in(\bar X-d,\bar X+d))\geqslant 1-\alpha \implies \)求解\(d\)。
\(\mu\)是一个常数,概率是对\(\bar X\)来求的。
\[\begin{aligned}P(\mu \in(\bar X-d,\bar X+d)) &=P(\bar X-d< \mu < \bar X +d)\\
&=P(-d< \bar X -\mu < d)\\
&=P(\left| \bar X -\mu \right| \leqslant d)\end{aligned}\]
\(\bar X \backsim N(\mu,\frac{\sigma^2}{n})\)
其中,\(P(\left| \bar X -\mu \right| \leqslant d) \implies P(\left| \frac{\bar X -\mu}{\sigma/\sqrt{n}} \right| \leqslant \frac{d}{\sigma \sqrt{n}} )\geqslant 1-\alpha\)
取等号时,精度\(d\)最大:
\[P(\left| \frac{\bar X -\mu}{\sigma/\sqrt{n}} \right| \leqslant \frac{d}{\sigma/ \sqrt{n}} )= 1-\alpha \\
\iff P(\frac{\bar X -\mu}{\sigma/\sqrt{n}}>\frac{d}{\sigma/\sqrt{n}})\\
\implies \frac{d}{\sigma/ \sqrt{n}}=U_{\frac{\alpha}{2}} \]
即上\(\frac{\alpha}{2}\)分位点。
因此,\[d=\frac{\sigma}{\sqrt{n}}U_{\frac{\alpha}{2}}\]
因此,\(\mu,\sigma^2\)已知时,\(d=\frac{\sigma}{\sqrt{n}}U_{\frac{\alpha}{2}}\)
不能理解为\(\mu\)有\((1-\alpha)\times 100\%\)的可能落在\((\bar X \pm d)\) 里,因为\(\mu\)是一个常数。应该理解为区间\((\bar X \pm d)\),即样本\((X_1,X_2,...,X_n)\)的\(\bar X\)在移动。
\(\sigma^2\)未知时\[P(\left| \bar X -\mu \right | \leqslant d)=P(\frac{\left| \bar X -\mu \right |}{S/\sqrt{n}}\leqslant \frac{d}{S/\sqrt{n}})\geqslant 1-\alpha\]
\(\frac{ \bar X -\mu }{\sigma/\sqrt{n}}\backsim N(0,1)\)
\(\frac{(n-1)S^2}{\sigma^2}\backsim \chi_{n-1}^2\)
二者相互独立,相除:
\(\frac{ \bar X -\mu }{S/\sqrt{n}}\backsim t_{n-1}\)
当\(n\)增大时,\(t_n(\alpha)\)趋向于\(U_\alpha\),即\(n \to \infty\)时,可以用标准正态分布的上\(\alpha\)分位点替代\(t_n(\alpha)\)
\(\frac{d}{S/\sqrt{n}}=t_{n-1}(\frac{\alpha}{2})\\ \implies d=\frac{S}{\sqrt{n}}t_{n-1}(\frac{\alpha}{2})\)
特例:当\(n\)很大(\(n>30\))时,\(\sigma^2\)未知,\(d=\frac{S}{\sqrt{n}}U_{\frac{\alpha}{2}}\)
二样本正态总体均值差的区间估计
两个正态总体:
\(X\backsim N(\mu_1,\sigma_1^2),Y\backsim N(\mu_2,\sigma_2^2)\)
\(\hat \mu_1=\bar X,\hat \mu_2=\bar X,\widehat {(\mu_1-\mu_2)}=\bar X-\bar Y\)
\(\mu_1-\mu_2\in (a,b)\)
\(a=a(X_1,...,X_n,Y_1,...,Y_n),b=b(X_1,...,X_n,Y_1,...,Y_n)\)
\(\bar X-\bar Y \backsim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})\)
因此\(\mu_1-\mu_2 \in (\bar X-\bar Y \pm d)\)
\[P(\mu_1-\mu_2 \in (\bar X-\bar Y\pm d))\geqslant 1-\alpha\\
\iff P(\frac{\left| \bar X-\bar Y-(\mu_1-\mu_2)\right|}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\leqslant \frac{d}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}})\geqslant 1-d\\
\implies \frac{d}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\geqslant {frac{\alpha}{2}}\]
取等号:\(d={\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\)
- \(\sigma_1^2,\sigma_2^2\)已知:\[d={\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\]
\(\sigma_1^2,\sigma_2^2\)未知,一般情况无解,仅讨论\(\sigma_1^2=\sigma_2^2=\sigma^2\)未知这一情况。
已知
\(\frac{1}{n_1-1}\sum(X_i-\bar X)^2\)估\(\sigma^2\)
\(\frac{1}{n_2-1}\sum(Y_j-\bar Y)^2\)估\(\sigma^2\)
用两者一起估计来提高精度
\(\implies \sum(X_i-\bar X)^2+\sum(Y_j-\bar Y)\)
\(\implies \frac{1}{n_1+n_2-2}(\sum(X_i-\bar X)^2+\sum(Y_j-\bar Y)^2)\)估\(\sigma^2\)
\(\sum(X_i-\bar X)^2 \implies \frac{(n_1-1)S_1^2}{\sigma^2}\backsim \chi_{n_1-1}^2\)
\(\sum(Y_j-\bar Y)^2 \implies \frac{(n_2-1)S_2^2}{\sigma^2}\backsim \chi_{n_2-1}^2\)
\(\frac{(n_1-1)S_1^2}{\sigma^2}+\frac{(n_2-1)S_2^2}{\sigma^2}\backsim \chi_{n_1+n_2-2}^2\)
\(\bar X-\bar Y\)与\((n_1-1)S_1^2+(n_2-1)S_2^2\)独立
记
\(\begin{aligned}S_T^2&=\frac{1}{n_1+n_2-2}((n_1-1)S_1^2+(n_2-1)S_2^2)\\
&=\frac{1}{n_1+n_2-2}(\sum(X_i-\bar X)^2+\sum(Y_j-\bar Y))\end{aligned}\)
则
\(\frac{d}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}=\frac{d}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_T}\\
\implies t_{n_1+n_2-2}(\frac{\alpha}{2})\)
\(\sigma_1^2,\sigma_2^2\)未知,\(n_1>30,n_2>30\)
\(\mu_1-\mu_2 \in (\bar X -\bar Y \pm \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}U_{\frac{\alpha}{2}})\)
样本大小的确定
\[d=\frac{\sigma}{\sqrt{n}}U_{\frac{d}{2}}\]
\(d\):精度
\(U_{\frac{d}{2}}\):置信度
\(n\):样本大小
\(n=(\frac{\sigma}{d}U_{\frac{d}{2}})^2\)
\(\sigma^2\)未知时,先全区一小部分样本,作\(\sigma^2\)的估计,然后根据上式定出\(n\)的大小。
一样本正态总体方差的区间估计
方差的区间估计精度较差,实际中较少使用。
总体\(X\backsim(X_1,X_2,...,X_n),\hat \sigma^2=S^2\)
\(\sigma^2 \in (\frac{S^2}{B},\frac{S^2}{A})\)
目的:定出\(A,B\)
\(P(\sigma^2 \in (\frac{S^2}{B},\frac{S^2}{A}))\geqslant 1-\alpha\)
\(\frac{(n-1)S^2}{\sigma^2}\backsim \chi_{n-1}^2\)
\(\implies P(\frac{S^2}{B}\leqslant \sigma^2 \leqslant \frac{S^2}{A})\\
=P(A(n-1)\leqslant \frac{S^2}{\sigma^2}(n-1)\leqslant B(n-1))\)
\(P(\frac{S^2}{\sigma^2}(n-1)\geqslant B(n-1))\leqslant \frac{\alpha}{2},P(\frac{S^2}{\sigma^2}(n-1)\leqslant A(n-1))\leqslant \frac{\alpha}{2}\)
\((n-1)B=\chi_{n-1}^2(\frac{\alpha}{2})\implies B=\frac{1}{n-1}chi_{n-1}^2(\frac{\alpha}{2})\)
同理:\(A=\frac{1}{n-1}\chi_{n-1}^2(\frac{\alpha}{2})\)
所以\(\sigma^2 \in (\frac{(n-1)S^2}{\chi_{n-1}^2(\frac{\alpha}{2})},\frac{(n-1)S^2}{\chi_{n-1}^2(1-\frac{\alpha}{2})})\)
当\(n\)较小时,区间差异较大;当\(n\)较大时,区间差异较小。
二样本正态总体方差比的区间估计
\(X\backsim N(\mu_1,\sigma_1^2),Y\backsim N(\mu_2,\sigma_2^2)\)
\(\hat \sigma_1^2=S_1^2,\hat \sigma_2^2=S_2^2\),\(S_1^2\)与\(S_2^2\)独立。
\(F_{m,n}=\frac{\chi_m^2/m}{\chi_n^2/n}\)用于方差分析。
\[\frac{\frac{(n_1-1)S_1^2}{\sigma_1^2}/(n_1-1)}{\frac{(n_2-1)S_1^2}{\sigma_2^2}/(n_2-1)}=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\backsim F_{n_1-1,n_2-1}\]
\(\hat {(\frac{\sigma_1^2}{\sigma_2^2})}=\frac{S_1^2}{S_2^2}\)
\(P(\frac{\sigma_1^2}{\sigma_2^2} \in (a\frac{S_1^2}{S_2^2},b\frac{S_1^2}{S_2^2}))\geqslant 1-\alpha , 0<a<1<b\)
\(P(a\frac{S_1^2}{S_2^2}\leqslant \frac{\sigma_1^2}{\sigma_2^2}\leqslant b\frac{S_1^2}{S_2^2})=P(\frac{1}{b}\leqslant \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\leqslant \frac{1}{a})\geqslant 1-\alpha\)
\(\frac{1}{a}=F_{n_1-1,n_2-1}(\frac{\alpha}{2}),\frac{1}{b}=F_{n_1-1,n_2-1}(1-\frac{\alpha}{2})\)
由上\(\alpha\)分位点定义:
\[P(\frac{\chi_m^2/m}{\chi_n^2/n}\geqslant F_{m,n}(\alpha))=\alpha
\iff P(\frac{\chi_n^2/n}{\chi_m^2/m}\leqslant \frac{1}{F_{m,n}(x)})=\alpha\\
\implies \frac{1}{F_{m,n}(\alpha)}=F_{n,m}(1-\alpha)\]
所以\(b=F_{n_2-1,n_1-1}(\frac{\alpha}{2})\)