随机向量及其分布、多元分布、条件分布、随机向量的函数的分布、统计中的重要分布
随机向量及其分布
定义
设\(X_1,X_2,...,X_n\)为同一样本空间\(S\)上的随机变量,则称\(X=(X_1,X_2,...,X_n)\)为随机向量,\(n\)为维数。
即,\(X\)是一个\(n\)维向量,其中每一个分量都是随机变量,也称为\(n\)维随机变量。
随机向量的分布
二维离散型随机向量
\[P(X=x_i,Y=y_i)=P_{ij}\\ i=1,2,...,m \\ j=1,2,...,n\]
\[P_{ij} \geqslant 0\]
\[\sum\limits_{i=1}^{\infty}\sum\limits_{j=1}^{\infty}P_{ij}=1\]
二维随机联分布函数
设\((X,Y)\)为二维随机向量,称\[F(x,y)=P(X \leqslant x,Y \leqslant Y)\]为\((x,y)\)的联合分布函数。
性质:
- 给定\(y\),\(F(x,y)\)是\(x\)的非减函数;
给定\(x\),\(F(x,y)\)是\(y\)的非减函数。 \[0 \leqslant F(x,y) \leqslant 1 \]
\[\lim\limits_{x \to {-\infty}}F(x,y)=0\]
\[\lim\limits_{y \to {-\infty}}F(x,y)=0\]
\[\lim\limits_{x \to {+\infty} \atop y \to {+\infty}}F(x,y)=1\]\[P(a<x \leqslant b,c<y\leqslant d)=F(b,d)-F(a,d)-F(b,c)+F(a,c)\geqslant 0\]
\(F(x,y)\)分别关于\(x,y\)右连续
连续型随机向量的概率密度函数
定义:若对\(F(x,y)\)存在\(f(x,y)\geqslant 0\),使得对任一\((x,y)\in R^2\),有\[F(x,y)=\int_{-\infty}^x\int_{-\infty}^yf(u,v)\,dudv\]则称\(F(x,y)\)为连续型联合分布函数,\(f(x,y)\)称作密度函数。
由定义可知:
\[f(x,y)\geqslant 0, \iint f(x,y)\,dxdy=1\]
在\(f(x,y)\)的连续点上,\[\frac{\partial^2F}{\partial x \partial y}=f(x,y)\]
重要的二维连续随机分布
二维均匀分布
设\(G \subset R^2, \left| G \right|\)表示面积
\[(x,y) \backsim f(x,y)=\left\{
\begin{aligned}
\frac{1}{\left| G \right|}&, \quad (x,y) \in G \\
0&, \quad 其他
\end{aligned}
\right.\]
二维正态分布
\[(x,y)\backsim f(x,y)=\frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}+\frac{(y-\mu_2)^2}{\sigma_2^2}-\frac{2\rho (x-\mu_1)(y-\mu_2)}{\sigma_1 \sigma_2}]}\]
称\((x,y)\)为服从二维联合正太分布的随机变量,
记为\[(x,y)\backsim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\]
边缘分布(边际分布)
\((X,Y)\backsim F(x,y)\)
则\(X\)的分布\(F_1(x)\)和\(Y\)的分布\(F_2(y)\)称为\(F(x,y)\)的边缘分布。
\[\begin{aligned}F_1(x)&=P(X\leqslant x)\\&=P(X \leqslant X,Y \leqslant +\infty)\\&=F(x,+\infty)\\&=\lim\limits_{y \to +\infty}F(x,y)\end{aligned}\]
同理\[F_2=\lim\limits_{x \to +\infty}F(x,y)\]
边缘密度函数:
\[\begin{aligned}f_1(x)&=\frac{\partial F(x,+\infty)}{\partial x}\\&=\frac{\partial}{\partial x}\int_{-\infty}^x\int_{-\infty}^{+\infty}f(x,y)\,dxdy\\&=\int_{-\infty}^{+\infty}f(x,y)\,dy\end{aligned}\]
同理\[f_2(y)=\int_{-\infty}^{+\infty}f(x,y)\,dx\]
离散型:
\[\begin{aligned}P(X=x_i)&=P(X=x_i,\bigcup\limits_{j=1}^{\infty}Y=y_j)\\&=\sum\limits_{j=1}^{\infty}P(X=x_i,Y=y_i)\\&=\sum\limits_{j=1}^{\infty}P_{ij}\\&=P_{i\cdot}\end{aligned}\]
同理:\[P(Y=y_i)=P_{\cdot j}\]
多元分布
\(X=(X_1,X_2,...,X_n)\),
称\[F(x_1,x_2,...,x_n)=P(X_1\leqslant x_1,X_2\leqslant x_2,...,X_n\leqslant x_n)\]为随机向量\(X=(X_1,X_2,...,X_n)\)的联合分布。
设\(\vec{x}=(X_1,X_2,...,X_n)\)
定义:\[\vec{a}\leqslant\vec{b}\iff a_i \leqslant b_i,i=1,2,...,n\]
\[F(\vec{x})=P(X\leqslant \vec{x})\]
若\[\exists f(x_1,x_2,...,x_n) \ne 0\]
使\[\forall (x_1,x_2,...,x_n)\in R^n\]
\[F(x_1,x_2,...,x_n)=\int_{-\infty}^{x_1}\int_{-\infty}^{x_2}\cdot \cdot \cdot \int_{-\infty}^{x_n}f(u_1,u_2,...,u_n)\,du_1du_2...du_n\]
则\(F\)称为连续型分布函数,\(f\)称为联合密度函数。
\[F(\vec{x})=\int_{-\infty}^{\vec{x}}f(\vec{u})\,d{\vec{u}}\]
条件分布
离散型随机向量
\[P(X=x_i,Y=y_j)=P_{ij}\]
\[\begin{aligned}P(X=x_i|Y=y_j)&=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}\\&=\frac{P_{ij}}{P_{\cdot j}}\end{aligned}\]
连续型随机向量
\((X,Y)\backsim f(x,y)\)
定义:\[F_{x|y}=P(X\leqslant x|Y=y)\]称为给定\(Y=y\)下随机变量\(X\)的条件分布。
\[\begin{aligned}f(x|y)&=\frac{P(X\leqslant x,Y=y)}{P(Y=y)}\\&=\lim\limits_{\epsilon \to 0}\frac{P(X=x,y\leqslant Y \leqslant y+\epsilon)}{P(y\leqslant Y \leqslant y+\epsilon)}\\&=\int_{-\infty}^{x}\frac{f(u,y)}{f_2(y)}\,du\end{aligned}\]
称\(\frac{f(x,y)}{f_2(y)}\)为给定\(Y=y\)下随机变量\(X\)的条件密度,记为\[f_{X|Y}(x|y)\]
即:\[f(x,y)=f_{X|Y}(x|y)f_2(y)\]
相互独立的随机变量
\(X,Y\)独立
\(X,Y\)独立是指与随机变量$X$有关的任一事件
发生与否与与随机变量$Y$有关的任意事件
发生与否无关。
\[P\{(X\leqslant x),(Y \leqslant y)\}=P(X\leqslant x)P(Y\leqslant y)\]
即:\[F(x,y)=F_1(x)F_2(y)\]
若密度函数存在,则\[f(x,y)=f_1(x)f_2(y)\]
\(\implies\)若\(X,Y\)独立,则\[f_{X|Y}(x|y)=f_1(x),f_{Y|X}(y|x)=f_2(y)\]
\((X,Y)\backsim f(x,y)\),则\[X,Y独立\iff f(x,y)=g_1(x)g_2(y)\]
此时,\(\exists \)常数\(a,b\)使\[ag_1(x)=f_1(x),bg_2(x)=f_2(x),ab=1\]
对于\((X,Y)\backsim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),\[(X,Y)独立\iff \rho=0\]
\(X_1,X_2,...,X_n\)相互独立
\[F(x_1,x_2,...,x_n)=\prod\limits_{i=1}^{n}F_i(x_i)\]或\[f(x_1,x_2,...,x_n)=\prod\limits_{i=1}^{n}f_i(x_i)\]
性质:
- \[y=g(x_1,x_2,...,x_k),z=h(x_{k+1},x_{k+2},...,x_n)\]则\(y\)与\(z\)独立
- 若\(X_1,X_2,...,X_n\)相互独立,并且有相同的边缘分布,则称\(X_1,X_2,...,X_n\)为独立同分布,简记为\(iid\)
随机向量的函数的分布
\[(X,Y)\backsim f(x,y)\\Z=g(X,Y)\\ F_Z(z)=P(g(x,y)\leqslant z)=\iint\limits_{g(x,y)\leqslant z} f(x,y)\,dxdy\]
统计中的重要分布
\(\Gamma\)函数、\(\beta\)函数
\(\Gamma\)函数
\[\Gamma(x)=\int_{0}^{\infty}e^{-t}t^{x-1}\,dt, x>0\]
性质:
- \[\Gamma(x+1)=x\Gamma(x),\Gamma(1)=1 \\ \implies \Gamma(n+1)=n!\]
- \[\Gamma(\frac{1}{2})=\sqrt{\pi}\]
\(\beta\)函数
\[B(x,y)=\int_0^1 t^{x-1}(1-t)^{y-1}\,dt,x>0,y>0\]
则\[B(x,y)=\frac{\Gamma(x)\Gamma(y)}{\Gamma(x+y)}\]
上下侧分位数
对于随机变量\(X\)的分布函数为\(F(x)\),\(0<\alpha <1\)
- 上侧分位数:
\[P(X>\lambda)=1-F(\lambda)=\alpha\]称\(\lambda\)为上侧\(\alpha\)分位数 - 下侧分位数:
\[P(X<\lambda)=F(\lambda)=\alpha\]称\(\lambda\)为上侧\(\alpha\)分位数 - 双侧分位数:
\[P(X<\lambda_1)=F(\lambda_1)=0.5\alpha\] \[P(X<\lambda_2)=1-F(\lambda_2)=0.5\alpha\] 称\(\lambda_1,\lambda_2\)为双侧\(\alpha\)分位数
\(\chi^2\)分布
定义:设\(X_1,X_2,...,X_n\)是独立同分布的随机变量,\(X_i\backsim N(0,1)\)
\[\chi ^2=\sum\limits_{i=1}^n x_i^2\]则称\(\chi^2\)服从自由度为\(n\)的\(\chi^2\)分布,记为\(\chi_n^2\)
自由度:能够自由变化的自变量的个数。
例如:若限制\(\sum\limits_{i=1}^n x_i=1\),则自由度为\(n-1\)
\(t\)分布
设\(X\backsim N(0,1)\),\(Y\backsim \chi^2\),\(X,Y\)相互独立
\[t_n=\frac{X}{\sqrt{Y/n}}\]则称\(t\)服从自由度为\(n\)的\(t\)分布,记为\(t_n\)。
\[f_n(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{t^2}{n})^{-\frac{n+1}{2}}\]
当\(n \to \infty\)时,\(f_n(t)\)与\(N(0,1)\)近似。
若\(X_1,X_2,...,X_n\)是独立同分布,且服从\(N(\mu,\sigma^2)\),则:
\[\frac{\sqrt{n}(\bar x-\mu)}{\sigma}\backsim N(0,1)\]
\[\frac{1}{\sigma^2}\sum\limits_{i=1}^{n}(x_i-\bar x)\backsim\chi_{n-1}^2\]
二者相互独立。
\[\implies \frac{\frac{\sqrt{n}(\bar x-\mu)}{\sigma}}{\sqrt{\frac{1}{\sigma^2}\sum\limits_{i=1}^{\infty}\frac{(x-\bar x)^2}{n-1}}}\backsim t_{n-1}\]
\(F\)分布
设\(X \backsim \chi_m^2\),\(Y \backsim \chi_n^2\)
且\(X\)与\(Y\)独立,\[F=\frac{X/m}{Y/n}\]
则称\(F\)服从自由度为\(m,n\)的\(F\)分布,记为\(F_{m,n}\)
\[t_n^2=\frac{X^2}{Y/n}=F_{1,n}\]
最大最小分布
\(X,Y\)独立,\[Z=max(X,Y),W=min(X,Y)\]
\[\begin{aligned}F_Z(z)&=P(Z\leqslant z)\\&=P(max(X,Y)\leqslant z)\\&=P(X\leqslant z,Y\leqslant z)\\&=P(X\leqslant z)P(Y\leqslant z)\\&=F_X(z)F_Y(z)\end{aligned}\]
因此\[f_Z(z)=f_X(z)F_Y(z)+F_X(z)f_Y(z)\]
若\(X,Y\)独立同分布,则\[f_Z(z)=2f(z)F(z)\]
\[\begin{aligned}P(W\leqslant w)&=P(min(X,Y)\leqslant w)\\&=1-P(min(Z,Y)> w)\\&=1-P(X>w,Y>w)\\&=1-P(X>w)P(Y>w)\\&=1-(1-F_x(w))(1-F_y(w))\end{aligned}\]