二、随机变量及其分布

2016/9/6 posted in Statistics

随机变量、离散型随机变量、连续型随机变量

随机变量

研究：随机事件中的一串事件所发生的概率，事件之间可能有联系。

引入随机变量：用一个数或一个区间来表示所关心的事件，这种对应关系叫随机变量。

随机变量研究：

随机变量取哪些值
随机变量取这些值的概率

离散型随机变量

随机变量\(X\)取有限或可数多个值，

\(P(X=x_k)=P_k, \quad k=1,2,...,n\)称为随机变量的分布，

\(X\)是随机变量，\(x_k\)是一个实数，没有随机性。

离散的均匀分布

\(P(x=k)=\frac{1}{n},\quad k=1,2,...,n\)

二项分布

在一次试验中事件\(A\)发生的概率为\(p\)，把这一试验独立重复做\(n\)次，将\(x\)记为\(n\)次试验中事件\(A\)发生的次数。

\(P（X=k）=P_{n,k}={n \choose k}p^k(1-p)^{n-k}, \quad k=0,1,...,n\)，称随机变量服从二项分布，记为\(X \backsim B(n,p)\)

超几何分布与二项分布：二项分布是有放回的试验；超几何分布是不放回的试验

泊松分布

观测量很大时，无法统计。

二项分布：\(p\)已知，发生次数\(\lambda\)不确定
泊松分布：\(\lambda\)已知，\(p\)不确定

\(P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},\quad k=0,1,2,...,\quad \lambda >0\)

\(\lambda\)称为泊松分布的强度

描述稀有事件发生的概率
作为二项分布的一种近似（泊松逼近定理）：
设\(X\backsim B(n,p)\)
当\(n\)很大（\(n\geqslant 30\)），\(np\)较小（\(np\leqslant\) 5）时：
\(b_{nk}={n \choose k}p^k(1-p)^{n-k} \backsim e^{-\lambda}\frac{x^k}{k!} \)
其中\(\lambda=np\)，当\(p\)很小时，
\((1-x) \backsim e^{-x} \implies (1-p)^{n-k} \backsim e^{-p(n-k)} \backsim e^{-pn}=e^{-\lambda}\) \(\begin{align} {n \choose k}p^k(1-p)^{n-k}& =\frac{n(n-1)...(n-k+1)}{k!}p^k(1-p)^{n-k}\\ & \approx \frac{(np)^k}{k!}e^{-\lambda}=e^{-\lambda}\frac{\lambda ^k}{k!} \end{align}\)

连续型随机变量

定义1：设\(X\)为随机变量，称\(P(X\leqslant x)=F(x)\)为\(X\)的分布函数

定义2：

若分布函数\(F(x)\)满足：存在非负函数\(f(x)\)，且\(\int{f(x)}\,dx=1\)。

且\(F(x)=\int_{-\infty}^{x}{f(t)}\,dt\)，则称\(F(x)\)为连续型分布函数，对应的随机变量\(X\)称为连续型随机变量。

分布函数的性质：

\(F(x)\)单调非降 \(\uparrow\)
\(0 \leqslant F(x)\leqslant 1\\
F(-\infty)=\lim\limits_{x \to -\infty}F(x)=0\\
F(+\infty)=\lim\limits_{x \to +\infty}F(x)=1\)
\(F(x)\)右连续

连续型随机变量的概率密度函数

定义：若对于随机变量\(X\)的分布函数\(F(x)\)，存在一个非负函数\(f(x)\)，使得对\(\forall x \in R,F(x)=\int_{-\infty}^{x}f(t)\,dt\)，则称\(X\)为连续型随机变量，\(F(x)\)称为连续型分布函数，\(f(x)\)称为概率密度函数。

由定义：\(f(x) \geqslant 0\)，\(\int f(x)\,dx=1\)。

\(P(a <x\leqslant b)=F(b)-F(a)=\int_a^b f(x)\,dx\)
\(F(X=a)=\lim\limits_{h \to 0}P(a-h<X\leqslant a)=\lim\limits_{h \to 0}f(x)\,dx=0\)
当\(\Delta x\)很小时，\(f(x)\Delta x \approx \Delta F(x)=P(x<x\leqslant x+\Delta x)\)

几个重要的连续型随机变量的分布

均匀分布：\(U(a,b)\)

\(f(x)=\left\{
\begin{aligned}
\frac{1}{b-a}&, \quad a<x<b \\
0&, \quad 其他
\end{aligned}
\right.\)

则随机变量\(X\)称为均匀分布的随机变量。
性质：\(\forall 区间(c,d)\subset (a,b),P(c<x<d)=\frac{d-c}{b-a}\)

指数分布

密度函数为：\(f(x)=\lambda e^{-\lambda x},x>0,\lambda>0\)

性质：无后效性

\(P(x>t+s | x>t)=P(x>s)\)，经常用来描述元件的寿命。

另外，若\(\lim\limits_{h \to 0}\frac{F(x<X<x+h)}{h}\to \lambda\)，则\(F\)为指数分布

正态分布

\(X \backsim f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
,称随机变量\(X\)为服从参数为\(\mu\)，\(\sigma^2\)的正态分布，记为\(X \backsim N(\mu,\sigma^2)\)。

当\(\mu =0\)，\(\sigma =1\)时，称为标准正太分布，分布函数\(F(x)\)记为\(\Phi(x)\)，密度函数\(f(x)\)记为\(\varphi(x)\)。

\(X \backsim N(\mu,\sigma^2)\)，则密度函数\(f(x)=\varphi(\frac{x-\mu}{\sigma})\)，\(P(a<x\leqslant b)=F(b)-F(a)=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma})\)

随机变量的函数分布

若\(X\)是随机变量，一般来说，\(g(X)\)仍为随机变量。

定理1：设\(X \backsim f(x)\)，\(g(\cdot)\)是严格的单调增（减）函数。则\(y=g(x)\backsim f_y(h(y))\left| h'(y)\right |\)，其中\(h\)是\(g\)的反函数，\([\alpha,\beta)\)是\(y\)的值域。

« 三、多维随机变量及其分布

一、随机事件和概率 »