二、随机变量及其分布

2016/9/6 posted in  Statistics  

随机变量、离散型随机变量、连续型随机变量

随机变量

研究:随机事件中的一串事件所发生的概率,事件之间可能有联系。

引入随机变量:用一个数或一个区间来表示所关心的事件,这种对应关系叫随机变量。

随机变量研究:

  1. 随机变量取哪些值
  2. 随机变量取这些值的概率

离散型随机变量

随机变量\(X\)取有限或可数多个值,

\(P(X=x_k)=P_k, \quad k=1,2,...,n\)称为随机变量的分布,

\(X\)是随机变量,\(x_k\)是一个实数,没有随机性。

离散的均匀分布

\(P(x=k)=\frac{1}{n},\quad k=1,2,...,n\)

二项分布

在一次试验中事件\(A\)发生的概率为\(p\),把这一试验独立重复做\(n\)次,将\(x\)记为\(n\)次试验中事件\(A\)发生的次数。

\(P(X=k)=P_{n,k}={n \choose k}p^k(1-p)^{n-k}, \quad k=0,1,...,n\),称随机变量服从二项分布,记为\(X \backsim B(n,p)\)

超几何分布二项分布:二项分布是有放回的试验;超几何分布是不放回的试验

泊松分布

观测量很大时,无法统计。

  • 二项分布:\(p\)已知,发生次数\(\lambda\)不确定
  • 泊松分布:\(\lambda\)已知,\(p\)不确定

\(P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},\quad k=0,1,2,...,\quad \lambda >0\)

\(\lambda\)称为泊松分布的强度

  1. 描述稀有事件发生的概率
  2. 作为二项分布的一种近似(泊松逼近定理):
    设\(X\backsim B(n,p)\)
    当\(n\)很大(\(n\geqslant 30\)),\(np\)较小(\(np\leqslant\) 5)时:
    \(b_{nk}={n \choose k}p^k(1-p)^{n-k} \backsim e^{-\lambda}\frac{x^k}{k!} \)
    其中\(\lambda=np\),当\(p\)很小时,
    \((1-x) \backsim e^{-x} \implies (1-p)^{n-k} \backsim e^{-p(n-k)} \backsim e^{-pn}=e^{-\lambda}\) \(\begin{align} {n \choose k}p^k(1-p)^{n-k}& =\frac{n(n-1)...(n-k+1)}{k!}p^k(1-p)^{n-k}\\ & \approx \frac{(np)^k}{k!}e^{-\lambda}=e^{-\lambda}\frac{\lambda ^k}{k!} \end{align}\)

连续型随机变量

定义1:设\(X\)为随机变量,称\(P(X\leqslant x)=F(x)\)为\(X\)的分布函数

定义2

若分布函数\(F(x)\)满足:存在非负函数\(f(x)\),且\(\int{f(x)}\,dx=1\)。

且\(F(x)=\int_{-\infty}^{x}{f(t)}\,dt\),则称\(F(x)\)为连续型分布函数,对应的随机变量\(X\)称为连续型随机变量。

分布函数的性质

  1. \(F(x)\)单调非降 \(\uparrow\)
  2. \(0 \leqslant F(x)\leqslant 1\\
    F(-\infty)=\lim\limits_{x \to -\infty}F(x)=0\\
    F(+\infty)=\lim\limits_{x \to +\infty}F(x)=1\)

  3. \(F(x)\)右连续

连续型随机变量的概率密度函数

定义:若对于随机变量\(X\)的分布函数\(F(x)\),存在一个非负函数\(f(x)\),使得对\(\forall x \in R,F(x)=\int_{-\infty}^{x}f(t)\,dt\),则称\(X\)为连续型随机变量,\(F(x)\)称为连续型分布函数,\(f(x)\)称为概率密度函数。

由定义:\(f(x) \geqslant 0\),\(\int f(x)\,dx=1\)。

  1. \(P(a <x\leqslant b)=F(b)-F(a)=\int_a^b f(x)\,dx\)
  2. \(F(X=a)=\lim\limits_{h \to 0}P(a-h<X\leqslant a)=\lim\limits_{h \to 0}f(x)\,dx=0\)
  3. 当\(\Delta x\)很小时,\(f(x)\Delta x \approx \Delta F(x)=P(x<x\leqslant x+\Delta x)\)

几个重要的连续型随机变量的分布

均匀分布:\(U(a,b)\)

\(f(x)=\left\{
\begin{aligned}
\frac{1}{b-a}&, \quad a<x<b \\
0&, \quad 其他
\end{aligned}
\right.\)

则随机变量\(X\)称为均匀分布的随机变量。
性质:\(\forall 区间(c,d)\subset (a,b),P(c<x<d)=\frac{d-c}{b-a}\)

指数分布

密度函数为:\(f(x)=\lambda e^{-\lambda x},x>0,\lambda>0\)

性质:无后效性

\(P(x>t+s | x>t)=P(x>s)\),经常用来描述元件的寿命。

另外,若\(\lim\limits_{h \to 0}\frac{F(x<X<x+h)}{h}\to \lambda\),则\(F\)为指数分布

正态分布

\(X \backsim f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
,称随机变量\(X\)为服从参数为\(\mu\),\(\sigma^2\)的正态分布,记为\(X \backsim N(\mu,\sigma^2)\)。

当\(\mu =0\),\(\sigma =1\)时,称为标准正太分布,分布函数\(F(x)\)记为\(\Phi(x)\),密度函数\(f(x)\)记为\(\varphi(x)\)。

\(X \backsim N(\mu,\sigma^2)\),则密度函数\(f(x)=\varphi(\frac{x-\mu}{\sigma})\),\(P(a<x\leqslant b)=F(b)-F(a)=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma})\)

随机变量的函数分布

若\(X\)是随机变量,一般来说,\(g(X)\)仍为随机变量。

定理1:设\(X \backsim f(x)\),\(g(\cdot)\)是严格的单调增(减)函数。则\(y=g(x)\backsim f_y(h(y))\left| h'(y)\right |\),其中\(h\)是\(g\)的反函数,\([\alpha,\beta)\)是\(y\)的值域。