跳到主要内容

随机变量及其分布

随机变量

定义:设随机试验的样本空间为 SS,把试验的每一个可能的结果 eSe\in S 与一 个

实数 X(e)X(e) 对应起来,则称这种定义在S上的一个实值单值映射 X=X(e)X=X(e) 为随机变量(Random Variables)

引入随机变量后,就可将对随机事件及其概率的研究转化为对随机变量及其取值规律的研究

离散型随机变量及其概率分布

定义

离散型随机变量

XX为一个随机变量,如果它的全部可能取值只有有限个或可数无穷个,则称XX为一个离散型随机变量

概率分布

设离散型随机变量X所有可能取值为 xi(i=1,2,,ni=1,2,)x_i(i=1,2,\ldots,n 或 i=1,2,\ldots),称P{X=xi}=pi(i=1,2,,ni=1,2,)P\{X=x_i\}=p_i(i=1,2,\ldots,n 或 i=1,2,\ldots)XX概率分布或分布律

分布律可以更直观地用以下表格的形式来描述

XXx1x_1x2x_2...xnx_n...
pip_ip1p_1p2p_2...pnp_n...

其中pip_i满足

  • pi0p_i \ge 0
  • i=1n()pi=1\sum\limits_{i=1}^{n(\infty)}p_i=1

常见的三个离散型随机变量

(0-1) 或二值分布

P{X=k}=pk(1p)1kk=0,1(0<p<1)P\{X=k\}=p^k(1-p)^{1-k}\qquad k=0,1(0<p<1)

二项分布

n 次实验发生了 k 次,每次实验独立,或是放回抽样

P{X=k}=Cnkpk(1p)nkk=0,1,2,,nP\{X=k\}=C_n^kp^k(1-p)^{n-k}\qquad k=0,1,2,\ldots,n

记作 XB(n,p)X\sim B(n,p)XX 即为即为 nn 重贝努利试 验中 AA 发生的次数

泊松 (Possion) 分布

P{X=k}=eλλkk!λ>0,k=0,1,2,P\{X=k\}=e^{-\lambda}\cfrac{\lambda^k}{k!}\qquad \lambda>0,k=0,1,2,\ldots

记作 Xπ(λ)X\sim \pi(\lambda)

  • 某医院在一天的急诊病人数;
  • 某一个时间间隔内某地区发生的交通事故的次数;
  • 在一个时间间隔内某种放射性物质发出经过计数器的α 粒子数

泊松定理:当 n 很大,p 很小时有近似式:

Cnkpk(1p)nkeλλkk!C_n^kp^k(1-p)^{n-k}\approx e^{-\lambda}\cfrac{\lambda^k}{k!}

有时可将较难计算的二项分布转化为泊松分布去计算

补充:超几何分布

N 个样本中有 N1N_1 类和 N2N_2 类,从中(不放回地)取 nn 个,取出 N1N_1 的个数设为 kk

P(X=k)=CN1kCN2nkCNnP(X=k)=\cfrac{C_{N_1}^kC_{N_2}^{n-k}}{C_N^n}

当 N 很大,n 很小时,不放回近似为放回,超几何分布近似为二项分布

  1. 某人进行射击,设每次射击的命中率为 0*.*02,独立射击 400 次,试求至少击中两次的概率

    设击中的次数为 X,则 XB(400,0.02)X\sim B(400,0.02),因此所求概率为(近似为泊松定理计算)

    P{X2}=1P{X<2}=1P{X=0}P{X=1}=0.9972P\{X \ge 2\}=1-P\{X<2\}=1-P\{X=0\}-P\{X=1\}=0.9972
  2. 某公司生产一种产品 300 件,废品率为 0*.*01,问在这 300 件产品中废品数大于 5 的概率是多少?

    设 300 件产品中废品数为 X,则 XB(300,0.01)X \sim B(300,0.01),因此所求概率为

    P{X5}=1k=05C300k(0.01)k(0.99)300k1k=05e33kk!=0.083918P\{X \ge 5\}=1-\sum\limits_{k=0}^5C_{300}^k(0.01)^k(0.99)^{300-k}\approx 1-\sum\limits_{k=0}^5 \cfrac{e^{-3}3^k}{k!}=0.083918

随机变量的分布函数

定义

XX是一个随机变量,xx是任意实数,称函数

F(x)=P{Xx}<x<F(x)=P\{X \le x\}\qquad -\infty<x<\infty

XX的分布函数

特征

  • P{Xa}=F(a)P\{X \le a\}=F(a)

  • P{X>a}=1F(a)P\{X > a\}=1-F(a)

  • P{a<Xb}=F(b)F(a)P\{a<X\le b\}=F(b)-F(a)

  • P{X=a}=F(a+0)F(a0)=F(a)F(a0)P\{X = a\}=F(a+0)-F(a-0)=F(a)-F(a-0)

注意,P{aXb}F(b)F(a)P\{a\le X\le b\}\neq F(b)-F(a),而是P{aXb}=F(b)F(a0)P\{a\le X\le b\}=F(b)-F(a-0)

性质

  • F(x)F(x)是一个不减函数

  • 0F(x)10\le F(x)\le 1,且limxF(x)F()=0limx+F(x)F(+)=1\lim\limits_{x\rightarrow -\infty}F(x)\triangleq F(-\infty)=0\qquad\lim\limits_{x\rightarrow +\infty}F(x)\triangleq F(+\infty)=1

  • F(x)F(x)是右连续的,即F(x+0)=F(x)F(x+0)=F(x)

  • 若一个函数具有以上性质,则它一定是某个随机变量的分布函数

离散型随机变量的分布函数(常数)

设离散型随机变量X的分布律为P{X=xk}=pkk=1,2,P\{X=x_k\}=p_k\qquad k=1,2,\ldots

X的分布函数为(x 以内,分布函数为所有概率之和)

F(x)=P{Xx}=xkxP{X=k}=xkxpkF(x)=P\{X \le x\}=\sum\limits_{x_k\le x}P\{X=k\}=\sum\limits_{x_k \le x}p_k

即当xk1x<xkx_{k-1}\le x<x_k时,F(x)=i1k1piF(x)=\sum\limits_{i-1}^{k-1}p_i(在 x 附近,分布函数为其概率)

  1. 设随机变量XX的分布函数为
F(x)=A+Barctanx,<x<F(x)=A+B\arctan x,\qquad -\infty<x<\infty

​ 试求:(1)系数AB; (2)XX落在(1,1](-1,1]内的概率

  1. 设随机变量X的分布律为
X-123
pip_i1/41/21/4

​ 求X的分布函数,并求P{X12},P{32<X52}P\{X\le \cfrac{1}{2}\},P\{\cfrac{3}{2}<X\le \cfrac{5}{2} \}

解:前值为 1/4,后值为 1/2

连续型随机变量及其概率密度

定义

如果对随机变量XX的分布函数F(x)F(x),存在一个非负可积函f(x)f(x),使得对任意的xx,有

F(x)=P{Xx}=xf(t)dtF(x)=P\{X\le x\}=\int_{-\infty}^x f(t)dt

则称XX为一个连续型随机变量,称f(x)f(x)XX的概率密度函数,简称概率密度(Probability densities)

注:连续型随机变量的分布函数为连续函数,所以对任意aa,有P{X=a}=0P\{X=a\}=0

性质

  • f(x)0f(x)\ge 0
  • +f(x)dx=1\int_{-\infty}^{+\infty}f(x)dx=1
  • f(x)=F(x)f(x)=F'(x)
P{Xa}=af(x)dx,P{X>b}=b+f(x)dxP{a<xb}=abf(x)dxP\{X\le a\}=\int_{-\infty}^{a}f(x)dx,\quad P\{X>b\}=\int_b^{+\infty}f(x)dx \\ P\{a<x\le b\}=\int_a^b f(x)dx

注意:分布函数与概率密度函数的区别,例如F(x)1F(x)\le1成立,但f(x)1,+F(x)dx=1f(x)\le 1,\int_{-\infty}^{+\infty}F(x)dx=1不成立!

image-20201207112804555

常见的三个连续型随机变量

均匀分布

f(x)={ 1baa<x<b 0其他f(x)=\begin{cases} \ \cfrac{1}{b-a}\qquad a<x<b \\ \ 0\qquad\qquad 其他 \end{cases}

记为XU(a,b)X\sim U(a,b)

分布函数

F(x)={ 0x<axabaax<b axbF(x)=\begin{cases} \ 0 \qquad\qquad x<a \\ \cfrac{x-a}{b-a}\qquad a\le x<b \\ \ a\qquad\qquad x\ge b \end{cases}

汽车站等车时间

针落地与某直线的倾斜角

指数分布

f(x)={ λeλxx0 0其他(λ>0)f(x)=\begin{cases} \ \lambda e^{-\lambda x}\qquad x\ge 0 \\ \ 0\qquad\qquad 其他 \end{cases}\quad(\lambda>0)

记为Xe(λ)X\sim e(\lambda)

分布函数

F(x)={ 1eλxx>0 0其他F(x)=\begin{cases} \ 1- e^{-\lambda x}\qquad x> 0 \\ \ 0\qquad\qquad \quad 其他 \end{cases}\quad

指数分布具有无记忆性,即

P{X>t}=p{X>s+tX>s}P\{X>t\}=p\{X>s+t|X>s\}

新生的物品(生物)能存活 t 年的以上概率 = 已经活了 s 年的物品(生物)再存活 t 年以上的概率

电话系统通话时间

消耗性产品的寿命

生物寿命

正态分布

f(x)=12πσe(xμ)22σ2,<x<+f(x)=\cfrac{1}{\sqrt{2\pi}\sigma}e^{-\cfrac{(x-\mu)^2}{2\sigma^2}},\quad -\infty<x<+\infty

记为XN(μ,σ2)X\sim N(\mu,\sigma^2)

性质

  • μ\mu 为均值,控制图像位置,σ\sigma 为方差,控制图像高低(陡缓)

  • y=f(x)y=f(x)x=μx=\mu 为对称轴,呈钟形曲线

  • 概率最大值在 x=μx=\mu 时取到,值为 12πσ\cfrac{1}{\sqrt{2\pi}\sigma}

分布函数

F(x)=12πσxe(tμ)22σ2dtF(x)=\cfrac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^x e^{-\cfrac{(t-\mu)^2}{2\sigma^2}}dt

图片2

正态分布详解

对正态分布随机变量XX,若μ=0,σ=1\mu=0,\sigma=1,则称XX服从标准正态分布,其分布函数和概率密分别用Φ(x)\Phi(x)ϕ(x)\phi(x)表示,即

Φ(x)=12πxet22dt,ϕ(x)=12πex22Φ(0)=12,Φ(x)=1Φ(x)\Phi(x)=\cfrac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-\cfrac{t^2}{2}}dt,\quad\phi(x)=\cfrac{1}{\sqrt{2\pi}}e^{-\cfrac{x^2}{2}} \\ \Phi(0)=\cfrac{1}{2},\quad \Phi(x)=1-\Phi(-x)
  • 定理 1:设XN(μ,σ2)X\sim N(\mu,\sigma^2),则Y=Xμσ N(0,1)Y=\cfrac{X-\mu}{\sigma}~N(0,1)。因此有(标准化)

    • P{Xa}=P{Xμσaμσ}=Φ(aμσ)P\{X\le a\}=P\{\cfrac{X-\mu}{\sigma}\le \cfrac{a-\mu}{\sigma} \}=\Phi(\cfrac{a-\mu}{\sigma})
    • P{X>b}=P{Xμσ>bμσ}=1Φ(bμσ)P\{X>b\}=P\{\cfrac{X-\mu}{\sigma}> \cfrac{b-\mu}{\sigma} \}=1-\Phi(\cfrac{b-\mu}{\sigma})
    • P{a<Xb}=P{ aμσ<Xμσbμσ}=Φ(bμσ)Φ(aμσ)P\{a<X\le b\}=P\{\ \cfrac{a-\mu}{\sigma} <\cfrac{X-\mu}{\sigma}\le \cfrac{b-\mu}{\sigma} \}=\Phi(\cfrac{b-\mu}{\sigma})-\Phi(\cfrac{a-\mu}{\sigma})

    a>0a>0时,Φ(a)\Phi(a)的值往往是通过查表得到,当a<0a<0时,先利用Φ(a)=1Φ(a)\Phi(a)=1-\Phi(-a),再查表得到。

p{xμ<σ}=0.6826p\{|x-\mu|<\sigma\}=0.6826

p{xμ<2σ}=0.9544p\{|x-\mu|<2\sigma\}=0.9544

p{xμ<3σ}=0.9974p\{|x-\mu|<3\sigma\}=0.9974

  1. 某元件的寿命XX服从指数分布,其参数为λ=11000\lambda=\cfrac{1}{1000},求 3 个这样的元件用 1000 小时时,至少已有一个损坏的概率

    解:一个元件使用 1000 小时时损坏的概率为

P{X1000}=1e1P\{X\le 1000\}=1-e^{-1}

​ 用YY表示 3 个元件中使用 1000 小时时损坏的元件数,则YB(3,1e1)Y\sim B(3,1-e^{-1}),因此所求概率为

P{Y1}=1P{Y=0}=1C30(1e1)0(e1)3=1e3P\{Y\ge 1\}=1-P\{Y=0\}=1-C_3^0(1-e^{-1})^0(e^{-1})^3=1-e^{-3}
  1. XN(1,4)X\sim N(1,4)

    (1)求P{x5}, P{0<X1.6}, P{X12}P\{x\le 5\},\ P\{0<X\le 1.6\},\ P\{|X-1|\le 2\}

    (2)设dd满足P{X>d}0.9P\{X>d\}\ge 0.9,问dd至少为多少

    解:

    (1)标准化,查表。

随机变量的函数的分布

随机变量函数的概念

如果存在一个函数g()g(\sdot),使得随机变量X,YX,Y满足:Y=g(X)Y=g(X),则称随机变量YY是随机变量XX的函数。

离散型随机变量的函数的分布

设离散型随机变量XX的分布律为:

P{X=xi}=pi,i=1,2,P\{X=x_i\}=p_i,\qquad i=1,2,\ldots

显然,XX的随机变量函数Y=g(X)Y=g(X)也是离散型随机变量,且YY的分布律为

P{Y=yi}=g(xi)=yipij=1,2,P\{Y=y_i\}=\sum\limits_{g(x_i)=y_i}p_i\qquad j=1,2,\ldots

连续型随机变量的函数的分布

XX的概率密度为fX(x),Y=g(X)f_X(x),Y=g(X),则YY的分布函数为

FY(y)=P{Yy}=P{g(X)y}=Cyf(x)dxF_Y(y)=P\{Y\le y\}=P\{g(X)\le y\}=\int_{C_y}f(x)dx

其中Cy={xg(x)y}C_y=\{x\mid g(x)\le y\}

方法:FY(x)FX(x)F_Y(x)\rightarrow F_X(x),两边求导,fY(x)fX(x)f_Y(x)\leftarrow f_X(x)

image-20201209112458852
  • 定理

    设随机变量XX概率密度为fX(x)f_X(x),函数y=g(x)y=g(x)处处可导,且g(x)>0g'(x)>0(或g(x)<0g'(x)<0),则Y=g(X)Y=g(X)也是连续型随机变量,其概率密度为

    fY(y)={ fX(h(y))h(y)α<y<β 0其他f_Y(y)=\begin{cases} \ f_X(h(y))|h'(y)| \qquad \alpha<y<\beta \\ \ 0\qquad\qquad \qquad\qquad 其他 \end{cases}\quad

    其中x=h(y)x=h(y)y=g(x)y=g(x)的反函数

    f(x)f(x)(,+)(-\infty,+\infty)上非零时

    α=min(g(),g(+)),β=max(g(),g(+))\alpha=min(g(-\infty),g(+\infty)),\beta=max(g(-\infty),g(+\infty))

    f(x)f(x)[a,b][a,b]上非零时

α=min(g(a),g(b)),β=max(g(a),g(b))\alpha=min(g(a),g(b)),\beta=max(g(a),g(b)) image-20201209113429793