跳到主要内容

样本及抽样分布

数理统计的基本概念

总体与个体

  • 总体(母体):具有一定共性的研究对象的全体,记为 X\Bbb{X}
  • 个体:构成总体的每一个成员
  • 总体的容量:个体的个数

样本与样本分布

  • 抽样:按一定的原则从X\Bbb{X}中抽取若干个体
  • 样本:被抽出的部分个体(相互独立且同分布),记作X1,X2,,XnX_1,X_2,\ldots,X_n
  • 总体分布:每一个个体可以看作一个随机变量,这个随机变量的分布即为总体分布
  • 样本容量:样本是一组随机变量X1,X2,,XnX_1,X_2,\ldots,X_nnn即为样本容量
  • 样本值:对样本进行一次观察得到的一组观察值x1,x2,,xnx_1,x_2,\ldots,x_n
  • 样本分布:样本(X1,X2,,Xn)(X_1,X_2,\ldots,X_n)的概率分布,有
F(x1,x2,,xn)=F(x1)F(x2)F(xn)f(x)=f(x1)f(x2)f(xn)F(x_1,x_2,\ldots,x_n)=F(x_1)F(x_2)\ldots F(x_n)\\ f(x)=f(x_1)f(x_2)\ldots f(x_n)

统计量

定义

X1,X2,,XnX_1,X_2,\ldots,X_n 是来自总体 X\Bbb{X} 的一个样本,称此样本的任一不含总体分布未知参数的函数为该样本的统计量

统计量是随机变量,不是一个数

常见的统计量及其观察值分布

  • 样本均值
X=1ni=1nXix=1ni=1nxi\overline{X}=\cfrac{1}{n}\sum\limits_{i=1}^{n}X_i\\ \overline{x}=\cfrac{1}{n}\sum\limits_{i=1}^{n}x_i
  • 样本方差
S2=1n1i=1n(XiX)2=1n1(i=1nXi2nX2)s2=1n1i1n(xix)2S^2=\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2=\cfrac{1}{n-1}(\sum\limits_{i=1}^{n}X_i^2-n\overline{X}^2)\\ s^2=\frac{1}{n-1}\sum\limits_{i-1}^n(x_i-\overline{x})^2
  • 样本标准差
S=1n1i=1n(XiX)2s=1n1i1n(xix)2S=\sqrt{\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}\\ s=\sqrt{\frac{1}{n-1}\sum\limits_{i-1}^n(x_i-\overline{x})^2}
  • 样本 k 阶(原点)矩
Ak=1ni=1nXikk=1,2,ak=1ni=1nxikA_k=\cfrac{1}{n}\sum\limits_{i=1}^nX_i^k\qquad k=1,2,\ldots\\ a_k=\cfrac{1}{n}\sum\limits_{i=1}^nx_i^k
  • 样本 k 阶中心矩
Bk=1ni=1n(XiX)kk=2,3,bk=1ni=1n(xix)kB_k=\cfrac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^k\qquad k=2,3,\ldots\\ b_k=\cfrac{1}{n}\sum\limits_{i=1}^n(x_i-\overline{x})^k

抽样分布

概念

称统计量的分布为抽样分布(统计分布)

分类

χ2\chi ^2 分布

  • 定义

X1,X2,,XnX_1,X_2,\ldots,X_n 是来自总体 N(0,1)N(0,1) 的样本,则称统计量

χ2=X12+X22++Xn2=i=1nXi2\chi^2=X_1^2+X_2^2+\ldots+X_n^2=\sum\limits_{i=1}^{n}X_i^2

服从自由度为 nnχ2\chi^2 分布,记作 χ2χ2(n)\chi^2\sim \chi^2(n)

  • 性质
    • χ12+χ22χ2(n1+n2)\chi_1^2+\chi_2^2\sim \chi^2(n_1+n_2)
    • E(χ2)=nD(χ2)=2nE(\chi^2)=n\qquad D(\chi^2)=2n
    • 图形特征(扩展)
      • 单峰曲线,在 n-2 时取到最大值
      • 不对称,n 越大越对称
      • 当 n 很大时可用正态分布来近似
image-20210104111808290

tt 分布

XN(0,1),Yχ2(n)X\sim N(0,1),Y\sim \chi^2(n),且 X,YX,Y 相互独立,则称统计量

t=XY/nt=\cfrac{X}{\sqrt{Y/n}}

服从自由度为 nntt 分布(学生氏分布),记作 tt(n)t\sim t(n)

image-20210104112030093

FF 分布

Uχ2(n1),Vχ2(n2)U\sim \chi^2(n_1),V\sim \chi^2(n_2),且 U,VU,V 相互独立,则称统计量

F=U/n1V/n2F=\cfrac{U/n_1}{V/n_2}

服从自由度为 (n1,n2)(n_1,n_2)FF 分布,记作 FF(n1,n2)F\sim F(n_1,n_2)

image-20210104112110879

分位数

(Quantile)

概念

对随机变量X,0<α<1X,0<\alpha<1

  • P{X>tα}=αP\{X>t_\alpha\}=\alpha,则称tαt_\alphaXXα\alpha分位点
  • P({X<tα1}{X>tα2})=α(α1+α2=1)P(\{X<t_{\alpha_1}\}\cup\{X>t_{\alpha_2}\})=\alpha(\alpha_1+\alpha_2=1),则称tα1t_{\alpha_1}tα2t_{\alpha_2}XX双侧α\alpha分位点

通常取α2=α/2,α1=1α/2\alpha_2=\alpha/2,\alpha_1=1-\alpha/2

常见分布的分位点

标准正态分布

XN(0,1)X\sim N(0,1),若数 zαz_\alpha 满足

P{X>zα}=α,0<α<1P\{X>z_\alpha\}=\alpha,0<\alpha<1

则称 zαz_\alpha 为标准正态分布的上 α\alpha 分位点

image-20210104105159982

χ2\chi^2 分布

X2X2(n)\mathcal{X}^2\sim X^2(n),若数Xα2(n){\mathcal X_\alpha^2}(n)满足

P{X2>Xα2(n)}=α,0<α<1P\{\mathcal{X}^2>X_\alpha^2(n)\}=\alpha,0<\alpha<1

则称Xα2(n){\mathcal{X}_\alpha^2}(n)X2(n)\mathcal{X^2}(n)分布的上α\alpha分位点

image-20210104112014969

tt 分布

tt(n)t\sim t(n),若数 tα(n)t_\alpha(n) 满足

P{t>tα(n)}=α,0<α<1P\{t>t_\alpha(n)\}=\alpha,0<\alpha<1

则称 tα(n)t_\alpha(n)t(n)t(n)分布的上 α\alpha 分位点

  • t1α(n)=tα(n)t_{1-\alpha}(n)=-t_\alpha(n)
image-20210104112042351

FF 分布

FF(n1,n2)F\sim F(n_1,n_2),若数 Fα(n1,n2)F_\alpha(n_1,n_2) 满足

P{F>Fα(n1,n2)}=α,0<α<1P\{F>F_\alpha(n_1,n_2)\}=\alpha,0<\alpha<1

则称 Fα(n1,n2)F_\alpha(n_1,n_2)FF分布的上 α\alpha 分位点

  • Fα(n1,n2)=1F1α(n2,n1)F_\alpha(n_1,n_2)=\cfrac{1}{F_{1-\alpha}(n_2,n_1)}
image-20210104112123618

总结

分布名α\alpha 分位点双侧 α\alpha 分位点
标准正态分布zαz_\alpha±zα/2\pm z_{\alpha/2}
X2\mathcal X^2 分布Xα2(n){\mathcal X_\alpha^2}(n)Xα/22(n)X1α/22(n){\mathcal X}^2_{\alpha/2}(n)\\{\mathcal X}^2_{1-\alpha/2}(n)
tt 分布tα(n)t_\alpha(n)±tα/2(n)\pm t_{\alpha/2}(n)
FF 分布Fα(n1,n2)F_\alpha(n_1,n_2)Fα/2(n1,n2)F1α/2(n1,n2)F_{\alpha/2}(n_1,n_2)\\F_{1-\alpha/2}(n_1,n_2)

正态总体的样本均值与样本方差的分布

设总体X\Bbb X的均值为μ\mu,方差为σ2\sigma^2X1,X2,,XnX_1,X_2,\ldots,X_n是来自X\Bbb X的一个样本,X\overline{X}S2S^2分别为该样本的样本均值和样本方差,则

E(X)=μ,D(X)=σ2nE(S2)=σ2E(\overline{X})=\mu,D(\overline{X})=\cfrac{\sigma^2}{n}\\ E(S^2)=\sigma^2

定理一

设总体X\Bbb X的分布为N(μ,σ2)N(\mu,\sigma^2)X1,X2,,XnX_1,X_2,\ldots,X_n是来自X\Bbb X的一个样本,X\overline{X}为该样本的样本均值,则

(1)XN(μ,σ2/n)(2)Xμσ/nN(0,1)(1) \quad \overline{X}\sim N(\mu,\sigma^2/n)\qquad (2)\quad\cfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)

定理二

设总体X\Bbb X的分布为N(μ,σ2)N(\mu,\sigma^2)X1,X2,,XnX_1,X_2,\ldots,X_n是来自X\Bbb X的一个样本,X\overline{X}S2S^2分别为该样本的样本均值和样本方差,则

(1)n1σ2S2χ2(n1)(2)XS2相互独立(1)\quad\cfrac{n-1}{\sigma^2}S^2\sim\chi^2(n-1)\qquad(2)\quad\overline{X}与 S^2 相互�独立 image-20210106100451265

定理三

设总体X\Bbb X的分布为N(μ,σ2)N(\mu,\sigma^2)X1,X2,,XnX_1,X_2,\ldots,X_n是来自X\Bbb X的一个样本,X\overline{X}S2S^2分别为该样本的样本均值和样本方差,则

XμS/nt(n1)\cfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)

定理四

X1,X2,,Xn1X_1,X_2,\ldots,X_{n1}Y1,Y2,,Yn2Y_1,Y_2,\ldots,Y_{n2} 分别是来自两个相互独立的正态总体 N(μ1,σ12)N(\mu_1,\sigma^2_1)N(μ2,σ22)N(\mu_2,\sigma^2_2) 的样本,X\overline{X}Y \overline{Y} 分别为这两个样本的样本均值,S12S_1^2S22S_2^2 分别为这两个样本的样本方差,则

(1)(XY)(μ1μ2)σ12/n1+σ22/n2N(0,1)(2)S12/S22σ12/σ22F(n11,n21)(3)σ12=σ22=σ2时,(XY)(μ1μ2)Sw1n1+1n2t(n1+n22)其中Sw=(n11)S12+(n21)S22n1+n22(1)\quad\cfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}\sim N(0,1)\qquad(2)\quad\cfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1) \\(3)当\sigma^2_1=\sigma^2_2=\sigma^2 时,\quad\cfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\cfrac{1}{n_1}+\cfrac{1}{n_2}}}\sim t(n_1+n_2-2) \\其中 S_w=\sqrt{\cfrac{(n_1-1)S_1^2+(n_2-1)S^2_2}{n_1+n_2-2}}

image-20210106101917339