快要期末了,笔者发现好多题目不够熟练,故紧急把一些知识点整理成cheatsheet,也相当于复习了。

# 概率空间

  • 样本点、样本空间、随机事件、事件域、样本空间分割的概念(略,看书)
  • 概率的四种确定方法+公理化定义(见下):
    1. 非负性:P(A)0P(A)\geq 0
    2. 正则性:P(Ω)=1P(\Omega)=1
    3. 可列可加性:当A1,,An,A_1,\cdots,A_n,\cdots互不相容,有

    P(n=1An)=n=1P(An)P(\sum_{n=1}^\infty A_n)=\sum_{n=1}^\infty P(A_n)

  • PP本质为集函数(将集合映射到实数域)
  • 概率空间:(Ω,F,P)(\Omega,\mathcal{F},P)(下面如无特别说明,均在此空间下讨论)

# 概率的性质

  • 对立事件概率、有限可加性、可减性、单调性、有界性、加法公式(容斥定理,庞加莱公式)、次可加性
  • 概率为00的事件不一定为不可能事件
  • 可列可加性\Longrightarrow有限可加性,反之不然
  • 概率的连续性:
    • 极限事件:
      • 对于单调不减事件列(A1A2AnA_1\subset A_2\subset\cdots\subset A_n\subset\cdots),为

      limnAn=n=1An\lim_{n\to\infty}A_n=\bigcup_{n=1}^\infty A_n

      • 对于单调不增事件列(A1A2AnA_1\supset A_2\supset\cdots\supset A_n\supset\cdots),则为

      limnAn=n=1An\lim_{n\to\infty}A_n=\bigcap_{n=1}^\infty A_n

    • 集函数μ\mu的上(下)连续性:对于单调不增(减)的事件列{An,n1}\{A_n,n\geq 1\}满足

      μ(limnAn)=limnμ(An)\mu(\lim_{n\to\infty}A_n)=\lim_{n\to\infty}\mu(A_n)

      (记忆:可以将事件包含关系理解为叠高楼,被包含的事件在上面)
    • 概率测度PP满足上(下)连续性
  • 概率等价定义:可列可加性替换为有限可加性+连续性

# 常见概率模型

  1. 不返回抽样(超几何模型):

P(A)=(Mm)(NMnm)(Nn)P(A)=\frac{\binom{M}{m}\binom{N-M}{n-m}}{\binom{N}{n}}

  1. 返回抽样

P(A)=(nm)Mm(NM)nmNn=(nm)(MN)m(NMN)nmP(A)=\binom{n}{m}\frac{M^m(N-M)^{n-m}}{N^n}=\binom{n}{m}(\frac{M}{N})^{m}(\frac{N-M}{N})^{n-m}

  1. 盒子模型

P(A)=PNnNn=N!Nn(Nn)!P(A)=\frac{P_N^n}{N^n}=\frac{N!}{N^n(N-n)!}

  1. 配对模型(nn人拿nn个帽子,一人一个,至少一人拿到自己帽子的概率)

P(k=1nAk)=k=1nP(Ak)i<jP(AiAj)++(1)n1P(A1A2An)=k=1n(1)k11k!\begin{aligned} P(\bigcup_{k=1}^n A_k)&=\sum_{k=1}^n P(A_k)-\sum_{i<j}P(A_iA_j)+\cdots+(-1)^{n-1}P(A_1A_2\cdots A_n) \\ &=\sum_{k=1}^n (-1)^{k-1}\frac{1}{k!} \end{aligned}

# 随机事件的独立性

  • 定义:P(AB)=P(A)P(B)P(AB)=P(A)\cdot P(B)
  • 独立事件不一定互斥(如掷骰子,A={1,2,3},B={1,4}A=\{1,2,3\},B=\{1,4\}),互斥事件不一定独立(比如两个事件概率均不为00
  • 多个随机事件的独立:
    • 两两独立、三三独立、相互独立(简称独立)
    • A,B,CA,B,C相互独立,则ABA\cup BCC独立,ABA\cap BCC独立,A\BA\backslash BCC独立
  • 相互独立条件下的庞加莱公式:

    P(k=1mAk)=1k=1n(1P(Ak))P(\bigcup_{k=1}^m A_k)=1-\prod_{k=1}^n(1-P(A_k))

  • 事件类的独立
    • 有限个随机事件类的独立——每个事件类中任取一个随机事件结合,相互独立
    • 任意多个随机事件类独立——基于有限子集事件类的独立性
  • 事件域的独立性

# 条件概率

  • 定义:在概率空间中,BFB\in\mathcal{F}P(B)>0P(B)>0,则AF\forall A\in\mathcal{F},定义P(AB)=P(AB)P(B)P(A\mid B)=\frac{P(AB)}{P(B)}
  • P(AΩ)=P(A)P(A\mid\Omega)=P(A)P(AB)=P(A)AP(A\mid B)=P(A)\Longleftrightarrow ABB相互独立
  • 其他性质:
    • P(BB)=1P(B\mid B)=1
    • P(B)=1P(B)=1,则P(AB)=P(A)P(A\mid B)=P(A)
    • AB=A\cap B=\emptyset,则P(AB)=P(A)P(B)P(A|B)=\frac{P(A)}{P(B)}
  • 乘法公式:
    • A,BFA,B\in\mathcal{F},且P(A)>0,P(B)>0P(A)>0,P(B)>0,则

    P(AB)=P(A)P(BA)=P(B)P(AB)P(AB)=P(A)P(B\mid A)=P(B)P(A\mid B)

    • 推论1:n>1,A1,A2,,AnF,P(A1,An1)>0n>1,A_1,A_2,\cdots,A_n\in\mathcal{F},P(A_1,\cdots A_{n-1})>0,则有

    P(A1An)=P(A1)P(A2A1)P(AnA1An1)P(A_1\cdots A_n)=P(A_1)P(A_2\mid A_1)\cdots P(A_n\mid A_1\cdots A_{n-1})

    • 推论2:B,A1,,AnF,P(A1An1B)>0B,A_1,\cdots,A_n\in\mathcal{F},P(A_1\cdots A_{n-1}B)>0,则

    P(A1AnB)=P(A1B)P(A2A1B)P(AnA1An1B)P(A_1\cdots A_n\mid B)=P(A_1\mid B)P(A_2\mid A_1B)\cdots P(A_n\mid A_1\cdots A_{n-1}B)

  • 全概率公式:
    • A,BF\forall A,B\in\mathcal{F}0<P(B)<10<P(B)<1,则

    P(A)=P(AB)P(B)+P(AB)P(B)P(A)=P(A\mid B)P(B)+P(A\mid\overline{B})P(\overline{B})

    • 推论:设B1,BnB_1,\cdots B_nΩ\Omega的一组分割,P(Bk)>0,k=1,,nP(B_k)>0,k=1,\cdots,n,则对任意AFA\in\mathcal{F}

    P(A)=k=1nP(Bk)P(ABk)P(A)=\sum_{k=1}^nP(B_k)P(A\mid B_k)

  • 贝叶斯公式(后验概率公式):
    • B1,,BnB_1,\cdots,B_n为样本空间Ω\Omega的一组分割,P(Bk)>0,k=1,,nP(B_k)>0,k=1,\cdots,n,且有AF,P(A)>0A\in\mathcal{F},P(A)>0,则有

    P(BjA)=P(Bj)P(ABj)k=1nP(Bk)P(ABk),j=1,,nP(B_j\mid A)=\frac{P(B_j)P(A\mid B_j)}{\sum_{k=1}^n P(B_k)P(A\mid B_k)},j=1,\cdots,n

# *可测映射

  • σ\sigma-代数:设Ω\Omega是给定的非空集合,F\mathcal{F}是由的部分子集组成的集合类,若F\mathcal{F}满足下列条件,则称F\mathcal{F}Ω\Omegaσ\sigma-代数:
    1. ΩF\Omega\in\mathcal{F}
    2. AFA\in\mathcal{F}AF\overline{A}\in\mathcal{F}
    3. 对任意n1n\geq 1,若AnFA_n\in\mathcal{F}n=1AnF\bigcup_{n=1}^\infty A_n\in\mathcal{F}.
  • 定义P(Ω)={A:AΩ}\mathcal{P}(\Omega)=\{A:A\subset\Omega\}(所有子集集合,有时也记为2Ω2^\Omega);D(Ω)={FP(Ω):F为集合Ω上的σ-代数}\mathcal{D}(\Omega)=\{\mathcal{F}\subset\mathcal{P}(\Omega):\mathcal{F}\text{为集合}\Omega\text{上的}\sigma\text{-代数}\}.
  • CP(Ω)\mathcal{C}\subset\mathcal{P}(\Omega),则称集类

    {FD(Ω):CF}F\bigcap_{\{\mathcal{F}\in\mathcal{D}(\Omega):\hspace{0.3em}\mathcal{C}\subset\mathcal{F}\}}\mathcal{F}

    为由C\mathcal{C}生成的σ\sigma-代数,记为σ(C)\sigma(\mathcal{C})
  • 注:设CP(Ω),AΩ\mathcal{C}\subset\mathcal{P}(\Omega),A\subset\Omega,记

    CA={BA:BC}\mathcal{C}\cap A=\{B\cap A:B\in\mathcal{C}\}

    σ(CA)\sigma(\mathcal{C}\cap A)CA\mathcal{C}\cap A所生成集合在AA上的σ\sigma-代数,则有:

    σ(C)A=σ(CA)\sigma(\mathcal{C})\cap A=\sigma(\mathcal{C}\cap A)

    这也是条件概率的理论基础。
  • Borel σ\sigma-代数:设σ=Rd\sigma=\mathbb{R}^d

    C={i=1d(ai,bi]Ω:ai<bi}\mathcal{C}=\{\prod_{i=1}^d(a_i,b_i]\subset\Omega:-\infty\leq a_i<b_i\leq\infty\}

    则称σ(C)\sigma(\mathcal{C})为Borel σ\sigma-代数或Borel域,记为B(Rd)\mathcal{B}(\mathbb{R}^d),称B(Rd)\mathcal{B}(\mathbb{R}^d)中的集合为borel集。(注:之后的随机变量定义中,采用ai=a_i=-\infty
  • 可测映射:
    • ff为集合Ω1\Omega_1Ω2\Omega_2上的映射,对任意BΩ2B\subset\Omega_2,定义

      f1(B)={ωΩ1:f(ω)B}f^{-1}(B)=\{\omega\in\Omega_1:f(\omega)\in B\}

      f1f^{-1}建立了P(Ω2)\mathcal{P}(\Omega_2)P(Ω1)\mathcal{P}(\Omega_1)上的映射.
      CP(Ω2)\mathcal{C}\subset \mathcal{P}(\Omega_2),记

      f1(C)={ωΩ1:f(ω)C}f^{-1}(\mathcal{C})=\{\omega\in\Omega_1:f(\omega)\in\mathcal{C}\}

    • 定理1:设ffΩ1\Omega_1Ω2\Omega_2上的映射,AD(Ω2)\mathcal{A}\in\mathcal{D}(\Omega_2),则f1(A)D(Ω1)f^{-1}(\mathcal{A})\in\mathcal{D}(\Omega_1).
    • 定理2:设ffΩ1\Omega_1Ω2\Omega_2上的映射,CP(Ω2)\mathcal{C}\in\mathcal{P}(\Omega_2),则f1(σ(C))D(Ω1)f^{-1}(\sigma(\mathcal{C}))\in\mathcal{D}(\Omega_1),且f1(σ(C))=σ(f1(C))f^{-1}(\sigma(\mathcal{C}))=\sigma(f^{-1}(\mathcal{C})).
  • 可测空间:若FD(Ω)\mathcal{F}\in\mathcal{D}(\Omega),则称(Ω,F)(\Omega,\mathcal{F})为可测空间。
  • 可测映射:设(Ω1,F1)(\Omega_1,\mathcal{F}_1)(Ω2,F2)(\Omega_2,\mathcal{F}_2)是两个可测空间,ffΩ1\Omega_1Ω2\Omega_2上的映射,若对任意BF2B\in\mathcal{F}_2f1(B)F1f^{-1}(B)\in\mathcal{F}_1成立,则称ff(Ω1,F1)(\Omega_1,\mathcal{F}_1)(Ω2,F2)(\Omega_2,\mathcal{F}_2)上的可测映射,记为fF1/F2f\in\mathcal{F}_1/\mathcal{F}_2.
    • 定理:设(Ω1,F1)(\Omega_1,\mathcal{F}_1)(Ω2,F2)(\Omega_2,\mathcal{F}_2)是两个可测空间,其中F2=σ(C)\mathcal{F}_2=\sigma(\mathcal{C})。若ffΩ1\Omega_1Ω2\Omega_2上的映射,且对任意BCB\in\mathcal{C}f1(B)F1f^{-1}(B)\in\mathcal{F}_1成立,则fF1/F2f\in\mathcal{F}_1/\mathcal{F}_2.
    • 推论:设ff为可测空间(Ω,F)(\Omega,\mathcal{F})到Borel域(R,B(R))(\mathbb{R},\mathcal{B}(\mathbb{R}))上的映射,则ff为可测映射xR,{ωΩ:f(ω)x}F\Longleftrightarrow\forall x\in\mathbb{R},\{\omega\in\Omega:f(\omega)\leq x\}\in\mathcal{F}.
  • 可测映射的复合:若ff是由(Ω1,F1)(\Omega_1,\mathcal{F}_1)(Ω2,F2)(\Omega_2,\mathcal{F}_2)上的可测映射,gg是由(Ω2,F2)(\Omega_2,\mathcal{F}_2)(Ω3,F3)(\Omega_3,\mathcal{F}_3)上的可测映射,则ffgg的复合映射gfg\circ f是由(Ω1,F1)(\Omega_1,\mathcal{F}_1)(Ω3,F3)(\Omega_3,\mathcal{F}_3)上的可测映射.
  • ff是可测空间(Ω,F)(\Omega,\mathcal{F})到Borel域(R,B(R))(\mathbb{R},\mathcal{B}(\mathbb{R}))上的可测映射,称

    σ(f)=f1(B(R))={f1(B):BB(R)}\sigma(f)=f^{-1}(\mathcal{B}(\mathbb{R}))=\{f^{-1}(B):B\in\mathcal{B}(\mathbb{R})\}

    为由ff诱导的σ\sigma-代数。σ(f)\sigma(f)为使得ff可测的最小σ\sigma-代数。

# 排列组合

  • 略,除了一个重复组合:
    • 本质:已知一个正整数rr,求将其分为nn个非负整数之和的不同方案数,即求Ω,Ω={(x1,,xn)i=1nxi=r,xkN}|\Omega|,\Omega=\{(x_1,\cdots,x_n)\mid\sum_{i=1}^nx_i=r,x_k\in\mathbb{N}\}
    • 计算:可理解为将rr个球和n1n-1个隔板进行组合,n+r1n+r-1个位置先选出rr个位置放球,剩下位置放隔板,隔板间球的数量即为分配的非负整数。故总方案数为(n+r1r)\binom{n+r-1}{r}

# 随机变量

  • 定义:可测空间(Ω,F)(\Omega,\mathcal{F})(R,B(R))(\mathbb{R},\mathcal{B}(\mathbb{R}))上的可测映射。
  • 等价定义:给定概率空间(Ω,F,P)(\Omega,\mathcal{F},P)XX为定义在Ω\Omega上的实值函数(将Ω\Omega中元素映射到R\mathbb{R}上),则XX为随机变量xR,{ωΩ:X(ω)x}F\Longleftrightarrow\forall x\in\mathbb{R},\{\omega\in\Omega:X(\omega)\leq x\}\in\mathcal{F}
    • X(ω)X(\omega)取值只有两个值时,称XX为伯努利随机变量;取值只有一个值时称为常值随机变量。
  • 示性函数:设AFA\in\mathcal{F},称

    1A(ω)={1,ωA0,ωA1_A(\omega)=\left\{ \begin{aligned} 1,&\hspace{1em} \omega\in A \\ 0,&\hspace{1em} \omega\in \overline{A} \end{aligned} \right.

    AA的示性函数。可知1A1_A为伯努利随机变量。

# 分布函数

  • 定义:设XX为随机变量,对任意实数xx,称函数F(x)=PX1((,x])=P(Xx)F(x)=P\circ X^{-1}((-\infty,x])=P(X\leq x)为随机变量XX的(累积)分布函数(记为d.f.)。
  • 常值随机变量的分布函数

    F(x)={0,x<c1,xc=1[c,)xF(x)=\left\{ \begin{aligned} 0,&\hspace{1em} x<c \\ 1,&\hspace{1em} x\geq c \end{aligned} \right. =1_{[c,\infty)}x

    也被称为退化分布函数。
  • 不同的随机变量可能有相同的分布函数。
  • 性质:
    1. 单调性:x<yF(x)F(y)x<y\Longleftrightarrow F(x)\leq F(y)
    2. 有界性:0F(x)10\leq F(x)\leq 1F(+)=1,F()=0F(+\infty)=1,F(-\infty)=0
    3. 右连续性:xR,F(x+0)=F(x)\forall x\in\mathbb{R},F(x+0)=F(x)F(x+0)limyx+F(y)F(x+0)\triangleq\lim_{y\to x^+}F(y)
  • 常用公式:
    • P(X>x)=1F(x)P(X>x)=1-F(x)
    • P(X<x)=F(x0)limyxF(y)P(X<x)=F(x-0)\triangleq\lim_{y\to x^-}F(y)
    • P(X=x)=F(x)F(x0)P(X=x)=F(x)-F(x-0)F(Xx)=1F(x0)F(X\geq x)=1-F(x-0)
    • P(a<Xb)=F(b)F(a)P(a<X\leq b)=F(b)-F(a)

# 概率分布

# 离散型分布

  • 定义:若随机变量XX可能取值为x1,x2,,xn,x_1,x_2,\cdots,x_n,\cdots,则称Pk=P(X=xk),k=1,2,P_k=P(X=x_k),k=1,2,\cdotsXX的分布列(记为p.f.),并称XX为离散型随机变量(具有离散型分布)。
  • 分布列形式:
    XX x1x_1 x2x_2 \cdots xnx_n \cdots
    PP p1p_1 p2p_2 \cdots pnp_n \cdots
  • 性质:非负性、正则性(略)
  • 定理1:若离散型随机变量XX有分布列pk=P(X=xk),k=1,2,p_k=P(X=x_k),k=1,2,\cdots,则XX的分布函数为

    F(X)=k:xkxpkF(X)=\sum_{k:\hspace{0.2em}x_k\leq x}p_k

  • 定理2:若离散型随机变量XX有分布列pk=P(X=xk),k=1,2,p_k=P(X=x_k),k=1,2,\cdots,则

    P(XD)=k:xkDpk=kpk1D(xk)P(X\in D)=\sum_{k:\hspace{0.2em}x_k\in D}p_k=\sum_kp_k\cdot 1_D(x_k)

  • 分布函数特征:阶梯型、间断点为XX可能取值点、跳跃高度为该点概率值
    • 已知分布函数求分布列:若F(x)F(x)XX分布函数,则XX可能取值点为F(x)F(x)的所有间断点x1,x2,x_1,x_2,\cdots,分布列为P(X=xk)=F(xk)F(xk0)P(X=x_k)=F(x_k)-F(x_k-0)

# 连续型分布

  • 定义:设随机变量XX分布函数为F(x)F(x),若存在函数p(x)p(x)使得对任意xx,满足F(x)=xp(t)dtF(x)=\int_{-\infty}^xp(t)dt成立,则称XX为连续型随机变量(具有连续型分布),称p(x)p(x)为概率密度函数(记为p.d.f.)
  • 性质:
    • F(x)F(x)R\mathbb{R}上连续,故对aR,P(X=a)=F(a)F(a0)=0\forall a\in\mathbb{R},P(X=a)=F(a)-F(a-0)=0
    • 若随机变量XX的概率密度函数为p(x)p(x),则

      P(x(xΔx2,x+Δx2))=xΔx2x+Δx2p(t)dtp(x)ΔxP(x\in(x-\frac{\Delta x}{2},x+\frac{\Delta x}{2}))=\int_{x-\frac{\Delta x}{2}}^{x+\frac{\Delta x}{2}}p(t)dt\approx p(x)\Delta x

      p(x)p(x)xx处取值反映了XXxx附近取值可能性大小(但不是概率值)。
    • 非负性、正则性(略)
    • 注:概率密度函数可以有间断点(如分段函数)
  • 定理1:若随机变量XX有概率密度函数p(x)p(x)DRD\subset\mathbb{R},则

    P(XD)=Dp(x)dxP(X\in D)=\int_Dp(x)dx

  • 定理2:若概率密度函数p(x)p(x)为偶函数,则对任意实数aa,分布函数FF满足

    F(a)=120ap(x)dx;F(a)+F(a)=1(F(0)=12);P(xa)=2F(a)1;P(xa)=2(1F(a))\begin{aligned} &F(-a)=\frac{1}{2}-\int_0^ap(x)dx;&F(a)+F(-a)=1\hspace{0.5em}(F(0)=\frac{1}{2});\\ &P(|x|\leq a)=2F(a)-1;&P(|x|\geq a)=2(1-F(a)) \end{aligned}

# *混合型分布

  • 定义:若F1(x)F_1(x)为离散随机变量分布函数,F2(x)F_2(x)为连续随机变量分布函数,则α,0<α<1\forall\alpha,0<\alpha<1F(x)=αF1(x)+(1α)F2(x)F(x)=\alpha F_1(x)+(1-\alpha)F_2(x)为混合型分布函数。

# 常用离散分布

  1. 二项分布
    • 分布列:P(X=k)=(nk)pk(1p)nk,k=0,1,,nP(X=k)=\binom{n}{k}p^k(1-p)^{n-k},k=0,1,\cdots,n
    • 记为Xb(n,p)X\sim b(n,p)
    • n=1n=1时称为两点分布(或0-1分布)
  2. 几何分布
    • 分布列:P(X=k)=p(1p)k1P(X=k)=p(1-p)^{k-1}
    • 记为XGe(p)X\sim Ge(p)
    • 具有无记忆性:P(X>m+nX>m)=P(X>n)P(X>m+n\mid X>m)=P(X>n)
  3. 负二项分布(帕斯卡分布)
    • 分布列:P(X=k)=(k1r1)pr(1p)krP(X=k)=\binom{k-1}{r-1}p^r(1-p)^{k-r}
    • 记为XNb(r,p)X\sim Nb(r,p)
    • 与几何分布关系:Nb(1,p)=Ge(p)Nb(1,p)=Ge(p)
  4. 泊松分布
    • 分布列:P(X=k)=λkk!eλP(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}
    • 记为XP(λ)X\sim P(\lambda)
    • 泊松定理:设limnnpn=λ\lim_{n\to\infty}np_n=\lambda,则对给定正整数kk,有

      limn(nk)pnk(1pn)nk=λkk!eλ\lim_{n\to\infty}\binom{n}{k}p_n^k(1-p_n)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}

      • 应用:当nn很大,pp很小时(np[0.1,10]np\in[0.1,10])可以用二项分布列近似泊松分布列
  5. 超几何分布
    • 分布列:P(X=k)=(Mk)(NMnk)(Nn)P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}nN,kM,nkNMn\leq N,k\leq M,n-k\leq N-M
    • 记为Xh(n,N,M)X\sim h(n,N,M)
    • n,kn,k固定,NN\to\inftyMNp\frac{M}{N}\to p时,超几何分布h(n,N,M)h(n,N,M)近似于二项分布b(n,p)b(n,p)

# 常用连续型分布

  1. 正态分布
    • 概率密度函数:

    p(x)=12πσexp{(xμ)22σ2}p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}

    • 记为XN(μ,σ2)X\sim N(\mu,\sigma^2)
    • 性质:
      • p(x)p(x)关于x=μx=\mu对称,在μ\mu处取得最大值;
      • μ\mu控制p(x)p(x)对称轴位置,σ\sigma控制p(x)p(x)陡峭程度。
    • 标准正态分布:取μ=0,σ=1\mu=0,\sigma=1,概率密度函数p(x)=12πex22p(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}被记为φ(x)\varphi(x),其对应的分布函数x12πex22\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}被记为Φ(x)\Phi(x)
      • 性质:Φ(0)=12\Phi(0)=\frac{1}{2}Φ(x)+Φ(x)=1\Phi(x)+\Phi(-x)=1
    • 正态分布标准化:当XN(μ,σ2),Y=XμσX\sim N(\mu,\sigma^2),Y=\frac{X-\mu}{\sigma},则YN(0,1)Y\sim N(0,1)
      • 推论:设XN(μ,σ2)X\sim N(\mu,\sigma^2),则XX分布函数F(x)=Φ(xμσ)F(x)=\Phi(\frac{x-\mu}{\sigma}).
    • 正态分布3σ3\sigma准则(略)
  2. 均匀分布
    • 概率密度函数:

      p(x)={1ba,a<x<b0,otherwise.p(x)=\left\{ \begin{aligned} \frac{1}{b-a},&\hspace{1em} a<x<b \\ 0,&\hspace{1em} \operatorname*{otherwise}. \end{aligned} \right.

    • 记为XU(a,b)X\sim U(a,b)
    • 分布函数:

      F(x)={0,x<axaba,ax<b1,xbF(x)=\left\{ \begin{aligned} 0,&\hspace{1em} x<a \\ \frac{x-a}{b-a},&\hspace{1em} a\leq x<b\\ 1,&\hspace{1em} x\geq b \end{aligned} \right.

    • 概率密度函数:

    p(x)={λαΓ(α)xα1eλx,x>00,x0.p(x)=\left\{ \begin{aligned} \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},&\hspace{1em} x>0 \\ 0,&\hspace{1em} x\leq 0. \end{aligned} \right.

    其中

    Γ(α)=0xα1exdx\Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx

    Γ(1)=1,Γ(12)=π,Γ(s+1)=sΓ(s)\Gamma(1)=1,\Gamma(\frac{1}{2})=\sqrt{\pi},\Gamma(s+1)=s\Gamma(s)
    • 记为XGa(α,λ)X\sim Ga(\alpha,\lambda)
    • α=1\alpha=1时,为指数分布XExp(λ)X\sim Exp(\lambda)
      • 概率密度函数:

      p(x)={λeλx,x>00,x0.p(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x},&\hspace{1em} x>0 \\ 0,&\hspace{1em} x\leq 0. \end{aligned} \right.

      • 分布函数:

      F(x)={1eλx,x>00,x0.F(x)=\left\{ \begin{aligned} 1-e^{-\lambda x},&\hspace{1em} x>0 \\ 0,&\hspace{1em} x\leq 0. \end{aligned} \right.

      • 具有无记忆性
    • α=n2,λ=12\alpha=\frac{n}{2},\lambda=\frac{1}{2}时,为卡方分布Xχ2(n)X\sim \chi^2(n)

# 数学期望和方差

# 数学期望

  • 定义:

    • 设离散型随机变量XX有分布列P(X=xk)=pk,k=1,2,P(X=x_k)=p_k,k=1,2,\cdots,若

      k=1xkpk\sum_{k=1}^\infty x_kp_k

      绝对收敛,则称其为XX的数学期望,记为EXEX
    • 设连续型随机变量XX有概率密度函数p(x)p(x),若

      xp(x)dx\int_{-\infty}^\infty xp(x)dx

      绝对收敛,则称其为XX的数学期望,也记为EXEX
  • 随机变量函数的期望:当Y=f(X)Y=f(X)为随机变量XX的函数,若E(f(X))E(f(X))存在,则

    EY=E(f(X))={kf(xk)pk,离散情形f(x)p(x)dx,连续情形EY=E(f(X))=\left\{ \begin{aligned} &\sum_{k} f(x_k)p_k,&\hspace{1em} \text{离散情形} \\ &\int_{-\infty}^\infty f(x)p(x)dx,&\hspace{1em} \text{连续情形} \end{aligned} \right.

  • 性质:

    • E(c)=cE(c)=ccc为常数)
    • E(aX)=aEXE(aX)=aEXaa为常数)
    • E(f(X)+g(X))=E(f(X))+E(g(X))E(f(X)+g(X))=E(f(X))+E(g(X))

# 方差

  • 定义:若E(XEX)2E(X-EX)^2存在,则称其为随机变量XX的方差,记为VarX\mathrm{Var}X
    • 另称σx=σ(X)=VarX\sigma_x=\sigma(X)=\sqrt{\mathrm{Var}X}XX的标准差
  • 具体计算:

    VarX={k(xkEX)2pk,离散情形(xEX)2p(x)dx,连续情形\mathrm{Var}X=\left\{ \begin{aligned} &\sum_{k} (x_k-EX)^2p_k,&\hspace{1em} \text{离散情形} \\ &\int_{-\infty}^\infty (x-EX)^2p(x)dx,&\hspace{1em} \text{连续情形} \end{aligned} \right.

  • 性质:
    • Var(c)=0\mathrm{Var}(c)=0
    • Var(aX+b)=a2VarX\mathrm{Var}(aX+b)=a^2\mathrm{Var}X
    • VarX=EX2(EX)2\mathrm{Var}X=EX^2-(EX)^2
    • VarX0\mathrm{Var}X\geq 0
  • 常见分布期望&方差汇总:
    分布 形式 期望EXEX 方差VarX\mathrm{Var}X
    二项分布 b(n,p)b(n,p) npnp np(1p)np(1-p)
    泊松分布 P(λ)P(\lambda) λ\lambda λ\lambda
    几何分布 Ge(p)Ge(p) 1p\frac{1}{p} 1pp2\frac{1-p}{p^2}
    负二项分布 Nb(r,p)Nb(r,p) rp\frac{r}{p} r(1p)p2\frac{r(1-p)}{p^2}
    超几何分布 h(n,N,M)h(n,N,M) nMNn\cdot\frac{M}{N} NnN1nMNNMN\frac{N-n}{N-1}\cdot n\cdot\frac{M}{N}\cdot\frac{N-M}{N}
    均匀分布 U(a,b)U(a,b) a+b2\frac{a+b}{2} (ba)212\frac{(b-a)^2}{12}
    正态分布 N(μ,σ2)N(\mu,\sigma^2) μ\mu σ2\sigma^2
    指数分布 Exp(λ)Exp(\lambda) 1λ\frac{1}{\lambda} 1λ2\frac{1}{\lambda^2}
    Gamma分布 Ga(α,λ)Ga(\alpha,\lambda) αλ\frac{\alpha}{\lambda} αλ2\frac{\alpha}{\lambda^2}

# 马尔科夫不等式

  • 设随机变量X0X\geq 0EXEX存在,则ϵ>0\forall\epsilon>0,有

    P(Xϵ)EXϵP(X\geq\epsilon)\leq\frac{EX}{\epsilon}

  • 推论:若F(X)F(X)X0X\geq 0时单调递增,则

    P(Xϵ)E(F(x))F(ϵ)P(X\geq\epsilon)\leq\frac{E(F(x))}{F(\epsilon)}

    (当然这里F(X)F(X)条件可以放宽,只要保证XϵX\geq\epsilonF(X)F(ϵ)F(X)\geq F(\epsilon)即可)

# 切比雪夫不等式

  • 若随机变量XX的方差存在,则ϵ>0\forall\epsilon>0,有

    P(XEXϵ)VarXϵ2P(XEX<ϵ)1VarXϵ2\begin{aligned} &P(|X-EX|\geq\epsilon)\leq\frac{\mathrm{Var}X}{\epsilon^2}\\ &P(|X-EX|<\epsilon)\geq 1-\frac{\mathrm{Var}X}{\epsilon^2} \end{aligned}

    • 推论:设XX的方差存在,则VarX=0\mathrm{Var}X=0\Longleftrightarrow存在常数aa,满足P(X=a)=1P(X=a)=1

# 矩与其他数字特征

# 中心矩与原点矩

  • kk为正整数,若XkX^k数学期望存在,则称E(XEX)kE(X-EX)^kXXkk中心矩(记为νk\nu_k),称EXkEX^kXXkk原点矩(记为μk\mu_k
  • 性质:
    • 若高阶矩存在,则低阶矩必存在
    • μ1=EX,ν2=VarX\mu_1=EX,\nu_2=\mathrm{Var}X
    • νk=i=0k(ki)μi(1)kiμ1ki\nu_k=\sum_{i=0}^k\binom{k}{i}\mu_i(-1)^{k-i}\mu_1^{k-i}(二项展开式)
  • 常用分布矩公式:
    • 正态分布N(μ,σ2)N(\mu,\sigma^2)

      νk={(k1)!!σk,k=2m0,k=2m1μk=E[μ+(Xμ)]k=j=0k/2(k2j)(2j1)!!σ2jμk2j\begin{aligned} &\nu_k=\left\{ \begin{aligned} &(k-1)!!\sigma^{k}, &k=2m \\ &0, &k=2m-1 \end{aligned} \right.\\ &\mu_k=E[\mu+(X-\mu)]^k=\sum_{j=0}^{\lfloor k/2\rfloor}\binom{k}{2j}(2j-1)!!\sigma^{2j}\mu^{k-2j} \end{aligned}

    • Gamma分布Ga(α,λ)Ga(\alpha,\lambda)

      μk=Γ(α+k)λkΓ(α)=(α+k1)(α+k2)(α+1)αλk\mu_k=\frac{\Gamma(\alpha+k)}{\lambda^k\Gamma(\alpha)}=\frac{(\alpha+k-1)(\alpha+k-2)\cdots(\alpha+1)\alpha}{\lambda^k}

      νk\nu_k根据二项展开式计算)

# 分位数

  • F(x)F(x)为随机变量XX的分布函数,0<α<10<\alpha<1,称

    Xα=inf{x:F(x)a}X_\alpha=\operatorname*{inf}\{x:F(x)\geq a\}

    XX(或分布FF)的α\alpha-分位数。特别地,当FF严格单调时,XαX_\alphaF(x)=αF(x)=\alpha的解。
    • 标准正态分布的α\alpha-分位数一般用uαu_\alpha表示。
  • 中位数:根据分位数的定义,称X12X_{\frac{1}{2}}XX(或分布FF)的中位数。
    • 中位数满足P(XX12)=P(XX12)P(X\geq X_{\frac{1}{2}})=P(X\leq X_{\frac{1}{2}}).

# 变异系数

  • 公式:

    Cv=ν2μ1=VarXEX(EX0)C_v=\frac{\sqrt{\nu_2}}{\mu_1}=\frac{\sqrt{\mathrm{Var}X}}{EX}\hspace{1em} (EX\neq 0)

  • 消除量纲的影响,用于比较不同量纲的两个随机变量的波动大小

# 偏度系数与峰度系数

  • 偏度系数公式:

    βs=ν3σ3=E(XEX)3(VarX)3\beta_s=\frac{\nu_3}{\sigma^3}=\frac{E(X-EX)^3}{(\sqrt{\mathrm{Var}X})^3}

    • 用于衡量随机变量的分布对称性:若βs>0\beta_s>0则右偏(中位数小于均值),βs<0\beta_s<0则左偏(中位数大于均值)
      skew
  • 峰度系数公式:

    βk=ν4ν223=E(XEX)4(VarX)23\beta_k=\frac{\nu_4}{\nu_2^2}-3=\frac{E(X-EX)^4}{(\mathrm{Var}X)^2}-3

    • 其中33为标准正态分布N(0,1)N(0,1)44阶原点(中心)距μ4(ν4)\mu_4(\nu_4)
    • 用于刻画分布尾部的肥瘦程度(与标准正态分布相比)
  • 计算Gamma分布Ga(α,λ)Ga(\alpha,\lambda)的偏度系数与峰度系数:
    因为

    VarX=ν2=αλ2,ν3=2αλ3,ν4=3α(α+2)λ4\mathrm{Var}X=\nu_2=\frac{\alpha}{\lambda^2},\hspace{1em}\nu_3=\frac{2\alpha}{\lambda^3},\hspace{1em}\nu_4=\frac{3\alpha(\alpha+2)}{\lambda^4}

    βs=2α,βk=6α\beta_s=\frac{2}{\sqrt{\alpha}},\hspace{1em}\beta_k=\frac{6}{\alpha}

# 随机向量(多元随机变量)

  • 定义:
    • 二维随机变量:设X,YX,Y为定义在(Ω,F,P)(\Omega,\mathcal{F},P)上随机变量,则称(X,Y)(X,Y)为二维随机变量(向量);
    • 类似可定义nn维随机变量。

# 二维随机变量

  • 联合分布函数:对任意x,yx,y,称F(x,y)=P(Xx,Yy)F(x,y)=P(X\leq x,Y\leq y)(X,Y)(X,Y)的联合分布函数
    • 性质:单调性、有界性(F(,y)=F(x,)=F(,)=0,F(,)=1F(-\infty,y)=F(x,-\infty)=F(\infty,-\infty)=0,F(\infty,\infty)=1)、右连续性、非负性(a1<b1,a2<b2,F(b1,b2)F(b1,a2)F(a1,b2)+F(a1,a2)0\forall a_1<b_1,a_2<b_2,F(b_1,b_2)-F(b_1,a_2)-F(a_1,b_2)+F(a_1,a_2)\geq 0
  • 二维离散随机变量
    • (X,Y)(X,Y)取值有限对或可列对
    • pij=P(X=xi,Y=yj),i,j=1,2,p_{ij}=P(X=x_i,Y=y_j),i,j=1,2,\cdots(X,Y)(X,Y)的联合分布列
    • 形式:
      X\YX\backslash Y y1y_1 y2y_2 \cdots yjy_j \cdots
      x1x_1 p11p_{11} p12p_{12} \cdots p1jp_{1j} \cdots
      x2x_2 p21p_{21} p22p_{22} \cdots p2jp_{2j} \cdots
      \cdots \cdots \cdots \cdots \cdots \cdots
      xix_i pi1p_{i1} pi2p_{i2} \cdots pijp_{ij} \cdots
      \cdots \cdots \cdots \cdots \cdots \cdots
    • 定理:

      P((X,Y)D)=i,j:xi,yjDpijP((X,Y)\in D)=\sum_{i,j:\hspace{0.3em} x_i,y_j\in D}p_{ij}

  • 二维离散随机变量
    • 设二维随机变量(X,Y)(X,Y)联合分布函数为F(x,y)F(x,y),则存在函数p(x,y)p(x,y)使得

      F(x,y)=xyp(u,v)dudvF(x,y)=\int_{-\infty}^x\int_{-\infty}^yp(u,v)dudv

      则称p(x,y)p(x,y)为其联合概率密度函数
    • 定理:设(X,Y)(X,Y)概率密度函数为p(x,y)p(x,y)DB(R2)D\in\mathcal{B}(\mathbb{R}^2),则

      P((X,Y)D)=Dp(x,y)dxdyP((X,Y)\in D)=\iint_D p(x,y)dxdy

      • p(x,y)p(x,y)可分解为f(x)g(y)f(x)\cdot g(y),则积分可转化为

        P((X,Y)D)=Dxf(x)dxDyg(y)dyP((X,Y)\in D)=\int_{D_x}f(x)dx\int_{D_y}g(y)dy

        其中DxD_xDyD_yDDx,yx,y轴上的投影。

# 常用多维分布

  1. 多项分布
    • 每次实验rr种结果A1,,ArA_1,\cdots,A_r,设P(Ai)=pi,i=1,2,,rP(A_i)=p_i,i=1,2,\cdots,r, 记XiX_inn次独立重复试验中AiA_i出现次数
    • (X1,,Xr)(X_1,\cdots,X_r)联合分布列:

    P(X1=n1,,Xr=nr)={n!p1n1prnrn1!nr!,i=1rni=n0,otherwise.P(X_1=n_1,\cdots,X_r=n_r)=\left\{ \begin{aligned} &\frac{n!p_1^{n_1}\cdots p_r^{n_r}}{n_1!\cdots n_r!},& \sum_{i=1}^rn_i=n\\ &0,& \mathrm{otherwise}. \end{aligned} \right.

  2. 多维超几何分布
    • NN个球,分为rr个类,第ii种有NiN_i个,i=1rNi=N\sum_{i=1}^rN_i=N
    • (X1,,Xr)(X_1,\cdots,X_r)联合分布列:

    P(X1=n1,,Xr=nr)={(N1n1)(Nrnr),i=1rni=n0,otherwise.P(X_1=n_1,\cdots,X_r=n_r)=\left\{ \begin{aligned} &\binom{N_1}{n_1}\cdots\binom{N_r}{n_r},& \sum_{i=1}^rn_i=n\\ &0,& \mathrm{otherwise}. \end{aligned} \right.

  3. 二维均匀分布
    • 记为:(X,Y)U(D)(X,Y)\sim U(D)
    • 联合概率密度函数:

      p(x,y)={1SD,(x,y)D0,otherwise.p(x,y)=\left\{ \begin{aligned} &\frac{1}{S_D},& (x,y)\in D\\ &0,& \mathrm{otherwise}. \end{aligned} \right.

      其中SDS_DDD的面积。
  4. 二维正态分布
    • 记为:(X,Y)N(μ1,σ12;μ2,σ22;ρ)(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)
    • 联合概率密度函数:

      p(x,y)=12πσ1σ2cexp{12c2(a2+b22ρab)}p(x,y)=\frac{1}{2\pi\sigma_1\sigma_2 c}\mathrm{exp}\{-\frac{1}{2c^2}(a^2+b^2-2\rho ab)\}

      其中

      a=xμ1σ1,b=yμ2σ2,c=1ρ2a=\frac{x-\mu_1}{\sigma_1},b=\frac{y-\mu_2}{\sigma_2},c=\sqrt{1-\rho^2}

  5. 高维正态分布
    • 记为:设dd为随机向量X=(X1,,Xd)T\mathbf{X}=(X_1,\cdots,X_d)^T,向量x=(x1,,xd)T\mathbf{x}=(x_1,\cdots,x_d)^T
    • 联合概率密度函数:

      p(x)=1(2π)d2Σ12exp{12(xμ)TΣ1(xμ)}p(\mathbf{x})=\frac{1}{(2\pi)^{\frac{d}{2}}|\Sigma|^\frac{1}{2}}\mathrm{exp}\{-\frac{1}{2}(\mathbf{x}-\mu)^T\Sigma^{-1}(\mathbf{x}-\mu)\}

      其中

      Σ=(Cov(xi,xj))d×d\Sigma=(\operatorname*{Cov}(x_i,x_j))_{d\times d}

      为协方差矩阵,μ=(μ1,,μd)T\mu=(\mu_1,\cdots,\mu_d)^TX\mathbf{X}的期望向量
    • 记为XN(μ,Σ)\mathbf{X}\sim N(\mu,\Sigma)

# 边际分布

  • 边际分布函数
    • 设随机变量(X,Y)(X,Y)联合分布函数为F(X,Y)F(X,Y),则随机变量XXYY的分布函数分别为:

    FX(x)=F(x,)limyF(x,y)FY(y)=F(,y)limxF(x,y)\begin{aligned} F_X(x)=F(x,\infty)\triangleq\lim_{y\to\infty}F(x,y)\\ F_Y(y)=F(\infty,y)\triangleq\lim_{x\to\infty}F(x,y) \end{aligned}

  • 边际分布列
    • 设随机变量(X,Y)(X,Y)有分布列pij=P(X=xi,Y=yj),i,j=1,2,p_{ij}=P(X=x_i,Y=y_j),i,j=1,2,\cdots,则随机变量XXYY的边际分布列为

    P(X=xi)=j=1pijpi,i=1,2,P(Y=yj)=i=1pijpj,j=1,2,\begin{aligned} P(X=x_i)=\sum_{j=1}^\infty p_{ij}\triangleq p_i,i=1,2,\cdots\\ P(Y=y_j)=\sum_{i=1}^\infty p_{ij}\triangleq p_j,j=1,2,\cdots \end{aligned}

  • 边际概率密度函数
    • 已知(X,Y)(X,Y)联合概率密度函数为p(x,y)p(x,y),则随机变量XXYY的边际概率密度函数分别为

    pX(x)=p(x,y)dypY(y)=p(x,y)dx\begin{aligned} p_X(x)=\int_{-\infty}^\infty p(x,y)dy\\ p_Y(y)=\int_{-\infty}^\infty p(x,y)dx \end{aligned}

  • 一般无法由边际分布推导出联合分布;二维均匀分布的边际分布不一定是均匀分布。
  • 二维正态分布的边际分布:
    • (X,Y)(X,Y)服从二维正态分布N(μ1,σ12;μ2,σ22;ρ)N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho),则XX服从正态分布N(μ1,σ12)N(\mu_1,\sigma_1^2)YY服从正态分布N(μ2,σ22)N(\mu_2,\sigma_2^2)

# 随机向量的独立性

  • 二维定义:若对任意(x,y)R2(x,y)\in\mathbb{R}^2,随机事件{Xx}\{X\leq x\}{Yy}\{Y\leq y\}相互独立,则称随机变量XXYY相互独立。即:

    F(x,y)=FX(x)FY(y)F(x,y)=F_X(x)F_Y(y)

  • 等价描述:
    • (X,Y)(X,Y)为离散随机向量,则XXYY独立(i,j),pij=pipj\Longleftrightarrow\forall (i,j),p_{ij}=p_ip_j
      • (X,Y)(X,Y)为连续随机向量,则XXYY独立(x,y)R2,p(x,y)=pX(x)pY(y)\Longleftrightarrow\forall (x,y)\in\mathbb{R}^2,p(x,y)=p_X(x)p_Y(y)
  • 二维正态分布的独立性:
    • 设随机变量(X,Y)(X,Y)服从二维正态分布N(μ1,σ12;μ2,σ22;ρ)N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho),则XXYY相互独立ρ=0\Longleftrightarrow\rho=0
  • 一般定义:X1,,XdX_1,\cdots,X_d相互独立F(x1,,xd)=F1(x1)Fd(xd),(x1,,xd)Rd\Longleftrightarrow F(x_1,\cdots,x_d)=F_1(x_1)\cdots F_d(x_d),(x_1,\cdots,x_d)\in\mathbb{R}^d

# 随机变量函数的独立性

  • 定理:设X,YX,Y为定义在概率空间(Ω,F,P)(\Omega,\mathcal{F},P)上的随机变量,f,gf,g均为(R,B(R))(\mathbb{R},\mathcal{B}(\mathbb{R}))上的可测函数,若XXYY相互独立,则f(X)f(X)g(Y)g(Y)相互独立。
  • 推论:若(X1,,Xn)(X_1,\cdots,X_n)相互独立,则(Xi1,,Xir)(X_{i1},\cdots,X_{ir})(Xj1,,Xjr)(X_{j1},\cdots,X_{jr})相互独立(i1,,iri1,\cdots,irj1,,jrj1,\cdots,jr为互不相同的下标,均属于{1,2,,n}\{1,2,\cdots,n\}

# 随机向量函数的分布

# 一元情形

  • 定理:已知随机变量XX有分布列{pk,k=1,2,}\{p_k,k=1,2,\cdots\}或概率密度函数pX(x)p_X(x),则Y=f(X)Y=f(X)ff为Borel可测函数)的分布函数为

    FY(y)={k:xkDypk,离散情形DypX(x)dx,连续情形.F_Y(y)=\left\{ \begin{aligned} &\sum_{k:\hspace{0.3em} x_k\in D_y}p_k,& \text{离散情形}\\ &\int_{D_y}p_X(x)dx,& \text{连续情形}. \end{aligned} \right.

    其中Dy={x:f(x)y}D_y=\{x:f(x)\leq y\}
  • 例子:
    • XN(0,1)X\sim N(0,1),则Y=X2Ga(12,12)=χ2(1)Y=X^2\sim Ga(\frac{1}{2},\frac{1}{2})=\chi^2(1)
    • XN(0,1)X\sim N(0,1)Y=eXY=e^X,则

      pY(y)={12πyσe(lnyμ)22σ2,y>00,y0.p_Y(y)=\left\{ \begin{aligned} &\frac{1}{\sqrt{2\pi}y\sigma}e^{-\frac{(\ln y-\mu)^2}{2\sigma^2}},& y>0\\ &0,& y\leq 0. \end{aligned} \right.

  • 定理1:若随机向量XX的分布函数F(x)F(x)严格单调增,则Y=F(X)U(0,1)Y=F(X)\sim U(0,1)
    • 证明:

    FY(y)=P(Yy)=P(F(X)y)={0,y<0P(XF1(y))=F(F1(y))=y,0y<11,y1\begin{aligned} F_Y(y)=P(Y\leq y)&=P(F(X)\leq y)\\ &=\left\{ \begin{aligned} &0, &y<0\\ &P(X\leq F^{-1}(y))=F(F^{-1}(y))=y, &0\leq y<1\\ &1, &y\geq 1 \end{aligned} \right. \end{aligned}

  • 定理2:设随机变量XX的概率密度函数为pX(x)p_X(x),函数y=f(x)y=f(x)严格单调,且其反函数x=h(y)x=h(y)连续可导,则随机变量Y=f(X)Y=f(X)的概率密度函数为:

    pY(y)={pX(h(y))h(y),yE0,otherwise.p_Y(y)=\left\{ \begin{aligned} &p_X(h(y))\cdot|h'(y)|,& y\in E\\ &0,& \mathrm{otherwise}. \end{aligned} \right.

    其中EEff的值域。
  • 定理3(正态分布的线性不变性):设XN(μ,σ2)X\sim N(\mu,\sigma^2),则a0a\neq 0时,Y=aX+bN(aμ+b,a2σ2)Y=aX+b\sim N(a\mu+b,a^2\sigma^2).
    • 推论:当XN(μ,σ2)X\sim N(\mu,\sigma^2)时,XμσN(0,1)\frac{X-\mu}{\sigma}\sim N(0,1)
  • 定理4(Gamma分布线性性):设XGa(α,λ),c>0X\sim Ga(\alpha,\lambda),c>0,则cXGa(α,λc)cX\sim Ga(\alpha,\frac{\lambda}{c}).
    • 推论:设XN(0,σ2)X\sim N(0,\sigma^2),则X2Ga(12,12σ2)X^2\sim Ga(\frac{1}{2},\frac{1}{2\sigma^2}).

# 多个随机变量函数的分布(二元情形)

  • 定理:设(X,Y)(X,Y)有分布列{pij,i,j,=1,2,}\{p_{ij},i,j,=1,2,\cdots\}或联合概率密度函数p(x,y)p(x,y),则Z=g(X,Y)Z=g(X,Y)ggR2\mathbb{R}^2R\mathbb{R}上可测函数)的分布函数为

    FZ(z)=P((X,Y)Dz)={i,j:(xi,yj)Dzpij,离散情形Dzp(x,y)dxdy,连续情形.F_Z(z)=P((X,Y)\in D_z)=\left\{ \begin{aligned} &\sum_{i,j:\hspace{0.3em} (x_i,y_j)\in D_z}p_{ij},& \text{离散情形}\\ &\iint_{D_z}p(x,y)dxdy,& \text{连续情形}. \end{aligned} \right.

    • 特别地,当g(x,y)=xg(x,y)=xyy时,即为求边际分布函数。
    • 推论:当Z=g(X,Y)Z=g(X,Y)所有取值为{zk,k=1,2,}\{z_k,k=1,2,\cdots\},则ZZ的分布函数为

    i,j:g(xi,yj)=zkpij\sum_{i,j:\hspace{0.3em}g(x_i,y_j)=z_k}p_{ij}

# 卷积公式

  • 离散情形:设(X,Y)(X,Y)分布列为pij=P(X=xi,Y=yj)p_{ij}=P(X=x_i,Y=y_j),则Z=X+YZ=X+Y的分布列为

    P(Z=zk)=iP(X=xi,Y=zkxi)=jP(X=zkyj,Y=yj)\begin{aligned} P(Z=z_k)=\sum_i P(X=x_i,Y=z_k-x_i)\\ =\sum_j P(X=z_k-y_j,Y=y_j) \end{aligned}

    特别地,当XXYY相互独立,则

    P(Z=zk)=iP(X=xi)P(Y=zkxi)=jP(X=zkyj)P(Y=yj)\begin{aligned} P(Z=z_k)=\sum_i P(X=x_i)P(Y=z_k-x_i)\\ =\sum_j P(X=z_k-y_j)P(Y=y_j) \end{aligned}

  • 连续情形:设(X,Y)(X,Y)联合概率密度函数为p(x,y)p(x,y),则tR\forall t\in\mathbb{R}Z=tX+YZ=tX+Y的概率密度函数为

    pZ(z)=p(x,ztx)dxp_Z(z)=\int_{-\infty}^{\infty}p(x,z-tx)dx

    • 特别地,当t=1t=1时,Z=X+YZ=X+Y的概率密度函数为

    pZ(z)=p(x,zx)dx=p(zy,y)dyp_Z(z)=\int_{-\infty}^{\infty}p(x,z-x)dx=\int_{-\infty}^{\infty}p(z-y,y)dy

    • 当然,当XXYY相互独立,则p(x,ztx)=pX(x)pY(ztx)p(x,z-tx)=p_X(x)p_Y(z-tx).
  • 另外,当pX(x)p_X(x)pY(y)p_Y(y)为分段函数时,计算DzD_z就需要根据分段函数划定范围,再积分

# 概率分布的可加性

  1. 二项分布的可加性
    • Xb(n,p),Yn(n,p)X\sim b(n,p),Y\sim n(n,p),且相互独立,则Z=X+Yb(n+m,p)Z=X+Y\sim b(n+m,p)
    • 即二项分布可视为多个相互独立的两点分布的和
  2. 泊松分布的可加性
    • XP(λ1),YP(λ2)X\sim P(\lambda_1),Y\sim P(\lambda_2),且相互独立,则Z=X+YP(λ1+λ2)Z=X+Y\sim P(\lambda_1+\lambda_2)
  3. Gamma分布的可加性
    • XGa(α1,λ),YGa(λ2,λ)X\sim Ga(\alpha_1,\lambda),Y\sim Ga(\lambda_2,\lambda),且相互独立,则Z=X+YGa(α1+α2,λ)Z=X+Y\sim Ga(\alpha_1+\alpha_2,\lambda)
    • 推论:卡方分布的可加性
      • Xχ2(n),Yχ2(m)X\sim\chi^2(n),Y\sim\chi^2(m),且相互独立,则Z=X+Yχ2(n+m)Z=X+Y\sim \chi^2(n+m)
    • 注:指数分布不具有可加性
  4. 正态分布的可加性
    • (X,Y)(X,Y)服从二维正态分布N(μ1,σ1;μ2,σ22;ρ)N(\mu_1,\sigma_1;\mu_2,\sigma_2^2;\rho),则Z=X+YN(μ1+μ2,σ12+σ22+2ρσ1σ2)Z=X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2+2\rho\sigma_1\sigma_2).
    • 推论:若XN(μ1,σ12),YN(μ2,σ22)X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2),且相互独立,则X±YN(μ1±μ2,σ12+σ22)X\pm Y\sim N(\mu_1\pm\mu_2,\sigma_1^2+\sigma_2^2)
    • 正态分布的线性性:若XiN(μi,σi2),i=1,2,,nX_i\sim N(\mu_i,\sigma_i^2),i=1,2,\cdots,n且相互独立,αi\alpha_i为任意常数,则

    α1X1+α2X2++αnXnN(α1μ1++αnXN,α12σ12++αn2σn2)\alpha_1X_1+\alpha_2X_2+\cdots+\alpha_nX_n\sim N(\alpha_1\mu_1+\cdots+\alpha_nX_N,\alpha_1^2\sigma_1^2+\cdots+\alpha_n^2\sigma_n^2)

# 极值分布

  • (X1,,Xn)(X_1,\cdots,X_n)相互独立,分布函数为Fi(x),i=1,,nF_i(x),i=1,\cdots,n,记Y=max(X1,,Xn),Z=min(X1,,Xn)Y=\max(X_1,\cdots,X_n),Z=\min(X_1,\cdots,X_n),则YYZZ的分布函数分别为

    FY(y)=i=1nFi(y),FZ(z)=1i=1n(1Fi(z))\begin{aligned} &F_Y(y)=\prod_{i=1}^n F_i(y),\\ &F_Z(z)=1-\prod_{i=1}^n(1-F_i(z)) \end{aligned}

    • 特别地,当X1,,XnX_1,\cdots,X_n相互独立且同分布,分布函数均为FX(x)F_X(x),则FY(y)=[FX(y)]n,FZ(z)=1=[1FZ(z)]nF_Y(y)=[F_X(y)]^n,F_Z(z)=1=[1-F_Z(z)]^n.
    • 更进一步,当上述X1,,XnX_1,\cdots,X_n均为连续型随机变量,概率密度函数均为pX(x)p_X(x),则pY(y)=n[FX(y)]n1pX(y),pZ(z)=n[1FX(z)]n1pX(z)p_Y(y)=n[F_X(y)]^{n-1}p_X(y),p_Z(z)=n[1-F_X(z)]^{n-1}p_X(z)

# 混合型随机变量函数的分布

  • 计算分布函数:使用定义(F(x,y)=P(Xx,Yy),FT(X+Y)=P(X+Yt),F(x,y)=P(X\leq x,Y\leq y),F_T(X+Y)=P(X+Y\leq t),\cdots

# 随机向量变换的分布

  • 注:本节所述随机变量均为连续型随机变量
  • 问题:设随机变量X=(X1,,Xn)\mathbf{X}=(X_1,\cdots,X_n)的联合概率密度函数为p(x1,,xn)p(x_1,\cdots,x_n),且有Yi=hi(X),i=1,,mY_i=h_i(\mathbf{X}),i=1,\cdots,mhih_iRn\mathbb{R}^nR\mathbb{R}上可测函数),试求Y=(Y1,,Ym)\mathbf{Y}=(Y_1,\cdots,Y_m)的分布。
  • 使用定义——多重积分(麻烦,略去)
  • 使用坐标变换:若对任意i=1,2,,ni=1,2,\cdots,nyi=hi(x1,,xn)y_i=h_i(x_1,\cdots,x_n)的逆变换xi=ki(y1,,yn)x_i=k_i(y_1,\cdots,y_n)存在且有连续偏导数,则Y=(Y1,,Ym)\mathbf{Y}=(Y_1,\cdots,Y_m)的概率密度函数为

    p(y1,,yn)={p(k1(y1,,yn),,kn(y1,,yn))J,(y1,,yn)E,0,otherwise.p^*(y_1,\cdots,y_n)=\left\{ \begin{aligned} &p(k_1(y_1,\cdots,y_n),\cdots,k_n(y_1,\cdots,y_n))|J|,&(y_1,\cdots,y_n)\in E,\\ & 0, &\mathrm{otherwise}. \end{aligned} \right.

    其中EE(h1X,,hnX)(h_1\mathbf{X},\cdots,h_n\mathbf{X})的值域,JJ为坐标变换的雅格比行列式:

    J=(x1,,xn)(y1,,yn)=x1y1x1y2x1ynx2y1x2y2x2ynxny1xny2xnynJ=\frac{\partial(x_1,\cdots,x_n)}{\partial(y_1,\cdots,y_n)}=\left| \begin{array}{cccc} \frac{\partial x_1}{\partial y_1} & \frac{\partial x_1}{\partial y_2} & \cdots & \frac{\partial x_1}{\partial y_n}\\ \frac{\partial x_2}{\partial y_1} & \frac{\partial x_2}{\partial y_2} & \cdots & \frac{\partial x_2}{\partial y_n}\\ \cdots & \cdots & \cdots & \cdots\\ \frac{\partial x_n}{\partial y_1} & \frac{\partial x_n}{\partial y_2} & \cdots & \frac{\partial x_n}{\partial y_n} \end{array} \right|

# 增补变量法求联合分布函数的分布

  • 问题:已知(X,Y)(X,Y)的联合分布,求U=G(X,Y)U=G(X,Y)的分布。
  • 方法:增加一个随机变量V=h(X,Y)V=h(X,Y)(通常取V=XV=XV=YV=Y),再求(U,V)(U,V)的联合分布,最后对UU求边际分布。
  • 例:
    • 两个随机变量的积(取V=YV=Y):

      U=XYpU(u)=pX(uv)pY(v)1vdvU=XY\Longrightarrow p_U(u)=\int_{-\infty}^\infty p_X(\frac{u}{v})p_Y(v)\frac{1}{|v|}dv

    • 两个随机变量的商(取V=YV=Y):

      U=XYpU(u)=pX(uv)pY(v)vdvU=\frac{X}{Y}\Longrightarrow p_U(u)=\int_{-\infty}^\infty p_X(uv)p_Y(v)|v|dv

# 随机变量的数字特征

# 数学期望与方差

  • 数学期望定义:设(X,Y)(X,Y)为二维随机向量,若EXEXEYEY均存在(通过边际分布求得),则称(EX,EY)(EX,EY)(X,Y)(X,Y)的数学期望(向量)【也可推广为dd维随机向量,下略】
  • 方差定义:类似一维随机变量,故省略
  • 定理:设随机变量Z=g(X,Y)Z=g(X,Y)(X,Y)(X,Y)的函数,若EZEZ存在,则

    EZ=E[g(X,Y)]={i,jg(xi,yj)pij,离散情形g(x,y)p(x,y)dxdy,连续情形EZ=E[g(X,Y)]=\left\{ \begin{aligned} &\sum_{i,j}g(x_i,y_j)p_{ij},&\text{离散情形}\\ &\iint g(x,y)p(x,y)dxdy,&\text{连续情形} \end{aligned} \right.

  • 性质(注:下面将X,YX,Y替换为f(X),g(Y)f(X),g(Y)也成立):
    • E(X+Y)=EX+EYE(X+Y)=EX+EY
    • X,YX,Y相互独立,则E(XY)=EXEYE(XY)=EX\cdot EY
    • Var(X±Y)=VarX+VarY±2E[(XEX)(YEY)]\mathrm{Var}(X\pm Y)=\mathrm{Var}X+\mathrm{Var}Y\pm 2E[(X-EX)(Y-EY)]
    • E[(XEX)(YEY)]=E(XY)EXEYE[(X-EX)(Y-EY)]=E(XY)-EX\cdot EY
    • XXYY相互独立,则:
      • E[(XEX)(YEY)]=0E[(X-EX)(Y-EY)]=0
      • Var(X±Y)=VarX+VarY\mathrm{Var}(X\pm Y)=\mathrm{Var}X+\mathrm{Var}Y
  • 推论:若nn维随机变量X=i=1nXi\mathrm{X}=\sum_{i=1}^nX_i,则

    VarX=i=1nVar(Xi)+2i=1nj=1i1E[(XiEXi)(YjEYj)]\mathrm{Var}\mathbf{X}=\sum_{i=1}^n\mathrm{Var}(X_i)+2\sum_{i=1}^n\sum_{j=1}^{i-1}E[(X_i-EX_i)(Y_j-EY_j)]

# 协方差

  • 定义:设(X,Y)(X,Y)为二维随机变量,若E[(XEX)(YEY)]E[(X-EX)(Y-EY)]存在,则称其为XXYY的协方差,记为Cov(X,Y)\operatorname*{Cov}(X,Y).
  • 性质:
    • Cov(X,Y)=Cov(Y,X)\operatorname*{Cov}(X,Y)=\operatorname*{Cov}(Y,X)
    • Cov(aX,bY)=abCov(X,Y)\operatorname*{Cov}(aX,bY)=ab\operatorname*{Cov}(X,Y)
    • Cov(X,Y)=E(XY)EXEY\operatorname*{Cov}(X,Y)=E(XY)-EX\cdot EY(计算时更常用)
    • XXYY独立,则Cov(X,Y)=0\operatorname*{Cov}(X,Y)=0
    • Cov(X,a)=0,Cov(X,X)=VarX\operatorname*{Cov}(X,a)=0,\operatorname*{Cov}(X,X)=\operatorname*{Var}X
    • Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)\operatorname*{Cov}(X+Y,Z)=\operatorname*{Cov}(X,Z)+\operatorname*{Cov}(Y,Z)
    • Var(aX±bY)=a2Var(X)+b2Var(Y)±2abCov(X,Y)\operatorname*{Var}(aX\pm bY)=a^2\mathrm{Var}(X)+b^2\mathrm{Var}(Y)\pm 2ab\mathrm{Cov}(X,Y)
  • 协方差阵
    • (X1,,Xn)(X_1,\cdots,X_n)nn维随机向量,若i,j(1i,jn)\forall i,j(1\leq i,j\leq n)Cov(Xi,Xj)\mathrm{Cov}(X_i,X_j)存在,则称Σ=(Cov(Xi,Xj))n×n\Sigma=(\mathrm{Cov}(X_i,X_j))_{n\times n}(X1,,Xn)(X_1,\cdots,X_n)的协方差矩阵
    • 性质:
      • 主对角线上元素为XiX_i的方差
      • 所有元素之和为X=X1++Xn\mathbf{X}=X_1+\cdots+X_n的方差(Var(i=1nXi)=i,j=1nCov(Xi,Xj)\mathrm{Var}(\sum_{i=1}^n X_i)=\sum_{i,j=1}^n\mathrm{Cov}(X_i,X_j)
      • (X,Y)N(μ1,σ12;μ2,σ22;ρ)(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho),则 $$

        Σ=(σ12ρσ1σ2ρσ1σ2σ22)\Sigma=\left( \begin{array}{cc} \sigma_1^2 & \rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{array} \right)

      • Σ\Sigma有对称性与半正定性

# 相关系数

  • 定义:若(X,Y)(X,Y)为二维随机向量,则称

    Corr(X,Y)=Cov(X,Y)VarXVarY\mathrm{Corr}(X,Y)=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}X}\sqrt{\mathrm{Var}Y}}

    XXYY的相关系数(也记为ρxy\rho_{xy}
    • 在实际计算中,一般采用下述公式:

      Corr(X,Y)=E(XY)EXEYEX2(EX)2EY2(EY)2\mathrm{Corr}(X,Y)=\frac{E(XY)-EX\cdot EY}{\sqrt{EX^2-(EX)^2}\sqrt{EY^2-(EY)^2}}

      即计算EX,EY,EX2,EY2,E(XY)EX,EY,EX^2,EY^2,E(XY)五个量。
  • 性质:
    • X=XEXVarX,Y=YEYVarYX^*=\frac{X-EX}{\sqrt{\mathrm{Var}X}},Y^*=\frac{Y-EY}{\sqrt{\mathrm{Var}Y}},则Corr(X,Y)=Cov(X,Y)=Corr(X,Y)=E(XY)\mathrm{Corr}(X,Y)=\mathrm{Cov}(X^*,Y^*)=\mathrm{Corr}(X^*,Y^*)=E(X^*Y^*)
    • Corr(X,Y)1|\mathrm{Corr}(X,Y)|\leq 1,且取等号当且仅当XXYY有线性关系(即a,b\exists a,b满足P(Y=aX+b)=1P(Y=aX+b)=1
  • 推论:
    • Corr(X,Y)1|\mathrm{Corr}(X,Y)|\leq 1可立即推得

      E[(XEX)(YEY)]2VarXVarY|E[(X-EX)(Y-EY)]|^2\leq \mathrm{Var}X\cdot\mathrm{Var}Y

      而令EX=EY=0EX=EY=0即得柯西-施瓦茨不等式:

      E(XY)2=EX2EY2|E(XY)|^2=EX^2\cdot EY^2

      当然这个不等式在EX,EY0EX,EY\neq 0时也成立,不过就需要其他证明方法。
  • Corr(X,Y)=±1\mathrm{Corr}(X,Y)=\pm 1时,称XXYY正/负相关(隐去了线性性);当Corr(X,Y)=0\mathrm{Corr}(X,Y)=0时,称XXYY不相关(但不代表没有关系!)
    • XXYY相互独立,则Corr(X,Y)=0\mathrm{Corr}(X,Y)=0,即XXYY不相关,但反之不成立
  • 二维正态分布的相关系数:
    • (X,Y)N(μ1,σ12;μ2,σ22;ρ)(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho),则Corr(X,Y)=ρ\mathrm{Corr}(X,Y)=\rho.
    • 如果(X,Y)(X,Y)满足二维正态分布,则XXYY不相关X\Longleftrightarrow XYY相互独立(但如果只有XXYY满足正态分布命题不成立)

# 条件分布

  • 定义:设(X,Y)(X,Y)为二维随机变量,且对任意Δy>0\Delta y>0P(yΔy<Yy)>0P(y-\Delta y< Y\leq y)>0(若YY离散,则等价于YY可取到yy;若YY连续,则等价于pY(y)>0p_Y(y)>0)。若对任意实数xx

    limΔy0+P(XxyΔy<Yy)=limΔy0+P(Xx,yΔy<Yy)P(yΔy<Yy)\begin{aligned} &\lim_{\Delta y\to 0^+}P(X\leq x\mid y-\Delta y<Y\leq y)\\ =&\lim_{\Delta y\to 0^+}\frac{P(X\leq x, y-\Delta y<Y\leq y)}{P(y-\Delta y<Y\leq y)} \end{aligned}

    存在,则称其为Y=yY=y条件下XX的条件分布函数,记为P(XxY=y)P(X\leq x\mid Y=y)FXY(xy)F_{X\mid Y}(x\mid y)

# 条件分布列

  • (X,Y)(X,Y)的联合分布列为P(X=xi,Y=yj)=Pij,i,j=1,2,P(X=x_i,Y=y_j)=P_{ij},i,j=1,2,\cdots,若P(Y=yj)>0P(Y=y_j)>0,则Y=yjY=y_j条件下XX的条件分布列为

    P(X=xiY=yj)=P(X=xi,Y=yj)P(Y=yj)=pijkpkj,i=1,2,P(X=x_i\mid Y=y_j)=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}=\frac{p_{ij}}{\sum_k p_{kj}},i=1,2,\cdots

# 条件概率密度函数

  • (X,Y)(X,Y)的联合概率密度函数为p(x,y)p(x,y)XXYY的边际概率密度函数分别为pX(x)p_X(x)pY(y)p_Y(y),则Y=yY=ypY(y)>0p_Y(y)>0)条件下XX的条件分布函数为

    FXY(xy)=xp(u,y)pY(y)duF_{X\mid Y}(x\mid y)=\int_{-\infty}^x\frac{p(u,y)}{p_Y(y)}du

    其中p(x,y)pY(y)\frac{p(x,y)}{p_Y(y)}被称为Y=yY=y条件下XX的条件概率密度函数,记为pXY(xy)p_{X\mid Y}(x\mid y).
    • 公式推导:

      P(XxyΔy<Yy)=xyΔyyp(u,v)dudv=yΔyy(xp(u,v)du)dv\begin{aligned} P(X\leq x\mid y-\Delta y<Y\leq y)&=\int_{-\infty}^x\int_{y-\Delta y}^y p(u,v)dudv\\ &=\int_{y-\Delta y}^y(\int_{-\infty}^xp(u,v)du)dv \end{aligned}

      limΔy0+1ΔyP(XxyΔy<Yy)=limΔy0+1ΔyyΔyy(xp(u,v)du)dv=xp(u,y)du\begin{aligned} &\lim_{\Delta y\to 0^+}\frac{1}{\Delta y}P(X\leq x\mid y-\Delta y<Y\leq y)\\ =&\lim_{\Delta y\to 0^+}\frac{1}{\Delta y}\int_{y-\Delta y}^y(\int_{-\infty}^xp(u,v)du)dv\\ =&\int_{-\infty}^x p(u,y)du \end{aligned}

      最后一个等号由微分中值定理得到。
      同理,

      limΔy0+1ΔyP(yΔy<Yy)=limΔy0+1ΔyyΔyypY(v)dv=pY(y)\begin{aligned} &\lim_{\Delta y\to 0^+}\frac{1}{\Delta y}P(y-\Delta y<Y\leq y)\\ =&\lim_{\Delta y\to 0^+}\frac{1}{\Delta y}\int_{y-\Delta y}^y p_Y(v)dv\\ =&p_Y(y) \end{aligned}

  • 注:在计算连续型随机变量条件概率(如P(X>aY=y)P(X>a\mid Y=y))时不能直接使用条件概率公式(因为P(Y=y)=0P(Y=y)=0),而应该先求条件概率密度函数,再用积分求解。

# 条件数学期望

  • 定义:设(X,Y)(X,Y)为二维随机变量,称

    E(XY=y)={ixiP(X=xiY=y),离散情形xpXY(xy)dx,连续情形E(X\mid Y=y)=\left\{ \begin{aligned} &\sum_i x_iP(X=x_i\mid Y=y),& \text{离散情形}\\ &\int_{-\infty}^\infty xp_{X\mid Y}(x\mid y)dx,& \text{连续情形} \end{aligned} \right.

    Y=yY=y条件下XX的条件数学期望。(在连续情形下,需要pXY(xy)p_{X\mid Y}(x\mid y)有意义)
    • 另外,对于随机变量XX与随机事件BB,若P(B)0P(B)\neq 0,可定义XX关于BB的条件数学期望:

    E(XB)=E(X1B)P(B)E(X\mid B)=\frac{E(X\cdot 1_B)}{P(B)}

    • 在实际运算中,一般会先求出条件分布,再使用期望公式得出。
  • 注:条件数学期望是关于yy的函数,且可能不存在。
  • E(XY=y)=g(y)E(X\mid Y=y)=g(y),则可以考虑随机变量YY的函数g(Y)g(Y),记为E(XY)E(X\mid Y)(即Y=yY=y时取值E(XY=y)E(X\mid Y=y))。
  • 重期望公式:
    • (X,Y)(X,Y)为二维随机变量,且EXEX存在,则EX=E(E(XY))=E(g(Y))EX=E(E(X\mid Y))=E(g(Y)).
    • 本质为全概率公式:

    EX={jE(XY=yj)P(Y=yj),离散情形E(XY=y)pY(y)dy,连续情形EX=\left\{ \begin{aligned} &\sum_j E(X\mid Y=y_j)P(Y=y_j),&\text{离散情形}\\ &\int_{-\infty}^\infty E(X\mid Y=y)p_Y(y)dy,&\text{连续情形} \end{aligned} \right.

  • 条件数学期望的性质:
    • E(aX+bYZ)=aE(XZ)+bE(YZ)E(aX+bY\mid Z)=aE(X\mid Z)+bE(Y\mid Z)
    • E(XX)=XE(X\mid X)=X

# 条件方差

  • 定义:称

    Var(XY=y)=E[(XE(XY=y))2Y=y]=E(X2Y=y)(E(XY=y))2\begin{aligned} &\mathrm{Var}(X\mid Y=y)=E[(X-E(X\mid Y=y))^2\mid Y=y]\\ =&E(X^2\mid Y=y)-(E(X\mid Y=y))^2 \end{aligned}

    Y=yY=yXX的条件方差(也为yy的函数)
  • 类似有Var(XY)\mathrm{Var}(X\mid Y)YY的函数
  • 条件方差公式:VarX=E(Var(XY))+Var(E(XY))\mathrm{Var}X=E(\mathrm{Var}(X\mid Y))+\mathrm{Var}(E(X\mid Y))
    • 简单证明(基于重期望公式):

      E(Var(XY))+Var(E(XY))=E[E(X2Y)(E(XY))2]+E[(E(XY))2][E[E(XY)]]2=E[E(X2Y)][E[E(XY)]]2=EX2(EX)2=VarX\begin{aligned} &E(\mathrm{Var}(X\mid Y))+\mathrm{Var}(E(X\mid Y))\\ &=E[E(X^2\mid Y)-(E(X\mid Y))^2]+E[(E(X\mid Y))^2]-[E[E(X\mid Y)]]^2\\ &=E[E(X^2\mid Y)]-[E[E(X\mid Y)]]^2\\ &=EX^2-(EX)^2=\mathrm{Var}X \end{aligned}

# 极限理论

# 随机变量序列的收敛性

  1. 几乎处处收敛(依概率11收敛)
    • 定义:若随机变量序列{Xn,n1}\{X_n,n\geq 1\}满足

      P(limnXn=X)=1P(\lim_{n\to\infty}X_n=X)=1

      则称{Xn,n1}\{X_n,n\geq 1\}几乎处处收敛到XX(记为Xna.s.XX_n\stackrel{a.s.}{\longrightarrow}X
    • 样本点角度定义:

      P({ω:limnXn(ω)=X(ω)})=1P(\{\omega:\lim_{n\to\infty} X_n(\omega)=X(\omega)\})=1

      即满足Xn(ω)X(ω)(n)X_n(\omega)\nrightarrow X(\omega)\hspace{0.5em}(n\to\infty)ω\omega发生的概率为00
  2. 依概率收敛
    • 定义:若ϵ>0,\forall\epsilon>0,

      limnP(XnXϵ)=0\lim_{n\to\infty}P(|X_n-X|\geq\epsilon)=0

      则称{Xn,n1}\{X_n,n\geq 1\}依概率收敛到XX(记为XnPXX_n\stackrel{P}{\longrightarrow}X
    • 与几乎处处收敛的区别:“几乎处处收敛”针对随机变量取值取极限,而“依概率收敛”针对随机变量偏离的概率求极限
  3. 依分布收敛
    • 定义:设随机变量XnX_n的分布函数为Fn(x)F_n(x),随机变量XX的分布函数为F(x)F(x),如果对于F(x)F(x)的任意连续点xx,有

      limnFn(x)=F(x)\lim_{n\to\infty}F_n(x)=F(x)

      则称{Xn,n1}\{X_n,n\geq 1\}依分布收敛到XX(记为XndXX_n\stackrel{d}{\longrightarrow}XXnLXX_n\stackrel{L}{\longrightarrow}X),也称{Fn,n1}\{F_n,n\geq 1\}弱收敛于FF(记为FnwFF_n\stackrel{w}{\longrightarrow}F

# 性质

  1. 几乎处处收敛性质
    • 下面四个条件等价:

      Xna.s.XP(k=1n=1m=n{XmX1k})=0ϵ>0,P(n=1m=n{XmXϵ})=0ϵ>0,limnP(m=n{XmXϵ})=0\begin{gather} X_n\stackrel{a.s.}{\longrightarrow}X\\ P(\bigcup_{k=1}^\infty\bigcap_{n=1}^\infty\bigcup_{m=n}^\infty\{|X_m-X|\geq\frac{1}{k}\})=0\\ \forall\epsilon>0,P(\bigcap_{n=1}^\infty\bigcup_{m=n}^\infty\{|X_m-X|\geq\epsilon\})=0\\ \forall\epsilon>0,\lim_{n\to\infty}P(\bigcup_{m=n}^\infty\{|X_m-X|\geq\epsilon\})=0 \end{gather}

    • Borel-Cantelli引理:设{An,n1}\{A_n,n\geq 1\}(Ω,F,P)(\Omega,\mathcal{F},P)中的随机事件列,记

      {An,i.o.}=n=1m=nAm\{A_n,i.o.\}=\bigcap_{n=1}^\infty\bigcup_{m=n}^\infty A_m

      表示为“事件AnA_n发生无穷多次”(infinity often),那么:
      • n=1P(An)<\sum_{n=1}^\infty P(A_n)<\infty,则P(An,i.o.)=0P(A_n,i.o.)=0
      • {An,n1}\{A_n,n\geq 1\}为相互独立的事件列,且n=1p(An)=\sum_{n=1}^\infty p(A_n)=\infty,则P(An,i.o.)=1P(A_n,i.o.)=1
    • 那么由引理可得:
      • ϵ>0,n=1P(XnXϵ)<\forall\epsilon>0,\sum_{n=1}^\infty P(|X_n-X|\geq\epsilon)<\infty,则Xna.s.XX_n\stackrel{a.s.}{\longrightarrow}X
      • {Xn,n1}\{X_n,n\geq 1\}为相互独立的随机变量序列,cc为常数,则

      Xna.s.cϵ>0,n=1P(Xncϵ)<X_n\stackrel{a.s.}{\longrightarrow}c\Longleftrightarrow \forall\epsilon>0,\sum_{n=1}^\infty P(|X_n-c|\geq\epsilon)<\infty

  2. 依概率收敛性质
    • 若随机变量序列{Xn,n1}\{X_n,n\geq 1\}满足limnEXn2=0\lim_{n\to\infty}EX_n^2=0,则XnP0X_n\stackrel{P}{\longrightarrow}0(可使用马尔科夫不等式证明)
    • 计算:设XnPX,YnPYX_n\stackrel{P}{\longrightarrow}X,Y_n\stackrel{P}{\longrightarrow}Y,则

      Xn+YnPX+YXnYnPXY\begin{aligned} X_n+Y_n\stackrel{P}{\longrightarrow}X+Y\\ X_nY_n\stackrel{P}{\longrightarrow}XY \end{aligned}

    • 判别:若XnPXX_n\stackrel{P}{\longrightarrow}X,则
      • ff为定义在R\mathbb{R}上的连续函数,则f(Xn)Pf(X)f(X_n)\stackrel{P}{\longrightarrow}f(X)
      • limnE(XnX1+XnX)=0 lim_{n\to\infty}E(\frac{|X_n-X|}{1+|X_n-X|})=0

  3. 依分布收敛性质
    • Slutsky定理:若XndX,YnPcX_n\stackrel{d}{\longrightarrow}X,Y_n\stackrel{P}{\longrightarrow}ccc为常数),则
      • Xn+YndX+cX_n+Y_n\stackrel{d}{\longrightarrow}X+c
      • XnYndcXX_nY_n\stackrel{d}{\longrightarrow}cX
      • c0,Yn0c\neq 0,Y_n\neq 0时,XnYndXc\frac{X_n}{Y_n}\stackrel{d}{\longrightarrow}\frac{X}{c}

# 三种收敛之间的关系

  1. Xna.s.XX_n\stackrel{a.s.}{\longrightarrow}X蕴含XnPXX_n\stackrel{P}{\longrightarrow}X,反之不成立
  2. XnPXX_n\stackrel{P}{\longrightarrow}X\Longleftrightarrow对每个子列{Xnk,k1}\{X_{n_k},k\geq 1\},存在子子列{Xnkj,j1}\{X_{n_{k_j}},j\geq 1\}满足Xnkja.s.XX_{n_{k_j}}\stackrel{a.s.}{\longrightarrow}X
  3. XnPXX_n\stackrel{P}{\longrightarrow}X蕴含XndXX_n\stackrel{d}{\longrightarrow}X,反之不成立
  4. cc为一个常数,则XndcX_n\stackrel{d}{\longrightarrow}c蕴含XnPcX_n\stackrel{P}{\longrightarrow}c

# 特征函数

  • 前提概念:
    • 复值随机变量:设X,YX,Y(Ω,F,P)(\Omega,\mathcal{F},P)上的实值随机变量,则称Z=X+iYZ=X+iY为复值随机变量(若EX,EYEX,EY存在,则称EZ=EX+iEYEZ=EX+iEYZZ的数学期望);
    • ZZ的共轭随机变量:Z=XiY\overline{Z}=X-iY
    • ZZ的模:Z=X2+Y2|Z|=\sqrt{|X|^2+|Y|^2}
    • 独立性:设Z1=X1+iY1,Z2=X2+iY2Z_1=X_1+iY_1,Z_2=X_2+iY_2,若X1,Y1X_1,Y_1分别与X2,Y2X_2,Y_2相互独立,则称Z1Z_1Z2Z_2相互独立。
      • 另一种形式:若XXYY相互独立,则eiXe^{iX}eiYe^{iY}相互独立
  • 定义:设XX为随机变量,其分布函数为FF,则称复值函数

    f(t)=EeitX=E[cos(tX)+isin(tX)]=E[cos(tX)]+iE[sin(tX)]f(t)=Ee^{itX}=E[\cos(tX)+i\sin(tX)]=E[\cos(tX)]+iE[\sin(tX)]

    XX(或FF)的特征函数。
    • 任何随机变量(或概率分布)的特征函数均存在(因为eitX=1<|e^{itX}|=1<\infty
  • 常见分布特征函数:
    分布 特征函数
    b(1,p)b(1,p) peit+1ppe^{it}+1-p
    Ge(p)Ge(p) peit1(1p)eit\frac{pe^{it}}{1-(1-p)e^{it}}
    P(λ)P(\lambda) eλ(eit1)e^{\lambda(e^{it}-1)}
    U(0,1)U(0,1) {eit1it,t01,t=0\left\{\begin{aligned}&\frac{e^{it-1}}{it},&t\neq 0\\&1,&t=0\end{aligned}\right.
    Exp(λ)Exp(\lambda) λλit\frac{\lambda}{\lambda-it}
    N(0,1)N(0,1) et22e^{-\frac{t^2}{2}}

# 特征函数的性质

  1. f(0)=1,f(t)1f(0)=1,|f(t)|\leq 1
  2. f(t)=f(t)f(-t)=\overline{f(t)}(共轭)
  3. a,ba,b为常数,Y=aX+bY=aX+b,则fY(t)=eibtfX(at)f_Y(t)=e^{ibt}f_X(at)
  4. XXYY相互独立,则fX+Y(t)=fX(t)fY(t)f_{X+Y}(t)=f_X(t)f_Y(t) 比卷积公式好记
  5. 特征函数与矩的关系:若随机变量XXkk阶矩μk=EXk\mu_k=EX^k存在,则j,1jk,f(t)\forall j,1\leq j\leq k,f(t)jj阶导数存在,且

    f(j)(0)=ijμjf^{(j)}(0)=i^j\mu_j

  • 定理1:设f(t)f(t)为随机变量XX的特征函数,则f(t)f(t)非负定,即对于任意正整数nn,取任意nn个复数z1,,znz_1,\cdots,z_nnn个实数t1,,tnt_1,\cdots,t_n,有

    i,j=1nf(titj)zizj>0\sum_{i,j=1}^n f(t_i-t_j)z_i\overline{z_j}>0

  • 定理2(唯一性定理):概率分布由其特征函数唯一确定。设ff为分布函数FF的特征函数,则

    F(x)=limylimTTTeityeitxi2πtf(t)dtF(x)=\lim_{y\to-\infty}\lim_{T\to\infty}\int_{-T}^T\frac{e^{-ity}-e^{-itx}}{i\cdot 2\pi t}f(t)dt

    (这一公式也被称为逆转公式)
  • 定理3(连续性定理):
    • XndX,fn(n1)X_n\stackrel{d}{\longrightarrow}X, f_n(n\geq 1)XnX_n的特征函数,ffXX的特征函数,则limnfn(t)=f(t),tR\lim_{n\to\infty}f_n(t)=f(t),t\in\mathbb{R}
    • ff00点连续,limnfn(t)=f(t)\lim_{n\to\infty}f_n(t)=f(t)对任意tRt\in\mathbb{R}成立,则XndXX_n\stackrel{d}{\longrightarrow}XXn,XX_n,X同上)
      • 注:上面条件中ff00点连续是为了保证limnfn(t)\lim_{n\to\infty}f_n(t)为分布函数。

# 多维随机变量的特征函数

  • 定义:设X=(X1,,Xd)T\mathbf{X}=(X_1,\cdots,X_d)^Tdd维随机变量,则称

    f(t1,,td)=EeitTX=Eexp{ii=1dtiXi}f(t_1,\cdots,t_d)=Ee^{i\mathbf{t}^T\mathbf{X}}=E\operatorname*{exp}\{i\sum_{i=1}^dt_iX_i\}

    X\mathbf{X}的特征函数,这里t=(t1,,td)TRd\mathbf{t}=(t_1,\cdots,t_d)^T\in\mathbb{R}^d
  • 例:设(X,Y)(X,Y)服从二维正态分布N(0,1;0,1;ρ)N(0,1;0,1;\rho),则(X,Y)(X,Y)的特征函数为

    f(t1,t2)=Eexp[i(t1X+t2Y)]=exp{t12+t22+2ρt1t22}f(t_1,t_2)=E\operatorname*{exp}[i(t_1X+t_2Y)]=\operatorname*{exp}\{-\frac{t_1^2+t_2^2+2\rho t_1t_2}{2}\}

# 矩母函数(特征函数的实数版本)

  • 定义:设XX为一随机变量,对于tRt\in\mathbb{R}使得E[etX]<E[e^{tX}]<\infty,则称

    MX(t)=E[etX]M_X(t)=E[e^{tX}]

    XX的矩母函数。
  • 注:矩母函数不一定对所有tRt\in\mathbb{R}均存在(比特征函数条件更严格)
  • X=(X1,,Xd)T\mathbf{X}=(X_1,\cdots,X_d)^Tdd维随机变量,则称

    MX(t)=EetTX=Eexp{i=1dtiXi}M_X(\mathbf{t})=Ee^{\mathbf{t}^T\mathbf{X}}=E\operatorname*{exp}\{\sum_{i=1}^dt_iX_i\}

    X\mathbf{X}的特征函数,这里t=(t1,,td)TRd\mathbf{t}=(t_1,\cdots,t_d)^T\in\mathbb{R}^d
  • 性质:
    1. 若随机变量XXYY相互独立,则MX+Y(t)=MX(t)MY(t)M_{X+Y}(t)=M_X(t)M_Y(t)(与特征函数相同)
    2. 与原点矩的关系(基于泰勒展开):MX(n)(t)=E[XnetX]MX(n)(0)=E[Xn]=μnM_X^{(n)}(t)=E[X^ne^{tX}]\Longrightarrow M_X^{(n)}(0)=E[X^n]=\mu_n
    3. 与中心矩的关系:设μ=EX,MXμ(t)=E[et(Xμ)]=eμMX(t)\mu=EX,M_{X-\mu}(t)=E[e^{t(X-\mu)}]=e^{-\mu}M_X(t),则
      MXμ(n)(t)=E[(Xμ)net(Xμ)]MXμ(n)(0)=E[(Xμ)n]=νnM_{X-\mu}^{(n)}(t)=E[(X-\mu)^ne^{t(X-\mu)}]\Longrightarrow M_{X-\mu}^{(n)}(0)=E[(X-\mu)^n]=\nu_n
  • 常见分布矩母函数(基本就是特征函数把itit换成了tt):
    分布 矩母函数
    b(n,p)b(n,p) (pet+1p)n(pe^{t}+1-p)^n
    Ge(p)Ge(p) peit1(1p)eit\frac{pe^{it}}{1-(1-p)e^{it}}
    P(λ)P(\lambda) eλ(et1)e^{\lambda(e^{t}-1)}
    Exp(λ)Exp(\lambda) λλt,t<λ\frac{\lambda}{\lambda-t},\forall t<\lambda
    N(0,1)N(0,1) et22e^{\frac{t^2}{2}}

# 大数定律

  1. 伯努利大数定律
    • 设一次试验中事件AA发生的概率为pp,记SnS_nnn次独立实验中事件AA的发生次数,则nn\to\infty时,

      SnnPp\frac{S_n}{n}\stackrel{P}{\longrightarrow}p

  2. (弱)大数定律
    • 定义:对于随机变量序列{Xn,n1}\{X_n,n\geq 1\},若存在数列{an,n1}\{a_n,n\geq 1\}{bn,n1}\{b_n,n\geq 1\}{bn}\{b_n\}单调增且趋于无穷),且有nn\to\infty时,

      SnanbnP0\frac{S_n-a_n}{b_n}\stackrel{P}{\longrightarrow}0

      其中Sn=k=1nXkS_n=\sum_{k=1}^nX_k.则称XnX_n满足(弱)大数定律。
    • 注1:如无特别说明,一般取an=ESn,bn=na_n=ES_n,b_n=n,即

      SnESnnP0\frac{S_n-ES_n}{n}\stackrel{P}{\longrightarrow}0

    • 注2:若{Xn}\{X_n\}独立同分布,上式也等价于

      limnP(k=1nXknEX1ϵ)=0\lim_{n\to\infty}P(|\frac{\sum_{k=1}^nX_k}{n}-EX_1|\geq\epsilon)=0

      (伯努利大数定律就是Xkb(1,p)X_k\sim b(1,p)的情形)
  3. 其他大数定律(均对于随机变量序列{Xn,n1}\{X_n,n\geq 1\},并设Sn=k=1nXkS_n=\sum_{k=1}^nX_k,满足下述条件之一即满足(弱)大数定律)
    • 切比雪夫大数定律{Xn,n1}\{X_n,n\geq 1\}两两不相关,且{VarXn}\{\mathrm{Var}X_n\}一致有界;
    • 马尔科夫大数定律:马尔科夫条件成立,即limnVarSnn2=0\lim_{n\to\infty}\frac{\mathrm{Var}S_n}{n^2}=0
    • 辛钦大数定律{Xn,n1}\{X_n,n\geq 1\}独立同分布且EX1EX_1存在。
  • 相互关系:
    • 伯努利大数定律是切比雪夫大数定律的特例;切比雪夫大数定律是马尔科夫大数定律的推论(前者成立,后者一定成立);马尔科夫大数定律可以由切比雪夫不等式推得:

    P(SnESnnϵ)=P(SnESnnϵ)VarSnn2ϵ20(n)P(|\frac{S_n-ES_n}{n}|\geq \epsilon)=P(|S_n-ES_n|\geq n\epsilon)\leq\frac{\mathrm{Var}S_n}{n^2\epsilon^2}\to 0(n\to\infty)

    • 辛钦大数定律可以用特征函数的连续性定理证明

# (弱)大数定律的应用

  • 蒙特卡洛法计算定积分:

    I=01f(x)dx=01f(x)1dx=E(f(X))(XU(0,1))=EY(Y=F(X))\begin{aligned} I=\int_0^1f(x)dx&=\int_0^1f(x)\cdot 1dx\\ &=E(f(X))\hspace{1em}(X\sim U(0,1))\\ &=EY\hspace{1em}(Y=F(X)) \end{aligned}

    故可以在(0,1)(0,1)中随机生成nn个均匀分布的随机数x1,,xnx_1,\cdots,x_n,再由大数定律,

    I1nk=1nf(xk)I\approx\frac{1}{n}\sum_{k=1}^nf(x_k)

# 更一般的大数定律(不要求数学期望存在)

  • {Xn,n1}\{X_n,n\geq 1\}为相互独立的随机变量序列,对任意n1n\geq 1,记

    Yn,k={Xk,Xkn0,Xk>nY_{n,k}=\left\{ \begin{aligned} &X_k,& |X_k|\leq n\\ &0,& |X_k|>n \end{aligned} \right.

    另记an=k=1nEYn,k,Sn=k=1nXka_n=\sum_{k=1}^nEY_{n,k},S_n=\sum_{k=1}^nX_k,若nn\to\infty时,

    k=1nP(Xk>n)01n2k=1nEYn,k20\begin{aligned} &\sum_{k=1}^nP(|X_k|>n)\to 0\\ &\frac{1}{n^2}\sum_{k=1}^nEY_{n,k}^2\to 0 \end{aligned}

    则有

    SnannP0\frac{S_n-a_n}{n}\stackrel{P}{\longrightarrow}0

    {Xn,n1}\{X_n,n\geq 1\}满足大数定律。
  • 利用这一构造,也可以证明辛钦大数定律(略)。

# 强大数定律

  • 定义:对于随机变量序列{Xn,n1}\{X_n,n\geq 1\},若存在数列{an,n1}\{a_n,n\geq 1\}{bn,n1}\{b_n,n\geq 1\}{bn}\{b_n\}单调增且趋于无穷),且有nn\to\infty时,

    Snanbna.s.0\frac{S_n-a_n}{b_n}\stackrel{a.s.}{\longrightarrow}0

    其中Sn=k=1nXkS_n=\sum_{k=1}^nX_k.则称XnX_n满足强大数定律。
    • 特别地,当{Xn,n1}\{X_n,n\geq 1\}独立同分布,且数学期望EX1=μEX_1=\mu存在,则有:nn\to\infty时,

    Snna.s.μ\frac{S_n}{n}\stackrel{a.s.}{\longrightarrow}\mu

# 中心极限定理

  • 与大数定律的区别:大数定律研究的是随机变量和的均值与和的期望的关系;而中心极限定理研究的是随机变量和的分布与正态分布的关系
  • 定义:设{Xn,n1}\{X_n,n\geq 1\}为随机变量序列,Sn=k=1n,n1S_n=\sum_{k=1}^n,n\geq 1,若数学期望ESnES_n与方差VarSn\mathrm{Var}S_n均存在,且

    Sn=SnESnVarSnS^*_n=\frac{S_n-ES_n}{\sqrt{\mathrm{Var}S_n}}

    依分布收敛于标准正态分布N(0,1)N(0,1),则称{Xn,n1}\{X_n,n\geq 1\}满足中心极限定理。
  • 性质:若{Xn,n1}\{X_n,n\geq 1\}满足中心极限定理,则对任意xRx\in\mathbb{R}

    limnP(SnESnVarSnx)=Φ(x)\lim_{n\to\infty}P(\frac{S_n-ES_n}{\sqrt{\mathrm{Var}S_n}}\leq x)=\Phi(x)

    其中Φ\Phi为标准正态分布N(0,1)N(0,1)的分布函数。
  • Lindeberg-Lévy中心极限定理:设{Xn,n1}\{X_n,n\geq 1\}为独立同分布的随机变量序列,数学期望为μ\mu,方差为σ2\sigma^2,则{Xn,n1}\{X_n,n\geq 1\}满足中心极限定理。
    • 可用于近似计算概率:

      P(ak=1nXnb)Φ(bnμσn)Φ(anμσn)P(a\leq\sum_{k=1}^nX_n\leq b)\approx\Phi(\frac{b-n\mu}{\sigma\sqrt{n}})-\Phi(\frac{a-n\mu}{\sigma\sqrt{n}})

      (提示:SnS_n均值为nμn\mu,方差为nσ2n\sigma^2
  • DeMoivre-Laplace中心极限定理:设YnY_n服从二项分布b(n,p)b(n,p),则

    limnP(Ynnpnp(1p)y)=Φ(y)\lim_{n\to\infty}P(\frac{Y_n-np}{\sqrt{np(1-p)}}\leq y)=\Phi(y)

    其中Φ\Phi为标准正态分布N(0,1)N(0,1)的分布函数。
    • 注:由于二项分布为离散分布,正态分布为连续分布,故用正态分布近似二项分布时,需要做以下修正:

      P(k1Ynk2)=P(k10.5<Yn<k2+0.5)Φ(k2+0.5npnp(1p))Φ(k10.5npnp(1p))\begin{aligned} P(k_1\leq Y_n\leq k_2)&=P(k_1-0.5<Y_n<k_2+0.5)\\ &\approx\Phi(\frac{k_2+0.5-np}{\sqrt{np(1-p)}})-\Phi(\frac{k_1-0.5-np}{\sqrt{np(1-p)}}) \end{aligned}

  • 三类应用:已知nnyy,求概率;已知nn和概率,求yy;已知yy和概率,求nn。(具体见题目分类汇编)
  • 中心极限定理比直接用切比雪夫不等式作近似计算精度更好。

# *独立不同分布情形(仅作了解)

  • Lindeberg-Feller条件:对于独立的随机变量序列{Xn,n1}\{X_n,n\geq 1\},若EXn=μn,VarXn=σn2<EX_n=\mu_n,\mathrm{Var}X_n=\sigma_n^2<\infty,记sn=i=1nσi2s_n=\sqrt{\sum_{i=1}^n\sigma_i^2},若ϵ>0\forall\epsilon>0

    1sn2i=1nE(Xiμi)21{Xiμi>ϵsn}0(n)\frac{1}{s_n^2}\sum_{i=1}^n E(X_i-\mu_i)^2\cdot 1_{\{|X_i-\mu_i|>\epsilon s_n\}}\to 0\hspace{1em}(n\to\infty)

    则称{Xn,n1}\{X_n,n\geq 1\}满足Lindeberg-Feller条件。
  • Lindeberg-Feller中心极限定理:若独立随机变量序列{Xn,n1}\{X_n,n\geq 1\}满足Lindeberg-Feller条件,则对任意xRx\in\mathbb{R}

    limnP(i=1n(Xiμi)Snx)=Φ(x)\lim_{n\to\infty}P\left(\frac{\sum_{i=1}^n(X_i-\mu_i)}{S_n}\leq x\right)=\Phi(x)

  • Lyapunov定理:对于独立的随机变量序列{Xn,n1}\{X_n,n\geq 1\}EXn=μn,VarXn=σn2<EX_n=\mu_n,\mathrm{Var}X_n=\sigma_n^2<\infty,记sn=i=1nσi2s_n=\sqrt{\sum_{i=1}^n\sigma_i^2},若存在δ>0\delta>0,满足

    limn1sn2+δi=1nEXiμi2+δ=0,\lim_{n\to\infty}\frac{1}{s_n^{2+\delta}}\sum_{i=1}^n E|X_i-\mu_i|^{2+\delta}=0,

    则对任意xRx\in\mathbb{R}

    limnP(i=1n(Xiμi)Snx)=Φ(x)\lim_{n\to\infty}P\left(\frac{\sum_{i=1}^n(X_i-\mu_i)}{S_n}\leq x\right)=\Phi(x)

    • 注:这里δ\delta常取1122
    • 推论(伯努利分布的中心极限定理):若独立随机变量序列{Xn,n1}\{X_n,n\geq 1\}满足n1,Xnb(1,pn)\forall n\geq 1,X_n\sim b(1,p_n),记Yn=i=1n(Xipi)i=1npi(1pi)Y_n=\frac{\sum_{i=1}^n(X_i-p_i)}{\sqrt{\sum_{i=1}^np_i(1-p_i)}},若i=1pi(1pi)=\sum_{i=1}^\infty p_i(1-p_i)=\infty,则对任意xRx\in\mathbb{R}

      limnP(Ynx)=Φ(x)\lim_{n\to\infty}P(Y_n\leq x)=\Phi(x)

# *Delta方法(也仅作了解)

  • Delta定理:设{Yn,n1}\{Y_n,n\geq 1\}为随机变量序列,FF^*为连续的分布函数,θ\theta为实数,数列{an,n1}\{a_n,n\geq 1\}满足0<an0<a_n\uparrow\infty,且使得

    an(Ynθ)dF,a_n(Y_n-\theta)\stackrel{d}{\longrightarrow}F^*,

    α(θ)\alpha(\theta)θ\theta的函数,且有连续导函数α(θ)0\alpha'(\theta)\neq 0,则

    an(α(Yn)α(θ))α(θ)dF\frac{a_n(\alpha(Y_n)-\alpha(\theta))}{\alpha'(\theta)}\stackrel{d}{\longrightarrow}F^*

    an(α(Yn)α(θ))α(θ)\frac{a_n(\alpha(Y_n)-\alpha(\theta))}{\alpha'(\theta)}an(Ynθ)a_n(Y_n-\theta)具有相同渐近分布FF^*
    • 推论:设随机变量序列{Xn,n1}\{X_n,n\geq 1\}独立同分布,具有数学期望μ\mu和方差σ2\sigma^2,记Xn=1nk=1nXk\overline{X_n}=\frac{1}{n}\sum_{k=1}^nX_k.设α(μ)\alpha(\mu)μ\mu的函数且有连续的导函数α(μ)0\alpha'(\mu)\neq 0,则

      nσα(μ)(α(Xn)α(μ))dN(0,1).\frac{\sqrt{n}}{\sigma\cdot\alpha'(\mu)}(\alpha(\overline{X_n})-\alpha(\mu))\stackrel{d}{\longrightarrow}N(0,1).