机器学习 概率统计基础 随机变量部分

第零章 积分

  • 变上限积分:设积分形式为\(\boxed{I(x)=\int_{v(x)}^{u(x)}f(t,x)\text{d}t}\),则对\(I(x)\)求导得:

    \[\boxed{\frac{\text{d}I}{\text{d}x} = f(v(x), x) \cdot v'(x) – f(u(x), x) \cdot u'(x) + \int_{u(x)}^{v(x)} \frac{\partial f}{\partial x}(t, x) \text{d}t} \]

  • 二重积分\(\boxed{\iint_Df(x,y)\text{d}\sigma=\int_a^b\left[\int_{\phi_1(x)}^{\phi_2(x)}f(x,y)\text{d}y\right]\text{d}x}\)

    • 体积几何意义:以\(D\)为底面,\(f(x,y)\)为顶面的曲顶柱体的体积。
    • 质量几何意义:以\(D\)为面,\(f(x,y)\)为面密度的质量。
    • 口诀
      • 后积先定常数限:先找常数限(如\(a\leq x\leq b\)),然后确定后积\(\text{d}x\),先积\(\text{d}y\),然后对每个固定的\(x\),写出内层变量\(y\)的积分范围\(\phi_1(x)\leq y \leq \phi_2(x)\),最后先写后积的\(\int_a^b\text{d}x\),再写先积\(\int_{\phi_1(x)}^{\phi_2(x)}f(x,y)\text{d}y\)
      • 限内画先积直线:比如区域\(D\)的两侧都是\(x=a\)\(x=b\)这种形式,就在区域中间从下往上画条竖线。
      • 先交写下限\(y=\phi_1(x)\)写在下限。
      • 后交写上限\(y=\phi_2(x)\)写在下限。

第一章 随机事件的概率

一 随机试验与随机事件

  • 试验:对某种特性的观察。

  • 随机试验:满足以下三个条件的试验,记作试验\(E\)

    • 可重复性:在相同条件下可重复进行。
    • 可预知性:每次试验结果不止一个,但所有可能结果已知。
    • 不确定性:每次试验结果不确定。
  • 样本空间:试验\(E\)的全部基本事件组成的集合,记作\(\Omega\)

  • 样本点:样本空间的元素。

  • 随机事件:对随机试验的观察中,试验的结果,记作\(A_1\)\(A_2\)等。

  • 基本事件:随机试验每一个不可再分的结果,记作\(a\)\(b\)等。

  • 必然事件与不可能事件:必然会发生的事件是必然事件。

    • 注意:概率为1的事件不一定是必然事件。

二 随机事件的运算

  • 随机事件的运算

    • 包含\(A \subset B\)

    • 和事件\(A + B\)

    • 差事件\(A – B\)

    • 积事件\(AB\)

    • 事件\(A_1, A_2\)互不相容/互斥\(A_1A_2 = \emptyset\)

    • 事件\(A_1, A_2, \cdots, A_n\)互不相容\(A_iA_j = \emptyset(i\neq j)\)

    • 事件\(A_1, A_2\)对立\(A_1+A_2 = \Omega\)\(A_1=\overline{A_2}\)

    • 交换律、结合律、分配律、德摩根公式

  • 古典概型:记试验\(E\)\(\Omega=\{e_1,e_2,\cdots,e_n\}\),且有限个基本事件等可能发生,则\(P(A)=\dfrac{事件A包含基本事件个数}{基本事件总数n}\)

    • 有界性\(0 ≤ P(A) ≤ 1\)
    • 规范性\(P(\Omega)=1\)\(P(\emptyset)=0\)
    • 单调性: 若 \(A \subset B\),则\(P(A) ≤ P(B)\)
    • 有限可加性: 若\(A_1, A_2, \cdots, A_n\)两两互斥,则\(P(A_1 + A_2 + \cdots + A_n) = P(A_1) + P(A_2) + \cdots + P(A_n)\)
  • 推论

    • 加法公式\(P(A+B)=P(A)+P(B)-P(AB)\)
    • 减法公式\(P(A-B)=P(A\overline{B})\)
    • 对立事件概率\(P(\overline{A})=1-P(A)\)

三 条件概率与全概率公式

  • 条件概率\(P(A|B)=\dfrac{P(AB)}{P(B)}\)

    • 加法公式\(P(A+B|C)=P(A|C)+P(B|C)-P(AB|C)\)
  • 乘法公式:若\(P(B)>0\),则\(P(AB)=P(A|B)P(B)\)

  • 事件的独立性:若\(P(AB)=P(A)P(B)\),则事件\(A\)\(B\)独立。

    • \(P(B)>0\),则\(A, B\)独立\(\iff P(A|B)=P(A)\)

    • 设事件\(A_1,A_2,\cdots,A_n\)相互独立,则:

      \[\begin{array}{l} P(A_1+A_2+\cdots+A_n) & = & 1-P(\overline{A_1+A_2+\cdots+A_n}) \\ & = & 1-P(\overline{A_1}\space\overline{A_2}\cdots\overline{A_n}) \\ & = & 1-P(\overline{A_1})\cdot P(\overline{A_2})\cdots P(\overline{A_n}) \end{array} \]

  • 全概率公式:设\(B_1, B_2,\cdots ,B_n\)\(\Omega\)的一个完整事件组,且\(P(B_i)>0(i=1,2,\cdots,n)\),则:\(P(A)=\sum_{i=1}^nP(A|B_i)P(B_i)\)

    • 完备事件组:①\(B_i, B_j\)两两互斥,②\(B_1+B_2+\cdots+B_n=\Omega\)
  • 贝叶斯公式:设\(B_1, B_2,\cdots ,B_n\)\(\Omega\)的一个完整事件组,且\(P(B_i)>0(i=1,2,\cdots,n)\),则对任意\(P(A)>0\)的事件:\(P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(A|B_i)P(B_i)}{\sum_{i=1}^nP(A|B_i)P(B_i)}\)

第二章 一维随机变量

一 随机变量与分布函数

  • 集合族:幂集的子集,可以理解为“集合的集合”。

  • 事件域:设集合族\(F\)是样本空间\(\Omega\)的某些子集构成的一个集合族,且满足下面三个条件,则称\(F\)\(\Omega\)上的一个事件域

    • 空集、全集在其中\(\empty \in F\)\(\Omega \in F\)
    • 对补运算封闭\(A \in F \Longrightarrow \overline{A} \in F\)
      • 对可列并运算封闭:对任意有限个/可列个\(A_i \in F\),都有 \(A_1+A_2+\cdots+A_n \in F\)
  • 概率测度函数:给定样本空间\(\Omega\)和其上的事件域\(F\),一个概率测度函数是从\(F\)到区间\([0,1]\)的映射\(P: F \rightarrow [0,1]\),并满足下面三条概率公理:

    • 有界性:对任意事件\(A\in F\)\(0 ≤P(A) ≤1\)
    • 规范性\(P(\empty)=0\)\(P(\Omega)=1\)
    • 可列可加性:对任意可列个互斥事件\(A_1,A_2,\cdots,A_n,\cdots\),有:\(P(A_1+A_2+\cdots+A_n+\cdots)=P(A_1)+P(A_2)+\cdots+P(A_n)+\cdots\)
  • 概率的公理化定义:概率测度函数是定义在某个事件域 \(F\) 上的一个满足上述三条性质的函数 \(P\),事件\(A \in F\)的概率是\(P(A)\)

  • 概率空间:一个三元组\((\Omega, F, P)\),包含样本空间、事件域、概率测度函数

  • 随机变量:设\((\Omega, F, P)\)是一个概率空间,则随机变量是一个从样本空间\(\Omega\)到实数集\(\R\)函数\(X: \Omega \rightarrow \R\),并满足下面的条件:

    • 可测性\(\forall x \in \R, \{\omega \in \Omega | X(\omega) \leq x\} \in F\)

    • 可测性简化写法:\(\forall x \in \R, \{X \leq x\} \in F\)

    • 可测性的含义:可以把\(\{X \leq x\}\)这种“所有使得函数值小于等于 \(x\) 的样本点组成的集合”视为一个事件,作为概率测度函数\(P\)的自变量,进而合理谈论积分等数学操作。

    • 注意事项随机变量是一个函数,把样本点映射为数值

  • 分布函数:设\(X\)是一个定义在概率空间\((\Omega, F, P)\)的随机变量,则其累计分布函数(Cumulative Distribution Function, 简称 CDF)记为:

    \[F_X(x)=P(X\leq x)=P(\omega\in \{\omega \in \Omega | X(\omega) \leq x\}),x\in \R \]

    即:对任意实数\(x\)\(F_X(x)\) 表示样本点\(\omega\)满足\(X(\omega) \leq x\)的概率。

  • 分布函数的充要条件

    • 有界性\(0 \leq F(X) \leq 1\)
    • 规范性\(\lim_{x \to -\infty} F_X(x) = 0,\quad \lim_{x \to +\infty} F_X(x) = 1\)
    • 单调不减\(若\ x_1 < x_2,\ 则\ F_X(x_1) \le F_X(x_2)\)
    • 右连续\(\lim_{x \to x_0^+} F_X(x) = F_X(x_0+0) = F_X(x_0)\)
  • 概率计算常用等式小于等于就是函数值,小于就是左极限

    • \(P(X\leq a) = F(a)\)

    • \(P(X < a)=F(a-0)=\lim_{x \to a^-} F_X(x)\)

    • \(P(X=a)=F(a)-F(a-0)\)

    • \(P(a<X\leq b)=P(X\leq b)-P(X\leq a) = F(b)-F(a)\)

二 离散型随机变量

  • 离散型随机变量:函数值只有有限个或可列无限个值的随机变量\(X: \Omega \rightarrow S\)\(S\)是可数集或可列无限集)。

  • 分布律:设离散型随机变量\(X\)的所有可能取值为\(x_1,x_2,\cdots\),则其分布律是一个概率质量函数\(p(x_i)=P(X=x_i)\)。也可以用表格表示:

    \(X\) \(x_1\) \(x_2\) \(\cdots\)
    \(P(X=x_i)\) \(p(x_1)\) \(p(x_2)\) \(\cdots\)

三 连续型随机变量

  • 连续型随机变量概念:可以在某个区间(或多个区间)内取任意实数值。

  • 分布函数\(F_X(x)=P(X\leq x)\)

  • 概率密度函数:如果存在一个非负函数\(f_X(x)\),使得对任意实数\(x\),有:\(F_X(x)=\int_{-\infin}^{x}f_X(t)\text{d}t\),则\(X\)为连续型随机变量,\(f_X(x)\)\(X\)的概率密度函数。另外,如果\(f(x)\)是某个连续型随机变量\(X\)的概率密度函数,当且仅当具有以下三条性质:

    • 可积性\(f(x)\)不必连续,必须可积。
    • 非负性\(\forall x\in \R, f(x)\geq0\)
    • 规范性\(\int_{-\infin}^{+\infin}f(x)\text{d}x=F(+\infin)=1\)
  • \(X\)为连续型随机变量,分布函数\(F_X(X)\),概率密度函数为\(f_X(x)\),则:

    • 分布函数连续\(F_X(x)=\int_{-\infin}^{x}f_X(t)\text{d}t\)
    • 分布函数在概率密度函数连续点可导\(f_X(x)\)在点\(x_0\)连续,则\(F(x)\)在点\(x_0\)可导,且\(F_X'(x_0)=f_X(x_0)\)
    • 单点概率为零\(\forall x\in \R, P(X=x)=F_X(x)-F_X(x-0)=0\)(因为\(F_X(x)\)连续)
    • 区间概率\(P(a<X<b)\)(无论是开区间、闭区间、半开半闭)\(=\int_a^bf_X(x)\text{d}x\)
    • 概率密度函数的广义定义:对任意可测集合\(A\),可将其分解为互不相交的区间或简单集合的并\(A=\cup_{i=1}^{\infin}(a_i,b_i]\),其中各区间可开可并不重叠。由概率的可列可加性和积分的可加性,\(P(X\in \cup_{i=1}^{\infin}(a_i,b_i])=\sum_{i=1}^{\infin}\int_{a_i}^{b_i}f_X(t)\text{d}t\),所以,\(\boxed{P(X\in A)=\int_Af_X(x)\text{d}x}\)
  • 积分表

    • \(\int a^x\text{d}x = \dfrac{a^x}{\ln a}+C(a>0,a\neq 1)\)
    • \(\int e^{\lambda x}\text{d}x = \dfrac{e^{\lambda x}}{\lambda}+C\)
    • \(\int e^{-\lambda x}\text{d}x = -\dfrac{e^{-\lambda x}}{\lambda}+C\)

四 常见随机变量分布

分布名称 类型 概率函数 / 密度函数 \(f(x)\)\(P(X=x)\) 分布函数 \(F(x)\) 期望 \(E(X)\) 方差 \(\text{Var}(X)\)
两点分布
(伯努利分布)
离散 \(\begin{array}{l} P(X=1)=p,\\ P(X=0)=1-p\end{array}\) 阶梯函数:
\(F(x) = \begin{cases} 0 & x < 0 \\ 1-p & 0 \le x < 1 \\ 1 & x \ge 1 \end{cases}\)
\(p\) \(p(1-p)\)
二项分布
\(B(n,p)\)
离散 \(\begin{array}{l} \binom{n}{k} p^k (1-p)^{n-k},\\ k=0,1,\dots,n\end{array}\) \(F(x) = \sum_{k=0}^{\lfloor x \rfloor} \binom{n}{k} p^k (1-p)^{n-k}\) \(np\) \(np(1-p)\)
泊松分布
\(P(\lambda)\)
离散 \(\dfrac{\lambda^k e^{-\lambda}}{k!},\ k=0,1,2,\dots\) \(F(x) = \sum_{k=0}^{\lfloor x \rfloor} \dfrac{\lambda^k e^{-\lambda}}{k!}\) \(\lambda\) \(\lambda\)
超几何分布
\(H(N,K,n)\)
离散 \(\begin{array}{l}\dfrac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}},\\ k=0,1,\dots,\min(n,K)\end{array}\) 无显式表达,可通过累加计算 \(n\cdot\frac{K}{N}\) \(n\cdot\frac{K}{N}\cdot\left(1-\frac{K}{N}\right)\cdot\frac{N-n}{N-1}\)
均匀分布
\(U(a,b)\)
连续 \(f(x) = \dfrac{1}{b-a},\ a \le x \le b\) \(F(x) = \begin{cases} 0 & x < a \\ \dfrac{x-a}{b-a} & a \le x \le b \\ 1 & x > b \end{cases}\) \(\frac{a+b}{2}\) \(\frac{(b-a)^2}{12}\)
指数分布
\(Exp(\lambda)\)
连续 \(f(x) = \lambda e^{-\lambda x},\ x \ge 0\) \(F(x) = 1 – e^{-\lambda x},\ x \ge 0\) \(\frac{1}{\lambda}\) \(\frac{1}{\lambda^2}\)
伽马分布
\(\Gamma(k,\theta)\)
连续 \(\begin{array}{l}f(x) = \dfrac{x^{k-1}e^{-x/\theta}}{\theta^k \Gamma(k)},\\ x > 0\end{array}\) 无显式表达,需数值积分 \(k\theta\) \(k\theta^2\)
正态分布
\(N(\mu,\sigma^2)\)
连续 \(f(x) = \dfrac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) \(F(x) = \Phi\left( \dfrac{x – \mu}{\sigma} \right)\),其中 \(\Phi\) 是标准正态分布函数 \(\mu\) \(\sigma^2\)
  • 指数分布性质

    • 分布函数\(F(x)=\int_0^x\lambda e^{-\lambda t}\text{d}t=[-e^{-\lambda t}]_0^x=1-e^{-\lambda x}\)(注意下边是0)。
    • \(P(X>a)=e^{-\lambda a}(a>0)\)
    • 无记忆性\(P(X>s+t|X>s)=P(X>t)\),其中\(s,t>0\)
  • 正态分布性质:若\(X\sim N(\mu, \sigma^2)\),则:

    • 对称性\(P(X>\mu)=P(X<\mu)=\dfrac{1}{2}\)
    • 线性性\(Y=aX+b\sim N(a\mu+b, a^2\sigma^2)\)
    • 标准化\(Z=\dfrac{X-\mu}{\sigma}\sim N(0,1)\),故\(P(a<X\leq b)=\Phi(\dfrac{b-\mu}{\sigma})-\Phi(\dfrac{a-\mu}{\sigma})\)
    • 独立正态变量的线性组合仍服从正态分布\(X\sim N(\mu_1, \sigma_1^2),Y\sim N(\mu_2, \sigma_2^2)\),且\(X\)\(Y\)相互独立,则非零线性组合\(aX+bY\sim N(a\mu_1+b\mu_2,a^2\sigma_1^2+b^2\sigma_2^2)\)

\(Y=g(X)\)的分布

  • 离散型:多加一行表格。
  • 连续型
    • 分布函数定义\(F_Y(y)=P(Y\leq y)=P(g(X)\leq y)=\int_{g(x)\leq y}f(x)\text{d}x\)
    • 解不等式:解\(g(x)\leq y\),得\(x\)的解集\(\{x|g(x)\leq y\}\),记作\(A\)
      • \(y\)\(A\)上单调递增:反函数求解:\(F_Y(y)=P(X\leq h(y))=F_X(h(y))\),其中\(h(y)\)\(g(x)\)的反函数。
      • \(y\)\(A\)上单调递减:\(F_Y(y)=P(X\geq h(y))=1-P(X< h(y))=1-F_X(h(y))\)
      • \(y\)\(A\)上非单调,需分区间讨论\(x\)的取值范围。
    • 第二种理解\(P(g(X)\leq y)=\boxed{P(\omega\in \{\omega\in \Omega|g(X(\omega))\leq y\})=P(X(\omega)\in\{x\in \R|g(x)\leq y\})=\int_{g(x)\leq y}f_X(x)\text{d}x}\)
      • 框式解释:因为\(X(\omega)\)是实数,所以\(\boxed{ \{ \omega\in \Omega|g(X(\omega))\leq y \} = \{ \omega\in\Omega|X(\omega)\in\{x\in\R|g(x)\leq y \} \} }\) 。由于这两个事件是同一事件,所以把二者代入概率测度函数,函数值相等: \(P(g(X(\omega))\leq y)=P(X(\omega)\in \{x\in\R|g(x)\leq y\})\)。根据概率密度函数的广义定义,\(P(X\in A)=\int_Af_X(x)\text{d}x\),所以把\(A=\{x\in\R|g(x)\leq y\}\)代入左式,得到上述式子。
      • 注意事项:框式得到的实际上是勒贝格积分,\(A\)为区间或分段区间时会退化到黎曼积分

第三章 二维随机变量

一 二维随机变量、联合分布函数与边缘分布函数

  • 二维随机变量:设\(X, Y\)是定义在同一概率空间\((\Omega, F, P)\)的两个随机变量,则称\((X,Y): \Omega\rightarrow\R^2\)为一个二维随机变量。

  • 联合分布函数\((X,Y)\)的联合分布函数为\(F_{X,Y}(x,y)=P(X\leq x, Y\leq y),x,y\in \R\),即随机变量\(X\)不超过\(x\)且随机变量\(Y\)不超过\(y\)的联合概率。

    • 有界性\(0≤F_{X,Y}(x,y)≤1\)

    • 规范性:以下四条

      • \(F_{X,Y}(+\infin,+\infin)=1\)
      • \(F_{X,Y}(x,-\infin)=0\)
      • \(F_{X,Y}(-\infin,y)=0\)
      • \(F_{X,Y}(-\infin,-\infin)=0\)
    • 单调不减

      • \(x_1<x_2\),则\(F_{X,Y}(x_1,y)\leq F_{X,Y}(x_2,y)\)
      • \(y_1<y_2\),则\(F_{X,Y}(x,y_1)\leq F_{X,Y}(x,y_2)\)
    • 右连续

      • \(F_{X,Y}(x+0,y)=F_{X,Y}(x,y)\)

      • \(F_{X,Y}(x,y+0)=F_{X,Y}(x,y)\)

  • 概率计算常用等式

    • \(P(x_1<X\leq x_2,y_1<Y\leq y_2) = F_{X,Y}(x_2,y_2)-F_{X,Y}(x_1,y_2)-F_{X,Y}(x_2,y_1)+F_{X,Y}(x_1,y_1)\)
    • 例如:\(P(X>x_1, Y>x_2)=1-F_{X,Y}(x_1,+\infin)-F_{X,Y}(+\infin,y_1)+F_{X,Y}(x_1,y_1)\)
  • 边缘分布函数:忽略一个变量,只对单独一个变量的概率分布。

    • 设二维随机变量\((X,Y)\)的联合分布函数为\(F_{X,Y}(x,y)\),则:
    • \(X\)的边缘分布函数\(F_X(x)=P(X\leq x)=P(X\leq x,Y \leq +\infin)=F_{X,Y}(x,+\infin)\)
    • \(Y\)的边缘分布函数\(F_Y(y)=P(Y\leq y)=P(X \leq +\infin,Y\leq y)=F_{X,Y}(+\infin,y)\)。,

二 二维离散型随机变量

  • 二维离散型随机变量:设\(X, Y\)是定义在同一概率空间\((\Omega, F, P)\)的两个离散型随机变量,则称\((X,Y): \Omega\rightarrow S^2\)为一个二维随机变量(\(S^2\)是可数集或可列无限集)。

  • 联合分布律\(p_{ij}=P(X=x_i,Y=y_j)\)或表格法。

  • 边缘分布律:对于表格法来说,在最下和最右各加一栏求和。

    • \(F_X(x)=P(X=x)=\sum_{y=0}^{+\infin}P(X=x,Y=y)\)
    • \(F_Y(y)=P(Y=y)=\sum_{x=0}^{+\infin}P(X=x,Y=y)\)
  • 条件分布律

    • \(P(X=x_i|Y=y_i)=\dfrac{P(X=x_i,Y=y_i)}{P(Y=y_i)}\)

    • \(P(Y=y_i|X=x_i)=\dfrac{P(X=x_i,Y=y_i)}{P(X=x_i)}\)

  • 判断独立性:联合分布律各行(列)成比例。

三 二维连续型随机变量

  • 二维连续型随机变量:若\((X,Y)\)在平面上的某个区域中可以取任意不可数个实数值,则称\((X,Y): \Omega\rightarrow\R^2\)为一个二维连续型随机变量。

  • 联合分布函数\(F_{X,Y}(x,y)=P(X\leq x, Y\leq y),x,y\in \R\)

  • 联合概率密度函数:若存在非负函数\(f_{X,Y}(x,y)\),使得对任意\(x,y\in \R\)都有:\(F_{X,Y}(x,y)=\int_{-\infin}^{y}\int_{-\infin}^{x}f_{X,Y}(u,v)\text{d}u\text{d}v\),则称\(f_{X,Y}(x,y)\)\((X,Y)\)的联合概率密度函数。

    • 广义定义:设\(D\)为平面上任一区域,则\(P((X,Y)\in D)=\iint_{D}f_{X,Y}(x,y)\text{d}x\text{d}y\)
  • 边缘分布函数:忽略一个变量,只关心一个变量情况下的累计概率。

    • \(X\)的边缘分布函数:\(F_X(x) = P(X \le x) = \lim_{y \to +\infty} F_{X,Y}(x, y)\)
    • \(Y\)的边缘分布函数:\(F_Y(y) = P(Y \le y) = \lim_{x \to +\infty} F_{X,Y}(x, y)\)
  • 边缘概率密度函数:保留关心的维度,把不关心的维度“积掉”

    • \(X\)的边缘概率密度函数:竖线,\(f_X(x)=\int_{-\infty}^{+\infin} f_{X,Y}(x, y)\text{d}y\)
    • \(Y\)的边缘概率密度函数:横线,\(f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y)\text{d}x\)
    • 证明方法:由于\(F_X(x) = \lim_{y \to +\infin}F_{X,Y}(x,y)= \int_{-\infty}^{x} \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v\text{d}u=\int_{-\infty}^{x}\left( \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v \right) \text{d}u\),所以\(f_X(x)=\dfrac{\text{d}}{\text{d}x}\left[\int_{-\infty}^{x}\left( \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v \right) \text{d}u\right]\),记\(g(u)= \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v\),则\(f_X(x)=\dfrac{\text{d}}{\text{d}x}\left[\int_{-\infty}^{x}g(u) \text{d}u\right]=g(x)\)(变上限积分)
  • 条件分布函数与条件概率密度

    • \(X\)的条件分布函数为:\(F_{X|Y}(x|y)=P(X\leq x|Y=y)=\dfrac{\int_{-\infin}^x f_{X,Y}(u,y)\text{d}u}{f_Y(y)}\)
    • \(Y\)的条件分布函数为:\(F_{Y|X}(y|x)=P(Y\leq y|X=x)=\dfrac{\int_{-\infin}^y f_{X,Y}(x,v)\text{d}v}{f_X(x)}\)
    • \(X\)的条件概率密度为:\(f_{X|Y}(x|y)=\dfrac{f_{X,Y}(x,y)}{f_Y(y)}\)
    • \(Y\)的条件概率密度为:\(f_{Y|X}(y|x)=\dfrac{f_{X,Y}(x,y)}{f_X(x)}\)
  • 判断两个连续型随机变量是否独立:二者任选其一

    • \(F_{X,Y}(x, y) = F_X(x) \cdot F_Y(y),\quad \forall x, y \in \mathbb{R}\)
    • \(f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y),\quad \text{除了测度为零的集合外}\)
  • 判断两个随机变量是否独立的定义\(\forall A,B\subseteq \R, P(X\in A,且 Y\in B)=P(X\in A)P(Y \in B)\)

    • 推论:若\(X\)\(Y\)相互独立,且\(f(x)\)\(g(y)\)是可测函数,则\(f(X)\)\(g(Y)\)相互独立。

\(Z=g(X,Y)\)的函数的分布

\(F_Z(z)=P(Z\leq z)=P(g(X,Y)\leq z)\),对右边的集合变形:

\[\{\omega\in\Omega|g(X(\omega),Y(\omega))\leq z\}=\{\omega\in\Omega|(X(\omega),Y(\omega))\in\{(x,y)\in\R^2|g(x,y)\leq z\}\} \]

因为等号两边是同一个事件,所以代入概率测度函数得到的函数值相等。记\(A_z=\{(x,y)\in\R^2|g(x,y)\leq z\}\),则\(P(g(X,Y)\leq z)=P((X,Y)\in A_z)\)。根据概率密度函数的广义定义:

\[P((X,Y)\in A)=\iint_{A_z}f_{X,Y}(x,y)\text{d}x\text{d}y \]

所以:

\[\boxed{F_Z(z)=\iint_{g(x,y)\leq z}f_{X,Y}(x,y)\text{d}x\text{d}y} \]

同样,最终得到的是勒贝格积分,但对于连续概率密度函数与规则区域,可视为二维黎曼积分

此外,若\(X_1,X_2,\cdots,X_n\)相互独立,则:

\(Z=\max(X_1,X_2,\cdots,X_n)\)的分布函数为\(F_{max}(z)=F_{X_1}(z)F_{X_2}(z)\cdots F_{X_n}(z)\)

\(Z=\min(X_1,X_2,\cdots,X_n)\)的分布函数为\(F_{min}(z)=1-[1-F_{X_1}(z)][1-F_{X_2}(z)]\cdots [1-F_{X_n}(z)]\)

第四章 数字特征

一 数学期望

  • 离散型随机变量的数学期望:设随机变量\(X\)的分布律为\(P(X=x_i)=p_i\),则期望\(\boxed{E(X)=\sum_{i}x_ip_i}\)
  • 离散型随机变量的函数的数学期望:设随机变量\(X\)的分布律为\(P(X=x_i)=p_i\)\(g(x)\)是实值函数,则\(\boxed{E(g(X))=\sum_ig(x_i)p_i}\)
  • 连续型随机变量的数学期望:设随机变量\(X\)的概率密度函数为\(f_X(x)\),则\(\boxed{E(X)=\int_{-\infin}^{+\infin}xf(x)\text{d}x}\)(绝对收敛)。
  • 连续型随机变量的函数的数学期望:设随机变量\(X\)的概率密度函数为\(f_X(x)\)\(g(x)\)是实值函数,则\(\boxed{E(g(X))=\int_{-\infin}^{+\infin}g(x)f(x)\text{d}x}\)
  • 二维随机变量的函数的数学期望:设\(Z=g(X,Y)\)是二维随机变量\((X,Y)\)的一个实值函数,
    • 离散型\(P(X=x_i,Y=y_j)=p_{ij}\)。则\(Z\)的期望\(\boxed{E(Z)=E(g(X,Y))=\sum_i\sum_jg(x_i,y_j)p_{ij}}\)
    • 连续型:概率密度函数\(f_{X,Y}(x,y)\),则\(Z\)的期望\(\boxed{E(Z)=\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}g(x,y)f(x,y)\text{d}x\text{d}y}\)
  • 数学期望的性质
    • \(E(aX+b)=aE(X)+b\)
    • \(E(X\pm Y)=E(X)\pm E(Y)\)
    • \(X,Y\)相互独立,则\(E(XY)=E(X)E(Y)\)

二 方差

  • \(D(x)\)实际上求\(X\)的函数\(Y=(X-E(X))^2\)的数学期望。
    • 离散型\(P(X=x_i)=p_i\),则\(\boxed{D(X)=E((X-E(X))^2)=\sum_i(x_i-E(X))^2p_i}\)
    • 连续型:概率密度函数\(f_X(x)\),则\(\boxed{D(X)=E((X-E(X))^2)=\int_{-\infin}^{+\infin}(x-E(X))^2f_X(x)\text{d}x}\)
    • \(\boxed{D(X)=E(X^2)-(E(X))^2}\)
  • 方差的性质
    • \(D(aX+b)=a^2D(X)\)
    • \(X,Y\)相互独立,则\(D(X\pm Y)=D(X)+D(Y)\)(注意等号右边是加号

三 协方差和相关系数

  • 协方差:设\(X,Y\)是两个随机变量,期望分别为\(E(X)\)\(E(Y)\),则协方差:\(\boxed{\text{Cov}(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)}\)

  • 协方差的性质

    • \(\text{Cov}(aX+b,cY+d)=ac\text{Cov}(X,Y)\)\(\text{Cov}(X,X)=D(X)\)

      • \(\text{Cov}(X,Y)=\text{Cov}(Y,X)\)\(\text{Cov}(X,C)=0\)
      • \(\text{Cov}(X,Y+Z)=\text{Cov}(X,Y)+\text{Cov}(X,Z)\)\(\text{Cov}(X+Y,Z)=\text{Cov}(X,Z)+\text{Cov}(Y,Z)\)
      • \(D(X\pm Y)=D(X)+D(Y)\pm 2\text{Cov}(X,Y)\)(知三求一)
    • \(X,Y\)相互独立,则\(\text{Cov}(X,Y)=0\)反着不成立

  • 相关系数:设\(X,Y\)是两个随机变量,期望分别为\(E(X)\)\(E(Y)\),方差分别为\(D(X)\)\(D(Y)\),协方差为\(\text{Cov}(X,Y)\)则:\(\text{Cov}(X,Y)\)则:\(\boxed{\rho_{XY}=\dfrac{\text{Cov}(X,Y)}{\sqrt{D(X)D(Y)}}}\)

  • 相关系数的性质

    • \(\rho_{XY}=0\),则称\(X\)\(Y\)不相关

      • 不相关仅表示\(X,Y\)无限性关系,而独立表示\(X,Y\)完全无关系。

      • \(X,Y\)独立则一定不相关,而不相关不能推出独立

    • \(|\rho_{XY}|\leq 1\)\(\rho_{XY}=\rho_{YX}\)\(\rho_{XX}=1\)

    • 不相关的四个等价命题两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解

      \[\boxed{\text{Cov}(X,Y)=0\iff\rho_{XY}=0\iff E(XY)=E(X)E(Y)\iff D(X\pm Y)=D(X)+D(Y)} \]

四 协方差矩阵

  • 随机向量\(\boldsymbol{X}=(X_1,X_2,\cdots,X_n)^T\)的协方差矩阵:设

    \[\boldsymbol{X} = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\ X_n \end{bmatrix},\quad E(\boldsymbol{X}) = \boldsymbol{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix} \]

    则:

    \[\text{Cov}(\boldsymbol{X}) = E \left((\boldsymbol{X} – \boldsymbol{\mu})(\boldsymbol{X} – \boldsymbol{\mu})^T \right) \]

    故:

    \[\boldsymbol{\Sigma} = \text{Cov}(\boldsymbol{X}) = \begin{bmatrix} \text{Cov}(X_1,X_1) & \text{Cov}(X_1,X_2) & \cdots & \text{Cov}(X_1,X_n) \\ \text{Cov}(X_2,X_1) & \text{Cov}(X_2,X_2) & \cdots & \text{Cov}(X_2,X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}(X_n,X_1) & \text{Cov}(X_n,X_2) & \cdots & \text{Cov}(X_n,X_n) \end{bmatrix} \]

    对于二维随机变量\(\boldsymbol{Z}=(X,Y)^T\),由于\(\text{Cov}(X,Y)=\text{Cov}(Y,X)\)\(\text{Cov}(X,X)=D(X)\)\(\text{Cov}(Y,Y)=D(Y)\),所以其协方差矩阵为:

    \[\text{Cov}(\boldsymbol{Z}) = \begin{bmatrix} D(X) & \text{Cov}(X,Y) \\ \text{Cov}(X,Y) & D(Y) \end{bmatrix} \]

  • 特殊性质

    • 如果随机变量 \(X_1, X_2, \cdots, X_n\) 相互独立,根据两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解,所以协方差矩阵是对角矩阵:

      \[\boldsymbol{\Sigma} = \text{Cov}(\boldsymbol{X}) = \begin{bmatrix} D(X_1) & 0 & \cdots & 0 \\ 0 & D(X_2) & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & D(X_n) \end{bmatrix} \]

五 二维正态分布的数字特征

二维正态分布 \((X, Y)\) 的概率密度函数为:

\[f_{X,Y}(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2(1-\rho^2)}\left[ \left(\frac{x – \mu_X}{\sigma_X}\right)^2 – 2\rho\left(\frac{x – \mu_X}{\sigma_X}\right)\left(\frac{y – \mu_Y}{\sigma_Y}\right) + \left(\frac{y – \mu_Y}{\sigma_Y}\right)^2 \right] \right\} \]

其中参数满足:

  • \(\mu_X\)\(X\) 的数学期望;
  • \(\mu_Y\)\(Y\) 的数学期望;
  • \(\sigma_X > 0\)\(X\) 的标准差;
  • \(\sigma_Y > 0\)\(Y\) 的标准差;
  • \(-1 < \rho < 1\)\(X\)\(Y\) 的相关系数。

记作:

\[(X, Y) \sim N(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho) \]

特征 表达式
联合分布 \((X, Y) \sim N(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho)\)
边缘分布 \(X \sim N(\mu_X, \sigma_X^2),\quad Y \sim N(\mu_Y, \sigma_Y^2)\)
数学期望 \(E(X) = \mu_X,\quad E(Y) = \mu_Y\)
方差 \(D(X) = \sigma_X^2,\quad D(Y) = \sigma_Y^2\)
协方差 \(\text{Cov}(X, Y) = \rho \sigma_X \sigma_Y\)
相关系数 \(\rho_{XY} = \rho\)
独立条件 当且仅当 \(\rho = 0\) 时,\(X\)\(Y\) 独立
线性组合分布 \(aX + bY \sim N(a\mu_X + b\mu_Y,\ a^2\sigma_X^2 + b^2\sigma_Y^2 + 2ab\rho\sigma_X\sigma_Y)\)

六 多维正态分布

  • 多维正态分布定义:设 \(\boldsymbol{X} = (X_1, X_2, \ldots, X_n)^T\) 是一个 \(n\) 维随机向量,其期望为:

    \[\boldsymbol{\mu} = E(\boldsymbol{X}) = \begin{bmatrix} E(X_1) \\ E(X_2) \\ \vdots \\ E(X_n) \end{bmatrix} = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix} \]

    其协方差矩阵为:

    \[\boldsymbol{\Sigma} = \text{Cov}(\boldsymbol{X}) = E\left((\boldsymbol{X} – \boldsymbol{\mu})(\boldsymbol{X} – \boldsymbol{\mu})^T\right) \]

    \(\boldsymbol{X}\) 的联合概率密度函数为:

    \[f_{\boldsymbol{X}}(\boldsymbol{x}) = \frac{1}{(2\pi)^{n/2}\text{det}(\boldsymbol{\Sigma})^{1/2}} \exp\left\{ -\frac{1}{2} (\boldsymbol{x} – \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} – \boldsymbol{\mu}) \right\} \]

    其中:

    • \(\boldsymbol{x} = (x_1, x_2, \ldots, x_n)^T\) 是实数向量;
    • \(\boldsymbol{\Sigma}\)\(n \times n\) 协方差矩阵,必须是对称正定矩阵
    • \(\text{det}(\boldsymbol{\Sigma})\) 表示矩阵 \(\boldsymbol{\Sigma}\) 的行列式;

    则称 \(\boldsymbol{X}\) 服从 \(n\) 维正态分布,记作:

    \[\boldsymbol{X} \sim N_n(\boldsymbol{\mu}, \boldsymbol{\Sigma}) \]

    在人工智能相关的论文中,常写作\(\boldsymbol{X} \sim \mathcal{N}_n(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)

  • 二维正态分布的表示

    \[\boldsymbol{X} = \begin{bmatrix} X_1 \\ X_2 \end{bmatrix} \sim \mathcal{N}_n\left( \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}, \begin{bmatrix} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 \end{bmatrix} \right) \]

    如果用\(\boldsymbol{Z}=(X,Y)^T\)表示,则可以写成:

    \[\boldsymbol{Z} = \begin{bmatrix} X \\ Y \end{bmatrix} \sim \mathcal{N}_n\left( \begin{bmatrix} \mu_X \\ \mu_Y \end{bmatrix}, \begin{bmatrix} \sigma_X^2 & \rho_{XY} \sigma_X \sigma_Y \\ \rho_{XY} \sigma_X \sigma_Y & \sigma_Y^2 \end{bmatrix} \right) \]

  • 标准正态分布:设一个 $ n $ 维随机向量:

    \[\boldsymbol{X} = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\ X_n \end{bmatrix} \]

    如果它的每个分量 $ X_i \sim N(0, 1) $,并且各分量之间相互独立,则称这个随机向量服从 n 维标准正态分布,记作:

    \[\boldsymbol{Z} \sim \mathcal{N}_n(\boldsymbol{0}, \boldsymbol{I}_n) \]

    其中:

    • \(\boldsymbol{0}\) 是 $ n $ 维零向量(均值为0);
    • \(\boldsymbol{I}_n\) 是 $ n \times n $ 的单位矩阵(协方差矩阵是对角线为1、其余为0的矩阵),表示各个维度相互独立且方差为1。

七 矩 常用不等式

  • k阶原点矩\(\mu_k’=E(X^k)\)数学期望是一阶原点矩

  • k阶中心距\(\mu_k=E((X-E(X))^k)\)方差是二阶中心距

  • 矩生成函数:设\(X\)为随机变量,其矩生成函数定义为:\(\boxed{M_X(t) = E(e^{tX}) = \int_{-\infty}^{\infty} e^{tx} f_X(x)\text{d}x}\)

    • \(M_X(t)\)\(t=0\)的某个领域内存在且可导,则对任意正整数\(k\),有:\(\boxed{E(X^k)=\dfrac{\text{d}^k}{\text{d}t^k}M_X(t)\Bigg|_{t=0}}\)

    • 即:\(M_X(t)\)的k阶导数在\(t=0\)的值是\(E(X^k)\)

  • 正态分布的矩生成函数

    • \(f_X(x) = \dfrac{1}{\sqrt{2\pi}\sigma} \exp\left( -\dfrac{(x – \mu)^2}{2\sigma^2} \right)\),把它代入\(M_X(t) = E(e^{tX}) = \int_{-\infty}^{\infty} e^{tx} f_X(x)\text{d}x\),合并同类项,得:
    • \(M_X(t) = \int_{-\infty}^{\infty} e^{tx} \cdot \dfrac{1}{\sqrt{2\pi}\sigma} \exp\left( -\dfrac{(x – \mu)^2}{2\sigma^2} \right) \text{d}x= \dfrac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} \exp\left( tx – \dfrac{(x – \mu)^2}{2\sigma^2} \right) \text{d}x\)。完全平方,得:
    • \(M_X(t)=\dfrac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} \exp\left( -\dfrac{1}{2\sigma^2}(x – (\mu + \sigma^2 t))^2 + \dfrac{(\mu + \sigma^2 t)^2 – \mu^2}{2\sigma^2} \right) \text{d}x\)。移动一些常数项,得:
    • \(M_X(t) = \exp\left( \dfrac{(\mu + \sigma^2 t)^2 – \mu^2}{2\sigma^2} \right) \cdot \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \cdot \exp\left( -\dfrac{(x – (\mu + \sigma^2 t))^2}{2\sigma^2} \right) \text{d}x\)
    • 注意到积分内是一个\(N(\mu+\sigma^2t,\sigma^2)\)的正态分布。根据\(\int_{-\infin}^{+\infin}f_X(x)\text{d}x=1\),所以:
    • \(M_X(t) = \exp\left( \dfrac{(\mu + \sigma^2 t)^2 – \mu^2}{2\sigma^2} \right)\),化简,得:\(\boxed{M_X(t) = \exp\left( \mu t + \frac{1}{2} \sigma^2 t^2 \right)}\)
  • 正态分布的原点矩与中心距(把\(t=0\)代入矩生成函数的各阶导数):

    • 一阶原点矩\(M’_X(t) = (\mu + \sigma^2 t) e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X) = \mu\)
    • 二阶原点矩\(M”_X(t) = [(\mu + \sigma^2 t)^2 + \sigma^2] e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X^2) = \mu^2 + \sigma^2\)
    • 三阶原点矩\(M”’_X(t) = [(\mu + \sigma^2 t)^3 + 3\sigma^2(\mu + \sigma^2 t)] e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X^3) = \mu^3 + 3\mu\sigma^2\)
    • 四阶原点矩\(M””_X(t) = [(\mu + \sigma^2 t)^4 + 6\sigma^2(\mu + \sigma^2 t)^2 + 3\sigma^4] e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X^4) = \mu^4 + 6\mu^2\sigma^2 + 3\sigma^4\)
    • 奇数阶中心距\(\mu_k=E((X-E(X))^k)=\int_{-\infin}^{+\infin} (x-\mu)^kf_X(x)\text{d}x=\int_{-\infin}^{+\infin} (x-\mu)^ke^{-\frac{(x-\mu)^2}{2\sigma^2}}\text{d}x\)\(k\)是奇数时,积分符号内的式子关于\(x=\mu\)对称,所以积分结果为0。\(\mu_k=0\)
    • 偶数阶中心距\(\mu_k=\sigma^k(k-1)!!\)(换元法,较为麻烦,这里直接给出结果)
    • 方差的k次方\(D(X^k)=E(X^{2k})-(E(X^k))^2=\mu_{2k}’-\mu_{k}’^2\)\(D(X^2)=4\mu^2\sigma^2+2\sigma^4\)
  • 常用不等式

    • 琴生不等式:若\(g”(x)\geq0\),则\(E(g(X))\geq g(E(X))\),若\(g(x)”\leq0\),则\(E(g(X))\leq g(E(X))\)
    • 柯西不等式\((E(XY))^2\leq E(X^2)E(Y^2)\)
    • 协方差绝对值有界\(|\text{Cov}(X,Y)|\leq \sqrt{D(X)D(Y)}\)