第零章 积分
-
变上限积分:设积分形式为\(\boxed{I(x)=\int_{v(x)}^{u(x)}f(t,x)\text{d}t}\),则对\(I(x)\)求导得:
\[\boxed{\frac{\text{d}I}{\text{d}x} = f(v(x), x) \cdot v'(x) – f(u(x), x) \cdot u'(x) + \int_{u(x)}^{v(x)} \frac{\partial f}{\partial x}(t, x) \text{d}t} \]
-
二重积分:\(\boxed{\iint_Df(x,y)\text{d}\sigma=\int_a^b\left[\int_{\phi_1(x)}^{\phi_2(x)}f(x,y)\text{d}y\right]\text{d}x}\),
- 体积几何意义:以\(D\)为底面,\(f(x,y)\)为顶面的曲顶柱体的体积。
- 质量几何意义:以\(D\)为面,\(f(x,y)\)为面密度的质量。
- 口诀:
- 后积先定常数限:先找常数限(如\(a\leq x\leq b\)),然后确定后积\(\text{d}x\),先积\(\text{d}y\),然后对每个固定的\(x\),写出内层变量\(y\)的积分范围\(\phi_1(x)\leq y \leq \phi_2(x)\),最后先写后积的\(\int_a^b\text{d}x\),再写先积\(\int_{\phi_1(x)}^{\phi_2(x)}f(x,y)\text{d}y\)。
- 限内画先积直线:比如区域\(D\)的两侧都是\(x=a\)、\(x=b\)这种形式,就在区域中间从下往上画条竖线。
- 先交写下限:\(y=\phi_1(x)\)写在下限。
- 后交写上限:\(y=\phi_2(x)\)写在下限。
第一章 随机事件的概率
一 随机试验与随机事件
-
试验:对某种特性的观察。
-
随机试验:满足以下三个条件的试验,记作试验\(E\):
- 可重复性:在相同条件下可重复进行。
- 可预知性:每次试验结果不止一个,但所有可能结果已知。
- 不确定性:每次试验结果不确定。
-
样本空间:试验\(E\)的全部基本事件组成的集合,记作\(\Omega\)。
-
样本点:样本空间的元素。
-
随机事件:对随机试验的观察中,试验的结果,记作\(A_1\)、\(A_2\)等。
-
基本事件:随机试验每一个不可再分的结果,记作\(a\)、\(b\)等。
-
必然事件与不可能事件:必然会发生的事件是必然事件。
- 注意:概率为1的事件不一定是必然事件。
二 随机事件的运算
-
随机事件的运算:
-
包含: \(A \subset B\)
-
和事件: \(A + B\)
-
差事件: \(A – B\)
-
积事件: \(AB\)
-
事件\(A_1, A_2\)互不相容/互斥: \(A_1A_2 = \emptyset\)
-
事件\(A_1, A_2, \cdots, A_n\)互不相容: \(A_iA_j = \emptyset(i\neq j)\)
-
事件\(A_1, A_2\)对立: \(A_1+A_2 = \Omega\)、\(A_1=\overline{A_2}\)
-
交换律、结合律、分配律、德摩根公式
-
-
古典概型:记试验\(E\):\(\Omega=\{e_1,e_2,\cdots,e_n\}\),且有限个基本事件等可能发生,则\(P(A)=\dfrac{事件A包含基本事件个数}{基本事件总数n}\)。
- 有界性:\(0 ≤ P(A) ≤ 1\)
- 规范性: \(P(\Omega)=1\)、 \(P(\emptyset)=0\)
- 单调性: 若 \(A \subset B\),则\(P(A) ≤ P(B)\)
- 有限可加性: 若\(A_1, A_2, \cdots, A_n\)两两互斥,则\(P(A_1 + A_2 + \cdots + A_n) = P(A_1) + P(A_2) + \cdots + P(A_n)\)
-
推论:
- 加法公式:\(P(A+B)=P(A)+P(B)-P(AB)\)
- 减法公式:\(P(A-B)=P(A\overline{B})\)
- 对立事件概率:\(P(\overline{A})=1-P(A)\)
三 条件概率与全概率公式
-
条件概率:\(P(A|B)=\dfrac{P(AB)}{P(B)}\)。
- 加法公式:\(P(A+B|C)=P(A|C)+P(B|C)-P(AB|C)\)
-
乘法公式:若\(P(B)>0\),则\(P(AB)=P(A|B)P(B)\)。
-
事件的独立性:若\(P(AB)=P(A)P(B)\),则事件\(A\)与\(B\)独立。
-
设\(P(B)>0\),则\(A, B\)独立\(\iff P(A|B)=P(A)\)
-
设事件\(A_1,A_2,\cdots,A_n\)相互独立,则:
\[\begin{array}{l} P(A_1+A_2+\cdots+A_n) & = & 1-P(\overline{A_1+A_2+\cdots+A_n}) \\ & = & 1-P(\overline{A_1}\space\overline{A_2}\cdots\overline{A_n}) \\ & = & 1-P(\overline{A_1})\cdot P(\overline{A_2})\cdots P(\overline{A_n}) \end{array} \]
-
-
全概率公式:设\(B_1, B_2,\cdots ,B_n\)为\(\Omega\)的一个完整事件组,且\(P(B_i)>0(i=1,2,\cdots,n)\),则:\(P(A)=\sum_{i=1}^nP(A|B_i)P(B_i)\)。
- 完备事件组:①\(B_i, B_j\)两两互斥,②\(B_1+B_2+\cdots+B_n=\Omega\)。
-
贝叶斯公式:设\(B_1, B_2,\cdots ,B_n\)为\(\Omega\)的一个完整事件组,且\(P(B_i)>0(i=1,2,\cdots,n)\),则对任意\(P(A)>0\)的事件:\(P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(A|B_i)P(B_i)}{\sum_{i=1}^nP(A|B_i)P(B_i)}\)。
第二章 一维随机变量
一 随机变量与分布函数
-
集合族:幂集的子集,可以理解为“集合的集合”。
-
事件域:设集合族\(F\)是样本空间\(\Omega\)的某些子集构成的一个集合族,且满足下面三个条件,则称\(F\)是\(\Omega\)上的一个事件域:
- 空集、全集在其中:\(\empty \in F\),\(\Omega \in F\)
- 对补运算封闭:\(A \in F \Longrightarrow \overline{A} \in F\)
- 对可列并运算封闭:对任意有限个/可列个\(A_i \in F\),都有 \(A_1+A_2+\cdots+A_n \in F\)。
-
概率测度函数:给定样本空间\(\Omega\)和其上的事件域\(F\),一个概率测度函数是从\(F\)到区间\([0,1]\)的映射\(P: F \rightarrow [0,1]\),并满足下面三条概率公理:
- 有界性:对任意事件\(A\in F\),\(0 ≤P(A) ≤1\)
- 规范性:\(P(\empty)=0\),\(P(\Omega)=1\)
- 可列可加性:对任意可列个互斥事件\(A_1,A_2,\cdots,A_n,\cdots\),有:\(P(A_1+A_2+\cdots+A_n+\cdots)=P(A_1)+P(A_2)+\cdots+P(A_n)+\cdots\)
-
概率的公理化定义:概率测度函数是定义在某个事件域 \(F\) 上的一个满足上述三条性质的函数 \(P\),事件\(A \in F\)的概率是\(P(A)\)。
-
概率空间:一个三元组\((\Omega, F, P)\),包含样本空间、事件域、概率测度函数。
-
随机变量:设\((\Omega, F, P)\)是一个概率空间,则随机变量是一个从样本空间\(\Omega\)到实数集\(\R\)的函数\(X: \Omega \rightarrow \R\),并满足下面的条件:
-
可测性:\(\forall x \in \R, \{\omega \in \Omega | X(\omega) \leq x\} \in F\)
-
可测性简化写法:\(\forall x \in \R, \{X \leq x\} \in F\)
-
可测性的含义:可以把\(\{X \leq x\}\)这种“所有使得函数值小于等于 \(x\) 的样本点组成的集合”视为一个事件,作为概率测度函数\(P\)的自变量,进而合理谈论积分等数学操作。
-
注意事项:随机变量是一个函数,把样本点映射为数值
-
-
分布函数:设\(X\)是一个定义在概率空间\((\Omega, F, P)\)的随机变量,则其累计分布函数(Cumulative Distribution Function, 简称 CDF)记为:
\[F_X(x)=P(X\leq x)=P(\omega\in \{\omega \in \Omega | X(\omega) \leq x\}),x\in \R \]
即:对任意实数\(x\),\(F_X(x)\) 表示样本点\(\omega\)满足\(X(\omega) \leq x\)的概率。
-
分布函数的充要条件:
- 有界性:\(0 \leq F(X) \leq 1\)
- 规范性:\(\lim_{x \to -\infty} F_X(x) = 0,\quad \lim_{x \to +\infty} F_X(x) = 1\)
- 单调不减:\(若\ x_1 < x_2,\ 则\ F_X(x_1) \le F_X(x_2)\)。
- 右连续:\(\lim_{x \to x_0^+} F_X(x) = F_X(x_0+0) = F_X(x_0)\)
-
概率计算常用等式:小于等于就是函数值,小于就是左极限
-
\(P(X\leq a) = F(a)\)
-
\(P(X < a)=F(a-0)=\lim_{x \to a^-} F_X(x)\)
-
\(P(X=a)=F(a)-F(a-0)\)
-
\(P(a<X\leq b)=P(X\leq b)-P(X\leq a) = F(b)-F(a)\)
-
二 离散型随机变量
-
离散型随机变量:函数值只有有限个或可列无限个值的随机变量\(X: \Omega \rightarrow S\)(\(S\)是可数集或可列无限集)。
-
分布律:设离散型随机变量\(X\)的所有可能取值为\(x_1,x_2,\cdots\),则其分布律是一个概率质量函数:\(p(x_i)=P(X=x_i)\)。也可以用表格表示:
\(X\) \(x_1\) \(x_2\) \(\cdots\) \(P(X=x_i)\) \(p(x_1)\) \(p(x_2)\) \(\cdots\)
三 连续型随机变量
-
连续型随机变量概念:可以在某个区间(或多个区间)内取任意实数值。
-
分布函数:\(F_X(x)=P(X\leq x)\)。
-
概率密度函数:如果存在一个非负函数\(f_X(x)\),使得对任意实数\(x\),有:\(F_X(x)=\int_{-\infin}^{x}f_X(t)\text{d}t\),则\(X\)为连续型随机变量,\(f_X(x)\)为\(X\)的概率密度函数。另外,如果\(f(x)\)是某个连续型随机变量\(X\)的概率密度函数,当且仅当具有以下三条性质:
- 可积性:\(f(x)\)不必连续,必须可积。
- 非负性:\(\forall x\in \R, f(x)\geq0\)。
- 规范性:\(\int_{-\infin}^{+\infin}f(x)\text{d}x=F(+\infin)=1\)。
-
设\(X\)为连续型随机变量,分布函数\(F_X(X)\),概率密度函数为\(f_X(x)\),则:
- 分布函数连续:\(F_X(x)=\int_{-\infin}^{x}f_X(t)\text{d}t\)
- 分布函数在概率密度函数连续点可导:\(f_X(x)\)在点\(x_0\)连续,则\(F(x)\)在点\(x_0\)可导,且\(F_X'(x_0)=f_X(x_0)\)
- 单点概率为零:\(\forall x\in \R, P(X=x)=F_X(x)-F_X(x-0)=0\)(因为\(F_X(x)\)连续)
- 区间概率:\(P(a<X<b)\)(无论是开区间、闭区间、半开半闭)\(=\int_a^bf_X(x)\text{d}x\)。
- 概率密度函数的广义定义:对任意可测集合\(A\),可将其分解为互不相交的区间或简单集合的并\(A=\cup_{i=1}^{\infin}(a_i,b_i]\),其中各区间可开可并不重叠。由概率的可列可加性和积分的可加性,\(P(X\in \cup_{i=1}^{\infin}(a_i,b_i])=\sum_{i=1}^{\infin}\int_{a_i}^{b_i}f_X(t)\text{d}t\),所以,\(\boxed{P(X\in A)=\int_Af_X(x)\text{d}x}\)。
-
积分表:
- \(\int a^x\text{d}x = \dfrac{a^x}{\ln a}+C(a>0,a\neq 1)\)
- \(\int e^{\lambda x}\text{d}x = \dfrac{e^{\lambda x}}{\lambda}+C\)
- \(\int e^{-\lambda x}\text{d}x = -\dfrac{e^{-\lambda x}}{\lambda}+C\)
四 常见随机变量分布
分布名称 | 类型 | 概率函数 / 密度函数 \(f(x)\) 或 \(P(X=x)\) | 分布函数 \(F(x)\) | 期望 \(E(X)\) | 方差 \(\text{Var}(X)\) |
---|---|---|---|---|---|
两点分布 (伯努利分布) |
离散 | \(\begin{array}{l} P(X=1)=p,\\ P(X=0)=1-p\end{array}\) | 阶梯函数: \(F(x) = \begin{cases} 0 & x < 0 \\ 1-p & 0 \le x < 1 \\ 1 & x \ge 1 \end{cases}\) |
\(p\) | \(p(1-p)\) |
二项分布 \(B(n,p)\) |
离散 | \(\begin{array}{l} \binom{n}{k} p^k (1-p)^{n-k},\\ k=0,1,\dots,n\end{array}\) | \(F(x) = \sum_{k=0}^{\lfloor x \rfloor} \binom{n}{k} p^k (1-p)^{n-k}\) | \(np\) | \(np(1-p)\) |
泊松分布 \(P(\lambda)\) |
离散 | \(\dfrac{\lambda^k e^{-\lambda}}{k!},\ k=0,1,2,\dots\) | \(F(x) = \sum_{k=0}^{\lfloor x \rfloor} \dfrac{\lambda^k e^{-\lambda}}{k!}\) | \(\lambda\) | \(\lambda\) |
超几何分布 \(H(N,K,n)\) |
离散 | \(\begin{array}{l}\dfrac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}},\\ k=0,1,\dots,\min(n,K)\end{array}\) | 无显式表达,可通过累加计算 | \(n\cdot\frac{K}{N}\) | \(n\cdot\frac{K}{N}\cdot\left(1-\frac{K}{N}\right)\cdot\frac{N-n}{N-1}\) |
均匀分布 \(U(a,b)\) |
连续 | \(f(x) = \dfrac{1}{b-a},\ a \le x \le b\) | \(F(x) = \begin{cases} 0 & x < a \\ \dfrac{x-a}{b-a} & a \le x \le b \\ 1 & x > b \end{cases}\) | \(\frac{a+b}{2}\) | \(\frac{(b-a)^2}{12}\) |
指数分布 \(Exp(\lambda)\) |
连续 | \(f(x) = \lambda e^{-\lambda x},\ x \ge 0\) | \(F(x) = 1 – e^{-\lambda x},\ x \ge 0\) | \(\frac{1}{\lambda}\) | \(\frac{1}{\lambda^2}\) |
伽马分布 \(\Gamma(k,\theta)\) |
连续 | \(\begin{array}{l}f(x) = \dfrac{x^{k-1}e^{-x/\theta}}{\theta^k \Gamma(k)},\\ x > 0\end{array}\) | 无显式表达,需数值积分 | \(k\theta\) | \(k\theta^2\) |
正态分布 \(N(\mu,\sigma^2)\) |
连续 | \(f(x) = \dfrac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) | \(F(x) = \Phi\left( \dfrac{x – \mu}{\sigma} \right)\),其中 \(\Phi\) 是标准正态分布函数 | \(\mu\) | \(\sigma^2\) |
-
指数分布性质:
- 分布函数:\(F(x)=\int_0^x\lambda e^{-\lambda t}\text{d}t=[-e^{-\lambda t}]_0^x=1-e^{-\lambda x}\)(注意下边是0)。
- \(P(X>a)=e^{-\lambda a}(a>0)\)。
- 无记忆性:\(P(X>s+t|X>s)=P(X>t)\),其中\(s,t>0\)。
-
正态分布性质:若\(X\sim N(\mu, \sigma^2)\),则:
- 对称性:\(P(X>\mu)=P(X<\mu)=\dfrac{1}{2}\)
- 线性性:\(Y=aX+b\sim N(a\mu+b, a^2\sigma^2)\)
- 标准化:\(Z=\dfrac{X-\mu}{\sigma}\sim N(0,1)\),故\(P(a<X\leq b)=\Phi(\dfrac{b-\mu}{\sigma})-\Phi(\dfrac{a-\mu}{\sigma})\)。
- 独立正态变量的线性组合仍服从正态分布:\(X\sim N(\mu_1, \sigma_1^2),Y\sim N(\mu_2, \sigma_2^2)\),且\(X\)与\(Y\)相互独立,则非零线性组合\(aX+bY\sim N(a\mu_1+b\mu_2,a^2\sigma_1^2+b^2\sigma_2^2)\)。
五 \(Y=g(X)\)的分布
- 离散型:多加一行表格。
- 连续型:
- 分布函数定义:\(F_Y(y)=P(Y\leq y)=P(g(X)\leq y)=\int_{g(x)\leq y}f(x)\text{d}x\)。
- 解不等式:解\(g(x)\leq y\),得\(x\)的解集\(\{x|g(x)\leq y\}\),记作\(A\)。
- 若\(y\)在\(A\)上单调递增:反函数求解:\(F_Y(y)=P(X\leq h(y))=F_X(h(y))\),其中\(h(y)\)是\(g(x)\)的反函数。
- 若\(y\)在\(A\)上单调递减:\(F_Y(y)=P(X\geq h(y))=1-P(X< h(y))=1-F_X(h(y))\)。
- 若\(y\)在\(A\)上非单调,需分区间讨论\(x\)的取值范围。
- 第二种理解:\(P(g(X)\leq y)=\boxed{P(\omega\in \{\omega\in \Omega|g(X(\omega))\leq y\})=P(X(\omega)\in\{x\in \R|g(x)\leq y\})=\int_{g(x)\leq y}f_X(x)\text{d}x}\)。
- 框式解释:因为\(X(\omega)\)是实数,所以\(\boxed{ \{ \omega\in \Omega|g(X(\omega))\leq y \} = \{ \omega\in\Omega|X(\omega)\in\{x\in\R|g(x)\leq y \} \} }\) 。由于这两个事件是同一事件,所以把二者代入概率测度函数,函数值相等: \(P(g(X(\omega))\leq y)=P(X(\omega)\in \{x\in\R|g(x)\leq y\})\)。根据概率密度函数的广义定义,\(P(X\in A)=\int_Af_X(x)\text{d}x\),所以把\(A=\{x\in\R|g(x)\leq y\}\)代入左式,得到上述式子。
- 注意事项:框式得到的实际上是勒贝格积分,但\(A\)为区间或分段区间时会退化到黎曼积分。
第三章 二维随机变量
一 二维随机变量、联合分布函数与边缘分布函数
-
二维随机变量:设\(X, Y\)是定义在同一概率空间\((\Omega, F, P)\)的两个随机变量,则称\((X,Y): \Omega\rightarrow\R^2\)为一个二维随机变量。
-
联合分布函数:\((X,Y)\)的联合分布函数为\(F_{X,Y}(x,y)=P(X\leq x, Y\leq y),x,y\in \R\),即随机变量\(X\)不超过\(x\)且随机变量\(Y\)不超过\(y\)的联合概率。
-
有界性:\(0≤F_{X,Y}(x,y)≤1\)。
-
规范性:以下四条
- \(F_{X,Y}(+\infin,+\infin)=1\)、
- \(F_{X,Y}(x,-\infin)=0\)、
- \(F_{X,Y}(-\infin,y)=0\)、
- \(F_{X,Y}(-\infin,-\infin)=0\)。
-
单调不减:
- 若\(x_1<x_2\),则\(F_{X,Y}(x_1,y)\leq F_{X,Y}(x_2,y)\)。
- 若\(y_1<y_2\),则\(F_{X,Y}(x,y_1)\leq F_{X,Y}(x,y_2)\)。
-
右连续:
-
\(F_{X,Y}(x+0,y)=F_{X,Y}(x,y)\)
-
\(F_{X,Y}(x,y+0)=F_{X,Y}(x,y)\)
-
-
-
概率计算常用等式:
- \(P(x_1<X\leq x_2,y_1<Y\leq y_2) = F_{X,Y}(x_2,y_2)-F_{X,Y}(x_1,y_2)-F_{X,Y}(x_2,y_1)+F_{X,Y}(x_1,y_1)\)
- 例如:\(P(X>x_1, Y>x_2)=1-F_{X,Y}(x_1,+\infin)-F_{X,Y}(+\infin,y_1)+F_{X,Y}(x_1,y_1)\)。
-
边缘分布函数:忽略一个变量,只对单独一个变量的概率分布。
- 设二维随机变量\((X,Y)\)的联合分布函数为\(F_{X,Y}(x,y)\),则:
- \(X\)的边缘分布函数\(F_X(x)=P(X\leq x)=P(X\leq x,Y \leq +\infin)=F_{X,Y}(x,+\infin)\)。
- \(Y\)的边缘分布函数\(F_Y(y)=P(Y\leq y)=P(X \leq +\infin,Y\leq y)=F_{X,Y}(+\infin,y)\)。,
二 二维离散型随机变量
-
二维离散型随机变量:设\(X, Y\)是定义在同一概率空间\((\Omega, F, P)\)的两个离散型随机变量,则称\((X,Y): \Omega\rightarrow S^2\)为一个二维随机变量(\(S^2\)是可数集或可列无限集)。
-
联合分布律:\(p_{ij}=P(X=x_i,Y=y_j)\)或表格法。
-
边缘分布律:对于表格法来说,在最下和最右各加一栏求和。
- \(F_X(x)=P(X=x)=\sum_{y=0}^{+\infin}P(X=x,Y=y)\)。
- \(F_Y(y)=P(Y=y)=\sum_{x=0}^{+\infin}P(X=x,Y=y)\)。
-
条件分布律:
-
\(P(X=x_i|Y=y_i)=\dfrac{P(X=x_i,Y=y_i)}{P(Y=y_i)}\)。
-
\(P(Y=y_i|X=x_i)=\dfrac{P(X=x_i,Y=y_i)}{P(X=x_i)}\)。
-
-
判断独立性:联合分布律各行(列)成比例。
三 二维连续型随机变量
-
二维连续型随机变量:若\((X,Y)\)在平面上的某个区域中可以取任意不可数个实数值,则称\((X,Y): \Omega\rightarrow\R^2\)为一个二维连续型随机变量。
-
联合分布函数:\(F_{X,Y}(x,y)=P(X\leq x, Y\leq y),x,y\in \R\)。
-
联合概率密度函数:若存在非负函数\(f_{X,Y}(x,y)\),使得对任意\(x,y\in \R\)都有:\(F_{X,Y}(x,y)=\int_{-\infin}^{y}\int_{-\infin}^{x}f_{X,Y}(u,v)\text{d}u\text{d}v\),则称\(f_{X,Y}(x,y)\)为\((X,Y)\)的联合概率密度函数。
- 广义定义:设\(D\)为平面上任一区域,则\(P((X,Y)\in D)=\iint_{D}f_{X,Y}(x,y)\text{d}x\text{d}y\)。
-
边缘分布函数:忽略一个变量,只关心一个变量情况下的累计概率。
- \(X\)的边缘分布函数:\(F_X(x) = P(X \le x) = \lim_{y \to +\infty} F_{X,Y}(x, y)\),
- \(Y\)的边缘分布函数:\(F_Y(y) = P(Y \le y) = \lim_{x \to +\infty} F_{X,Y}(x, y)\)。
-
边缘概率密度函数:保留关心的维度,把不关心的维度“积掉”
- \(X\)的边缘概率密度函数:竖线,\(f_X(x)=\int_{-\infty}^{+\infin} f_{X,Y}(x, y)\text{d}y\)。
- \(Y\)的边缘概率密度函数:横线,\(f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y)\text{d}x\)。
- 证明方法:由于\(F_X(x) = \lim_{y \to +\infin}F_{X,Y}(x,y)= \int_{-\infty}^{x} \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v\text{d}u=\int_{-\infty}^{x}\left( \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v \right) \text{d}u\),所以\(f_X(x)=\dfrac{\text{d}}{\text{d}x}\left[\int_{-\infty}^{x}\left( \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v \right) \text{d}u\right]\),记\(g(u)= \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v\),则\(f_X(x)=\dfrac{\text{d}}{\text{d}x}\left[\int_{-\infty}^{x}g(u) \text{d}u\right]=g(x)\)(变上限积分)
-
条件分布函数与条件概率密度:
- \(X\)的条件分布函数为:\(F_{X|Y}(x|y)=P(X\leq x|Y=y)=\dfrac{\int_{-\infin}^x f_{X,Y}(u,y)\text{d}u}{f_Y(y)}\)。
- \(Y\)的条件分布函数为:\(F_{Y|X}(y|x)=P(Y\leq y|X=x)=\dfrac{\int_{-\infin}^y f_{X,Y}(x,v)\text{d}v}{f_X(x)}\)。
- \(X\)的条件概率密度为:\(f_{X|Y}(x|y)=\dfrac{f_{X,Y}(x,y)}{f_Y(y)}\)。
- \(Y\)的条件概率密度为:\(f_{Y|X}(y|x)=\dfrac{f_{X,Y}(x,y)}{f_X(x)}\)。
-
判断两个连续型随机变量是否独立:二者任选其一
- \(F_{X,Y}(x, y) = F_X(x) \cdot F_Y(y),\quad \forall x, y \in \mathbb{R}\)。
- \(f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y),\quad \text{除了测度为零的集合外}\)。
-
判断两个随机变量是否独立的定义:\(\forall A,B\subseteq \R, P(X\in A,且 Y\in B)=P(X\in A)P(Y \in B)\)。
- 推论:若\(X\)与\(Y\)相互独立,且\(f(x)\)与\(g(y)\)是可测函数,则\(f(X)\)与\(g(Y)\)相互独立。
四 \(Z=g(X,Y)\)的函数的分布
由\(F_Z(z)=P(Z\leq z)=P(g(X,Y)\leq z)\),对右边的集合变形:
\[\{\omega\in\Omega|g(X(\omega),Y(\omega))\leq z\}=\{\omega\in\Omega|(X(\omega),Y(\omega))\in\{(x,y)\in\R^2|g(x,y)\leq z\}\} \]
因为等号两边是同一个事件,所以代入概率测度函数得到的函数值相等。记\(A_z=\{(x,y)\in\R^2|g(x,y)\leq z\}\),则\(P(g(X,Y)\leq z)=P((X,Y)\in A_z)\)。根据概率密度函数的广义定义:
\[P((X,Y)\in A)=\iint_{A_z}f_{X,Y}(x,y)\text{d}x\text{d}y \]
所以:
\[\boxed{F_Z(z)=\iint_{g(x,y)\leq z}f_{X,Y}(x,y)\text{d}x\text{d}y} \]
同样,最终得到的是勒贝格积分,但对于连续概率密度函数与规则区域,可视为二维黎曼积分。
此外,若\(X_1,X_2,\cdots,X_n\)相互独立,则:
\(Z=\max(X_1,X_2,\cdots,X_n)\)的分布函数为\(F_{max}(z)=F_{X_1}(z)F_{X_2}(z)\cdots F_{X_n}(z)\),
\(Z=\min(X_1,X_2,\cdots,X_n)\)的分布函数为\(F_{min}(z)=1-[1-F_{X_1}(z)][1-F_{X_2}(z)]\cdots [1-F_{X_n}(z)]\)。
第四章 数字特征
一 数学期望
- 离散型随机变量的数学期望:设随机变量\(X\)的分布律为\(P(X=x_i)=p_i\),则期望\(\boxed{E(X)=\sum_{i}x_ip_i}\)。
- 离散型随机变量的函数的数学期望:设随机变量\(X\)的分布律为\(P(X=x_i)=p_i\),\(g(x)\)是实值函数,则\(\boxed{E(g(X))=\sum_ig(x_i)p_i}\)。
- 连续型随机变量的数学期望:设随机变量\(X\)的概率密度函数为\(f_X(x)\),则\(\boxed{E(X)=\int_{-\infin}^{+\infin}xf(x)\text{d}x}\)(绝对收敛)。
- 连续型随机变量的函数的数学期望:设随机变量\(X\)的概率密度函数为\(f_X(x)\),\(g(x)\)是实值函数,则\(\boxed{E(g(X))=\int_{-\infin}^{+\infin}g(x)f(x)\text{d}x}\)。
- 二维随机变量的函数的数学期望:设\(Z=g(X,Y)\)是二维随机变量\((X,Y)\)的一个实值函数,
- 离散型:\(P(X=x_i,Y=y_j)=p_{ij}\)。则\(Z\)的期望\(\boxed{E(Z)=E(g(X,Y))=\sum_i\sum_jg(x_i,y_j)p_{ij}}\)。
- 连续型:概率密度函数\(f_{X,Y}(x,y)\),则\(Z\)的期望\(\boxed{E(Z)=\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}g(x,y)f(x,y)\text{d}x\text{d}y}\)。
- 数学期望的性质:
- \(E(aX+b)=aE(X)+b\)
- \(E(X\pm Y)=E(X)\pm E(Y)\)
- 若\(X,Y\)相互独立,则\(E(XY)=E(X)E(Y)\)
二 方差
- \(D(x)\)实际上求\(X\)的函数\(Y=(X-E(X))^2\)的数学期望。
- 离散型: \(P(X=x_i)=p_i\),则\(\boxed{D(X)=E((X-E(X))^2)=\sum_i(x_i-E(X))^2p_i}\)。
- 连续型:概率密度函数\(f_X(x)\),则\(\boxed{D(X)=E((X-E(X))^2)=\int_{-\infin}^{+\infin}(x-E(X))^2f_X(x)\text{d}x}\)。
- \(\boxed{D(X)=E(X^2)-(E(X))^2}\)。
- 方差的性质:
- \(D(aX+b)=a^2D(X)\)
- 若\(X,Y\)相互独立,则\(D(X\pm Y)=D(X)+D(Y)\)(注意等号右边是加号)
三 协方差和相关系数
-
协方差:设\(X,Y\)是两个随机变量,期望分别为\(E(X)\)和\(E(Y)\),则协方差:\(\boxed{\text{Cov}(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)}\)
-
协方差的性质:
-
\(\text{Cov}(aX+b,cY+d)=ac\text{Cov}(X,Y)\)、\(\text{Cov}(X,X)=D(X)\)
- \(\text{Cov}(X,Y)=\text{Cov}(Y,X)\)、\(\text{Cov}(X,C)=0\)
- \(\text{Cov}(X,Y+Z)=\text{Cov}(X,Y)+\text{Cov}(X,Z)\)、\(\text{Cov}(X+Y,Z)=\text{Cov}(X,Z)+\text{Cov}(Y,Z)\)
- \(D(X\pm Y)=D(X)+D(Y)\pm 2\text{Cov}(X,Y)\)(知三求一)
-
若\(X,Y\)相互独立,则\(\text{Cov}(X,Y)=0\),反着不成立。
-
-
相关系数:设\(X,Y\)是两个随机变量,期望分别为\(E(X)\)和\(E(Y)\),方差分别为\(D(X)\)和\(D(Y)\),协方差为\(\text{Cov}(X,Y)\)则:\(\text{Cov}(X,Y)\)则:\(\boxed{\rho_{XY}=\dfrac{\text{Cov}(X,Y)}{\sqrt{D(X)D(Y)}}}\)。
-
相关系数的性质:
-
若\(\rho_{XY}=0\),则称\(X\)和\(Y\)不相关。
-
不相关仅表示\(X,Y\)无限性关系,而独立表示\(X,Y\)完全无关系。
-
\(X,Y\)独立则一定不相关,而不相关不能推出独立。
-
-
\(|\rho_{XY}|\leq 1\)、\(\rho_{XY}=\rho_{YX}\)、\(\rho_{XX}=1\)。
-
不相关的四个等价命题:两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解。
\[\boxed{\text{Cov}(X,Y)=0\iff\rho_{XY}=0\iff E(XY)=E(X)E(Y)\iff D(X\pm Y)=D(X)+D(Y)} \]
-
四 协方差矩阵
-
随机向量\(\boldsymbol{X}=(X_1,X_2,\cdots,X_n)^T\)的协方差矩阵:设
\[\boldsymbol{X} = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\ X_n \end{bmatrix},\quad E(\boldsymbol{X}) = \boldsymbol{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix} \]
则:
\[\text{Cov}(\boldsymbol{X}) = E \left((\boldsymbol{X} – \boldsymbol{\mu})(\boldsymbol{X} – \boldsymbol{\mu})^T \right) \]
故:
\[\boldsymbol{\Sigma} = \text{Cov}(\boldsymbol{X}) = \begin{bmatrix} \text{Cov}(X_1,X_1) & \text{Cov}(X_1,X_2) & \cdots & \text{Cov}(X_1,X_n) \\ \text{Cov}(X_2,X_1) & \text{Cov}(X_2,X_2) & \cdots & \text{Cov}(X_2,X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}(X_n,X_1) & \text{Cov}(X_n,X_2) & \cdots & \text{Cov}(X_n,X_n) \end{bmatrix} \]
对于二维随机变量\(\boldsymbol{Z}=(X,Y)^T\),由于\(\text{Cov}(X,Y)=\text{Cov}(Y,X)\)、\(\text{Cov}(X,X)=D(X)\)、\(\text{Cov}(Y,Y)=D(Y)\),所以其协方差矩阵为:
\[\text{Cov}(\boldsymbol{Z}) = \begin{bmatrix} D(X) & \text{Cov}(X,Y) \\ \text{Cov}(X,Y) & D(Y) \end{bmatrix} \]
-
特殊性质:
- 如果随机变量 \(X_1, X_2, \cdots, X_n\) 相互独立,根据两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解,所以协方差矩阵是对角矩阵:
\[\boldsymbol{\Sigma} = \text{Cov}(\boldsymbol{X}) = \begin{bmatrix} D(X_1) & 0 & \cdots & 0 \\ 0 & D(X_2) & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & D(X_n) \end{bmatrix} \]
- 如果随机变量 \(X_1, X_2, \cdots, X_n\) 相互独立,根据两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解,所以协方差矩阵是对角矩阵:
五 二维正态分布的数字特征
二维正态分布 \((X, Y)\) 的概率密度函数为:
\[f_{X,Y}(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2(1-\rho^2)}\left[ \left(\frac{x – \mu_X}{\sigma_X}\right)^2 – 2\rho\left(\frac{x – \mu_X}{\sigma_X}\right)\left(\frac{y – \mu_Y}{\sigma_Y}\right) + \left(\frac{y – \mu_Y}{\sigma_Y}\right)^2 \right] \right\} \]
其中参数满足:
- \(\mu_X\):\(X\) 的数学期望;
- \(\mu_Y\):\(Y\) 的数学期望;
- \(\sigma_X > 0\):\(X\) 的标准差;
- \(\sigma_Y > 0\):\(Y\) 的标准差;
- \(-1 < \rho < 1\):\(X\) 与 \(Y\) 的相关系数。
记作:
\[(X, Y) \sim N(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho) \]
特征 | 表达式 |
---|---|
联合分布 | \((X, Y) \sim N(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho)\) |
边缘分布 | \(X \sim N(\mu_X, \sigma_X^2),\quad Y \sim N(\mu_Y, \sigma_Y^2)\) |
数学期望 | \(E(X) = \mu_X,\quad E(Y) = \mu_Y\) |
方差 | \(D(X) = \sigma_X^2,\quad D(Y) = \sigma_Y^2\) |
协方差 | \(\text{Cov}(X, Y) = \rho \sigma_X \sigma_Y\) |
相关系数 | \(\rho_{XY} = \rho\) |
独立条件 | 当且仅当 \(\rho = 0\) 时,\(X\) 与 \(Y\) 独立 |
线性组合分布 | \(aX + bY \sim N(a\mu_X + b\mu_Y,\ a^2\sigma_X^2 + b^2\sigma_Y^2 + 2ab\rho\sigma_X\sigma_Y)\) |
六 多维正态分布
-
多维正态分布定义:设 \(\boldsymbol{X} = (X_1, X_2, \ldots, X_n)^T\) 是一个 \(n\) 维随机向量,其期望为:
\[\boldsymbol{\mu} = E(\boldsymbol{X}) = \begin{bmatrix} E(X_1) \\ E(X_2) \\ \vdots \\ E(X_n) \end{bmatrix} = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix} \]
其协方差矩阵为:
\[\boldsymbol{\Sigma} = \text{Cov}(\boldsymbol{X}) = E\left((\boldsymbol{X} – \boldsymbol{\mu})(\boldsymbol{X} – \boldsymbol{\mu})^T\right) \]
若\(\boldsymbol{X}\) 的联合概率密度函数为:
\[f_{\boldsymbol{X}}(\boldsymbol{x}) = \frac{1}{(2\pi)^{n/2}\text{det}(\boldsymbol{\Sigma})^{1/2}} \exp\left\{ -\frac{1}{2} (\boldsymbol{x} – \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} – \boldsymbol{\mu}) \right\} \]
其中:
- \(\boldsymbol{x} = (x_1, x_2, \ldots, x_n)^T\) 是实数向量;
- \(\boldsymbol{\Sigma}\) 是 \(n \times n\) 协方差矩阵,必须是对称正定矩阵;
- \(\text{det}(\boldsymbol{\Sigma})\) 表示矩阵 \(\boldsymbol{\Sigma}\) 的行列式;
则称 \(\boldsymbol{X}\) 服从 \(n\) 维正态分布,记作:
\[\boldsymbol{X} \sim N_n(\boldsymbol{\mu}, \boldsymbol{\Sigma}) \]
在人工智能相关的论文中,常写作\(\boldsymbol{X} \sim \mathcal{N}_n(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)。
-
二维正态分布的表示:
\[\boldsymbol{X} = \begin{bmatrix} X_1 \\ X_2 \end{bmatrix} \sim \mathcal{N}_n\left( \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}, \begin{bmatrix} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 \end{bmatrix} \right) \]
如果用\(\boldsymbol{Z}=(X,Y)^T\)表示,则可以写成:
\[\boldsymbol{Z} = \begin{bmatrix} X \\ Y \end{bmatrix} \sim \mathcal{N}_n\left( \begin{bmatrix} \mu_X \\ \mu_Y \end{bmatrix}, \begin{bmatrix} \sigma_X^2 & \rho_{XY} \sigma_X \sigma_Y \\ \rho_{XY} \sigma_X \sigma_Y & \sigma_Y^2 \end{bmatrix} \right) \]
-
标准正态分布:设一个 $ n $ 维随机向量:
\[\boldsymbol{X} = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\ X_n \end{bmatrix} \]
如果它的每个分量 $ X_i \sim N(0, 1) $,并且各分量之间相互独立,则称这个随机向量服从 n 维标准正态分布,记作:
\[\boldsymbol{Z} \sim \mathcal{N}_n(\boldsymbol{0}, \boldsymbol{I}_n) \]
其中:
- \(\boldsymbol{0}\) 是 $ n $ 维零向量(均值为0);
- \(\boldsymbol{I}_n\) 是 $ n \times n $ 的单位矩阵(协方差矩阵是对角线为1、其余为0的矩阵),表示各个维度相互独立且方差为1。
七 矩 常用不等式
-
k阶原点矩:\(\mu_k’=E(X^k)\)。数学期望是一阶原点矩。
-
k阶中心距:\(\mu_k=E((X-E(X))^k)\)。方差是二阶中心距。
-
矩生成函数:设\(X\)为随机变量,其矩生成函数定义为:\(\boxed{M_X(t) = E(e^{tX}) = \int_{-\infty}^{\infty} e^{tx} f_X(x)\text{d}x}\)。
-
若\(M_X(t)\)在\(t=0\)的某个领域内存在且可导,则对任意正整数\(k\),有:\(\boxed{E(X^k)=\dfrac{\text{d}^k}{\text{d}t^k}M_X(t)\Bigg|_{t=0}}\)
-
即:\(M_X(t)\)的k阶导数在\(t=0\)的值是\(E(X^k)\)。
-
-
正态分布的矩生成函数:
- 由\(f_X(x) = \dfrac{1}{\sqrt{2\pi}\sigma} \exp\left( -\dfrac{(x – \mu)^2}{2\sigma^2} \right)\),把它代入\(M_X(t) = E(e^{tX}) = \int_{-\infty}^{\infty} e^{tx} f_X(x)\text{d}x\),合并同类项,得:
- \(M_X(t) = \int_{-\infty}^{\infty} e^{tx} \cdot \dfrac{1}{\sqrt{2\pi}\sigma} \exp\left( -\dfrac{(x – \mu)^2}{2\sigma^2} \right) \text{d}x= \dfrac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} \exp\left( tx – \dfrac{(x – \mu)^2}{2\sigma^2} \right) \text{d}x\)。完全平方,得:
- \(M_X(t)=\dfrac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} \exp\left( -\dfrac{1}{2\sigma^2}(x – (\mu + \sigma^2 t))^2 + \dfrac{(\mu + \sigma^2 t)^2 – \mu^2}{2\sigma^2} \right) \text{d}x\)。移动一些常数项,得:
- \(M_X(t) = \exp\left( \dfrac{(\mu + \sigma^2 t)^2 – \mu^2}{2\sigma^2} \right) \cdot \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \cdot \exp\left( -\dfrac{(x – (\mu + \sigma^2 t))^2}{2\sigma^2} \right) \text{d}x\)。
- 注意到积分内是一个\(N(\mu+\sigma^2t,\sigma^2)\)的正态分布。根据\(\int_{-\infin}^{+\infin}f_X(x)\text{d}x=1\),所以:
- \(M_X(t) = \exp\left( \dfrac{(\mu + \sigma^2 t)^2 – \mu^2}{2\sigma^2} \right)\),化简,得:\(\boxed{M_X(t) = \exp\left( \mu t + \frac{1}{2} \sigma^2 t^2 \right)}\)。
-
正态分布的原点矩与中心距(把\(t=0\)代入矩生成函数的各阶导数):
- 一阶原点矩:\(M’_X(t) = (\mu + \sigma^2 t) e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X) = \mu\)。
- 二阶原点矩:\(M”_X(t) = [(\mu + \sigma^2 t)^2 + \sigma^2] e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X^2) = \mu^2 + \sigma^2\)。
- 三阶原点矩:\(M”’_X(t) = [(\mu + \sigma^2 t)^3 + 3\sigma^2(\mu + \sigma^2 t)] e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X^3) = \mu^3 + 3\mu\sigma^2\)。
- 四阶原点矩:\(M””_X(t) = [(\mu + \sigma^2 t)^4 + 6\sigma^2(\mu + \sigma^2 t)^2 + 3\sigma^4] e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X^4) = \mu^4 + 6\mu^2\sigma^2 + 3\sigma^4\)。
- 奇数阶中心距:\(\mu_k=E((X-E(X))^k)=\int_{-\infin}^{+\infin} (x-\mu)^kf_X(x)\text{d}x=\int_{-\infin}^{+\infin} (x-\mu)^ke^{-\frac{(x-\mu)^2}{2\sigma^2}}\text{d}x\)。\(k\)是奇数时,积分符号内的式子关于\(x=\mu\)对称,所以积分结果为0。\(\mu_k=0\)。
- 偶数阶中心距:\(\mu_k=\sigma^k(k-1)!!\)(换元法,较为麻烦,这里直接给出结果)
- 方差的k次方:\(D(X^k)=E(X^{2k})-(E(X^k))^2=\mu_{2k}’-\mu_{k}’^2\),\(D(X^2)=4\mu^2\sigma^2+2\sigma^4\)。
-
常用不等式:
- 琴生不等式:若\(g”(x)\geq0\),则\(E(g(X))\geq g(E(X))\),若\(g(x)”\leq0\),则\(E(g(X))\leq g(E(X))\)。
- 柯西不等式:\((E(XY))^2\leq E(X^2)E(Y^2)\)。
- 协方差绝对值有界:\(|\text{Cov}(X,Y)|\leq \sqrt{D(X)D(Y)}\)。