深度学习中的概率知识
Overview
基于 Deep Learning (2017, MIT) 书.
1 概述
概率论是表示不确定性陈述的数学框架。在AI领域中,我们以两种主要方式使用概率论。首先,概率定律告诉我们AI系统应该如何推理,因此我们设计算法来计算或近似使用概率论得出的各种表达式。其次,我们可以使用概率和统计来理论上分析所提出的AI系统的行为。
2 知识
2.1 离散变量和概率质量函数(PMF)
对离散变量的概率分布可以用概率质量函数(PMF)来描述。 离散变量$x$遵循分布$P(x)$:$\mathrm{x}\sim P(x)$。
联合概率分布是许多变量的概率分布:$P(\mathrm{x}=x, \mathrm{y}=y)$,或者$P(x,y)$。
PMF的特性:
- $P$的定义域必须是$\mathrm{x}$的所有可能状态的集合。
- 对于$\forall x\in \mathrm{x}$,$0\leq P(x) \leq 1$。
- $\sum_{x\in \mathrm{x}}P(x)=1$。
均匀分布:$P(\mathrm{x}=x_i)=\dfrac{1}{K}$。
2.2 连续变量和概率密度函数(PDF)
概率密度函数(PDF)用于描述连续随机变量的概率分布。PDF的函数$p$必须满足以下特性:
- $p$的定义域是$\mathrm{x}$的所有可能状态的集合。
- 对于$\forall x\in \mathrm{x}$,$p(x)\geq0$。注意不要求$p(x)\leq 1$。
- $\int p(x)dx=1$。
PDF不是概率,PDF与PMF不同,PDF可以大于1。离散和连续随机变量的定义方式不同。对于连续随机变量,必要条件是$\int p(x)dx=1$。PDF不直接给出特定状态的概率,而是给出落入$\delta x$的无穷小区域内的概率,即$p(x)\delta x$。变量$x$位于区间$[a,b]$的概率由$\int_{[a,b]}p(x)dx$给出。
均匀分布 $u(x;a,b)=\dfrac{1}{b-a}$,$a$和$b$是区间的端点。分号表示参数化。$x$是函数的参数,$a$和$b$是参数。$x\sim U(a,b)$表示$x$遵循均匀分布。
2.3 边缘概率
对变量子集的概率分布称为边缘概率分布。例如,对于离散随机变量$\mathrm{x}$和$\mathrm{y}$,已知$P(\mathrm{x},\mathrm{y})$,可以使用求和规则计算$P(\mathrm{x})$:$\forall x\in \mathrm{x}$,$P(\mathrm{x}=x)=\sum_{y}P(\mathrm{x}=x, \mathrm{y}=y)$。对于连续变量,需要使用积分而不是求和:$p(x)=\int p(x,y)dy$。
2.4 条件概率
计算某个事件发生的概率,已知某些其他事件已发生。这是条件概率。$P(\mathrm{y}=y|\mathrm{x}=x)$,$\mathrm{x}=x$是条件。可以使用公式$P(\mathrm{y}=y|\mathrm{x}=x)=\dfrac{P(\mathrm{y}=y,\mathrm{x}=x)}{P(\mathrm{x}=x)}$来计算。
条件概率仅在$P(\mathrm{x}=x)>0$时定义。我们不能计算条件是从不发生事件的条件概率。
2.5 条件概率的链式法则
任何多个随机变量的联合概率分布可以分解为对单个变量的条件分布,这称为链式法则或乘法规则。$P(\mathrm{x}^{(1)},\ldots,\mathrm{x}^{(n)})=P(\mathrm{x}^{(1)})\Pi_{i=2}^nP(\mathrm{x}^{(i)}|\mathrm{x}^{(1)},\ldots,\mathrm{x}^{(i-1)})$。
一些例子:
$P(a,b,c)=P(a|b,c)P(b,c)$;
$P(b,c)=P(b|c)P(c)$;
$P(a,b,c)=P(a|b,c)P(b|c)P(c)$。
2.6 独立性和条件独立性
如果$x$和$y$是独立的($x\perp y$),则:$\forall x\in \mathrm{x}, y \in \mathrm{y}, p(\mathrm{x}=x, \mathrm{y}=y)=p(\mathrm{x}=x)p(\mathrm{y}=y)$。
给定随机变量$z$,如果$x$和$y$在条件$z$下独立($x\perp y|z$),则:
$\forall x\in \mathrm{x}, y\in \mathrm{y}, z\in \mathrm{z}, p(\mathrm{x}=x, \mathrm{y}=y, \mathrm{z}=z)=p(\mathrm{x}=x|\mathrm{z}=z)p(\mathrm{y}=y|\mathrm{z}=z)$
2.7 期望、方差和协方差
期望
对于离散变量:$\mathbb{E}{\mathrm{x}\sim P}[f(x)]=\sum{x}P(x)f(x)$。
对于连续变量:$\mathbb{E}_{\mathrm{x}\sim P}[f(x)]=\int{P(x)f(x)}dx$。
期望是线性的:$\mathbb{E}{\mathrm{x}}[\alpha f(x)+\beta g(x)]=\alpha \mathbb{E}{\mathrm{x}}[f(x)] + \beta \mathbb{E}_{\mathrm{x}}[g(x)]$
方差
$Var(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]$
当方差很小时,$f(x)$的值会聚集在其期望值附近。方差的平方根称为标准差。
协方差
协方差给出两个值之间线性相关的程度,以及这些变量的尺度:
$Cov(f(x),g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])]$
协方差的绝对值较高意味着这些值变化很大,并且同时远离各自的均值。正号表示两个变量倾向于同时取相对较高的值。负号表示一个变量取得高值,另一个变量取得低值,反之亦然。
协方差与相关的关系:
- 独立变量的协方差为零。非零协方差的变量是相关的。
- 独立性是比零协方差更强的要求。两个变量可以相关,但协方差为零。
随机向量$\mathbf{x}\in \mathbb{R}^n$的协方差矩阵是一个$n\times n$矩阵:$Cov(\mathbf{x})_{i,j}=Cov(\mathbf{x}_i,\mathbf{x}_j)$ 协方差的对角线元素给出了方差:$Cov(\mathbf{x}_i,\mathbf{x}_i)=Var(\mathbf{x}_i)$。
2.8 常见概率分布
在机器学习中有几个有用的概率分布。
伯努利分布
分布在单个二进制随机变量上。特性:
- $P(\mathbf{x}=1)=\phi$,$p(\mathbf{x}=0)=1-\phi$
- $P(\mathbf{x}=x)=\phi^x(1-\phi)^{1-x}$
- $\mathbb{E}_{\mathbf{x}}[\mathbf{x}]=\phi$
- $Var_\mathbf{x}(\mathbf{x})=\phi(1-\phi)$
多项式分布
或分类分布,是具有$k$个不同状态的单个离散变量的分布。
高斯分布
或正态分布: $\mathcal{N}(x;\mu,\sigma^2)=\sqrt{\dfrac{1}{2\pi \sigma^2}}\exp(-\dfrac{1}{2\sigma^2(x-\mu)^2})$
- $\mu$给出了中心峰值的坐标,这也是分布的均值:$\mathbb{E}[\mathbf{x}]=\mu$
- 分布的标准差:$\sigma$
- 方差:$\sigma^2$
指数和拉普拉斯分布
指数分布:$p(x;\lambda)=\lambda 1_{x\geq 0} \exp(-\lambda x)$
对于所有负值的$x$,概率为零。
拉普拉斯分布:$Laplace(x;\mu,\gamma)=\dfrac{1}{2\gamma}\exp(-\dfrac{|x-\mu|}{\gamma})$
狄拉克分布和经验分布
狄拉克分布:$p(x)=\delta (x-\mu)$
经验分布:$\hat{p}(x)=\dfrac{1}{m}\sum_{i=1}^m\delta(x-x^{(i)})$
2.9 常见函数的有用性质
Logistic sigmoid 函数
$\sigma(x)=\dfrac{1}{1+\exp(-x)}$
它通常用于生成 Bermoulli 分布的 $\phi$ 参数。当其参数非常正或负时,sigmoid 函数饱和,意味着函数变得非常平坦,对其输入的微小变化不敏感。
Softplus 函数
$\zeta(x)=\log(1+\exp(x))$
该函数可用于生成正态分布的 $\beta$ 或 $\sigma$ 参数。
重要性质
- $\sigma(x)=\dfrac{\exp(x)}{\exp(x)+1}$
- $\dfrac{d}{dx}\sigma(x)=\sigma(x)(1-\sigma(x))$
- $1-\sigma(x)=\sigma(-x)$
- $\log\sigma(x) = -\zeta(-x)$
- $\dfrac{d}{dx}\zeta(x)=\sigma (x)$
- $\forall x\in (0,1), \sigma^{-1}(x)=\log(\dfrac{x}{1-x})$
- $\forall x > 0, \zeta^{-1}(x)=\log (\exp(x)-1)$
- $\zeta(x)=\int_{-\infin}^{x}\sigma(y)dy$
- $\zeta (x) - \zeta(-x) = x$
2.10 贝叶斯定理
$P(x|y)=\dfrac{P(x)P(y|x)}{P(y)}$
通过 $P(y|x)$ 计算 $P(x|y)$,注意 $P(y)=\sum_xP(y|x)P(x)$。贝叶斯定理是一种在拥有一些信息情况下计算某件事发生可能性的方法。
3 应用问题
问题1:有一个公平的硬币(一面是正面,一面是反面)和一个不公平的硬币(两面都是反面)。你随机选择一个硬币,抛掷5次,观察到全部5次都是反面。你抛的是不公平的硬币的几率是多少?
定义 $U$ 为抛出不公平硬币的情况;$F$ 表示抛出公平硬币。$5T$ 表示我们连续抛出5次正面的事件。
我们知道 $P(U) = P(F) = 0.5$,需要求解 $P(U|5T)$。
$$P(U|5T) = \dfrac{P(5T|U)P(U)}{P(5T)}$$
$$=\dfrac{10.5}{P(5T|U)P(U)+P(5T|F)P(F)}$$
$$=\dfrac{0.5}{10.5+0.5^5*0.5}\approx0.97$$
因此,选择了不公平硬币的概率约为97%。
问题2:你和你的朋友正在玩一个游戏。你们两个将继续抛硬币,直到序列 HH 或 TH 出现为止。如果先出现 HH,你赢。如果先出现 TH,你的朋友赢。每个人的获胜概率是多少?
P(HH 先出现而不是 TH) = P(前两次抛出 HH) = 1/4
P(TH 先出现而不是 HH) = P(首次为 T) + P(前两次为 HT) = 1/2 + 1/4 = 3/4
问题3:1000人中有1人患有一种特定的疾病,并且有一种检测方法,如果患有该疾病,检测正确率为98%。如果没有患病,检测错误率为1%。如果有人检测为阳性,他们患病的几率是多少?
P(D) = 1/1000 表示患有疾病的概率
P(H) = 1 - P(D) = 999/1000 表示健康的概率
P(P|D) = 98% 表示如果患有疾病,则检测为阳性的概率
P(P|H) = 1% 表示如果没有患病,则检测为阳性的概率
需要求解 P(D|P)
$$P(D|P)=\dfrac{P(P|D)P(D)}{P(P)}$$ $$= \dfrac{98/100*1/1000}{P(P|D)P(D) + P(P|H)P(H)}$$ $$= \dfrac{0.098%}{98%*1/1000 + 1% * 999/1000}$$ $$\approx 8.94%$$
因此,如果有人检测为阳性,则他们患病的概率约为0.0894或8.94%。