学习理论:代理损失函数的泛化界与Rademacher复杂度

3月份以来的科研基本围绕推导代理损失函数的一致界展开,证明现已基本完工(关于代理损失函数的一致界的介绍可参见之前的博客《学习理论:预测器-拒绝器多分类弃权学习》)。导师建议我可以的话把泛化界也一起证了╰( ̄▽ ̄)╭。由于认识有搞过泛化的朋友,许多东西尽管没有亲自上手做但早已“耳濡目染”了,比如集中不等式这些。这篇博客旨在就代理损失函数的泛化界证明流程进行初步的介绍,并穿插介绍一些学习理论、高维概率中常用的概念。

1 导引

首先,回顾一下多分类弃权学习的基本设置。假设带标签样本集\(S=((x_1, y_1), \cdots, (x_m, y_m))\)中的每个样本\((x_i, y_i)\)都独立同分布地采自\(\mathcal{D}\),记\(S\sim \mathcal{D}^m\),且有\((x_i, y_i)\in \mathcal{X}\times \mathcal{Y}\)(标签\(\mathcal{Y} = \{1, \cdots, n\}\)\(n\geqslant 2\)))。

针对多分类问题的预测器-拒绝器弃权损失[1]\(L_{\text{abst}}\)定义如下(这里默认采用单阶段的训练设置):

\[L_{\text{abst}}(h, r, x, y) = \underbrace{\mathbb{I}_{\text{h}(x) \neq y}\mathbb{I}_{r(x) > 0}}_{\text{不弃权}} + \underbrace{c \mathbb{I}_{r(x)\leqslant 0}}_{\text{弃权}} \]

其中\((h, r)\in \mathcal{H}\times\mathcal{R}\)为预测器-拒绝器对(\(\mathcal{H}\)\(\mathcal{R}\)为两个从\(\mathcal{X}\)\(\mathbb{R}\)的函数构成的函数族),\(\text{h}(x) = \underset{y\in \mathcal{Y}}{\text{arg max}}\space {h(x)}_y\)直接输出实例\(x\)的预测标签。假设\(c\in (0, 1)\)为一个常数。

在之前的博客中我们提到过,设\(\mathcal{l}\)为在标签\(\mathcal{Y}\)上定义的0-1多分类损失的代理损失,则我们可以在此基础上进一步定义弃权代理损失\(L\)

\[L(h, r, x, y) = \mathcal{l}(h, x, y)\phi(-\alpha r(x)) + c \phi(\beta r(x)) \]

不过这里为了进一步简化分析,我们规定这里的拒绝器\(r\)不再是学出来的,而是直接根据下列公式计算而得[2]

\[r(x) = \max_{y\in \mathcal{Y}} \left[\Psi^{-1}(h(x))\right]_y – (1 – c) \]

这里\(\Psi: [0, 1]^n\rightarrow \mathbb{R^n}\)定义为将数据的条件概率分布向量\(\left(\begin{matrix} p(Y=1\mid x)\\ \vdots\\ p(Y=n\mid x) \end{matrix}\right)\in [0, 1]^n\)映射到最优预测器输出向量\(\left(\begin{matrix} h(x)_1\\ \vdots\\ h(x)_n \end{matrix}\right)\in \mathbb{R}^n\)的函数。那么\(\Psi^{-1}\)就反之,根据最优预测器输出向量给出数据条件概率分布向量的预测值。将\(r(x)\)与贝叶斯最优拒绝器\(r^*(x) = \max_{y\in \mathcal{Y}}p(y\mid x) – (1 – c)\)的公式进行对比可以更好地对其进行理解)。

于是,弃权代理损失函数可以直接等价于在标签\(\mathcal{Y}\)上定义的0-1多分类损失的代理损失\(\mathcal{l}\),下面我们以一对多(one-versus-all, OVA) 损失为例进行分析:

\[L(h, x, y) = \mathcal{l}(h, x, y) = \phi(h(x)_y) + \sum_{y^{\prime}\neq y}\phi(-h(x)_{y^{\prime}}) \]

其中\(\phi(\cdot)\)为间隔损失(margin loss)(做为\(z \mapsto \mathbb{I}_{z \leqslant 0}\)的上界),可以设置为\(\phi(z) = \exp(-z)\)\(\phi(z) = \log(1 + \exp(-z))\)等等。对于一对多损失而言,\(\Psi^{-1}\)的计算公式为\(\left[\Psi^{-1}(h(x))\right]_y = \frac{\phi^{\prime}(-h(x))_y}{\phi^{\prime}(-h(x))_y + \phi^{\prime}(h(x))_y}\)

对于目标损失\(L_{\text{abst}}\)和代理损失\(L\)而言,可分别定义\(L_{\text{abst}}\)-期望弃权损失\(R_{L_{\text{abst}}}(h, r)\)(也即目标损失函数的泛化误差)和\(L\)-期望弃权代理损失\(R_{L}(h, r)\)(也即代理损失函数的泛化误差)如下:

\[R_{L_{\text{abst}}}(h, r) = \mathbb{E}_{(x, y)\sim \mathcal{D}}\left[L_{\text{abst}}(h, r, x, y)\right], \quad R_{L}(h) = \mathbb{E}_{(x, y)\sim \mathcal{D}}\left[L(h, x, y)\right] \]

\(R_{L_{\text{abst}}}(h, r)\)\(R_{L}(h, r)\)在所有可测函数构成的集合上取得的下确界分别记为:

\[R^*_{L_\text{abst}} = \inf_{h, r}R_{L_{\text{abst}}}(h, r), \quad R_{L}^* = \inf_{h}R_{L}(h) \]

这被称为贝叶斯最优误差(Bayes-optimal error),记\(h^* = \text{arg min}_{h}R_{L}(h)\)

贝叶斯一致性(Bayes-consistency) [3][4]定义这样一种损失函数,这种损失函数能够确保风险最小化的预测器能够成为贝叶斯最优分类器。进一步地,代理损失函数的贝叶斯一致性是指随着训练数据规模\(m\rightarrow \infty\),基于训练样本学到的一系列输出函数\(\hat{h}_1, \hat{h}_2, \cdots, \hat{h}_m\)满足下列关系:

\[R_L(\hat{h}_m) \xrightarrow{m\rightarrow \infty} R_L^{*} \quad \Longrightarrow \quad R_{L_{\text{abst}}}(\hat{h}, r) \xrightarrow{m\rightarrow \infty} R_{L_{\text{abst}}}^{*} \]

从上式中可以看到,想要刻画代理损失函数的贝叶斯一致性,就需要界定\(R_L(\hat{h}) – R_L^{*}\),而这项差距可以进一步做如下分解[5]

\[R_L(\hat{h}) – R_L^{*} = \underbrace{\left(R_L(\hat{h}) – R_L^*(\mathcal{H})\right)}_{\text{excess error}\geqslant 0} + \underbrace{\left(R_L^*(\mathcal{H}) – R_L^{*}\right)}_{\text{approximation error}\geqslant 0} \]

其中\(R_L^*(\mathcal{H}) = \inf_{\mathcal{h\in H}}R_L(h)\)为假设类最优(best-in-class)误差,对应的假设类最优假设记为\(h^{\circ}\),假设类最优误差也可以记为\(R_L(h^{\circ})\)

  • 第一项差值被称为超额误差(excess error),它衡量了一个模型和假设类最优的模型之间的差距。

  • 第二项差值是逼近误差(approximation error),代表了假设类\(\mathcal{H}\)在多大程度上涵盖了贝叶斯最优分类器\(h^*\),刻画了模型的表达能力。

当定义超额误差时,往往需要定义是超过什么的误差。这里默认超额误差以假设类的最优误差为基准,即\(R_L(\hat{h}) – \inf_{\mathcal{h\in H}}R_L(h)\);也有论文定义的超额误差以贝叶斯最优误差为基准,即\(R_L(\hat{h}) – R_L^*\),然后将我们上面所定义的超额误差称为估计误差(estimation error) [2][6]

若假设假设类和拒绝函数类为所有可测函数构成的集合,即\(\mathcal{H} = \mathcal{H}_{\text{all}}, \mathcal{R} = \mathcal{R}_{\text{all}}\),则上式中第二项逼近误差等于0,于是若证明以下代理损失函数的超额误差界(excess error bound) 成立,则可以直接通过取极限操作得到贝叶斯一致性:

\[\underbrace{R_{L_{\text{abst}}}(h, r) – R_{L_{\text{abst}}}^*(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}})}_{\text{target excess error}} \leqslant \Gamma \underbrace{\left(R_L(h) – R_L^*(\mathcal{H}_{\text{all}})\right)}_{\text{surrogate excess error}} \]

其中\(R_L^*(\mathcal{H}_{\text{all}}) = \inf_{\mathcal{h}}R_L(h) = R_L^{*}\)\(\Gamma: \mathbb{R}_{+}\rightarrow \mathbb{R}_{+}\)为满足属性\(\lim_{t\rightarrow 0^{+}}\Gamma (t) = 0\)的非递减函数。这也是我们在博客《学习理论:预测器-拒绝器多分类弃权学习》)中提到过的内容。在这篇博客中,让我们把注意力转移一个新的方向——代理损失函数的泛化误差界(generalization error gap)

2 泛化误差界

机器学习理论的一大目标就是最小化超额误差\(R_L(\hat{h}) – R_L^{*}(\mathcal{H})\),然而\(\hat{h}\)做为\(h^*\)的估计值,是最小化如下所示的经验误差(泛化误差的近似)[7]来获得的:

\[\widehat{R}_L(h) = \mathbb{E}_{(x, y)\sim S}\left[L(h, x, y)\right] = \frac{1}{m}\sum_{i=1}^m L(h, x_i, y_i) \]

其中\((x, y)\sim S\)表示\((x, y)\)采自样本集\(S\)定义的经验分布。这也就是说\(\hat{h} = \inf_{h\in \mathcal{H}}\hat{R}_{L}(h)\)。这也就意味着\(\hat{h}\)并不能保证最小化泛化误差\(R_L(\hat{h})\),自然也就无法保证最小化超额误差了。

于是,考虑对超额误差进行进一步的分解[5]

\[\begin{aligned} & R_L(\hat{h}) – R_L^{*}(\mathcal{H}) \\ &= R_L(\hat{h}) – R_L(h^{\circ}) \quad (h^{\circ} = \text{arg min}_{\mathcal{h\in H}}R_L(h))\\ &= \underbrace{\left(R_L(\hat{h}) – \widehat{R}_L(\hat{h})\right)}_{\text{generalization gap}\geqslant 0} + \underbrace{\left(\widehat{R}_L(\hat{h}) – \widehat{R}_L(h^{\circ})\right)}_{\text{training error} \leqslant 0 \text{ or } \geqslant 0} + \underbrace{\left(\widehat{R}_L(h^{\circ}) – R_L(h^{\circ})\right)}_{\text{small term} \geqslant 0} \end{aligned} \]

  • 第一项差值\(R_L(\hat{h}) – \widehat{R}_L(\hat{h})\)被称为泛化差距(generalization gap),刻画了学习算法输出假设的泛化能力。证明学习算法的泛化界(generalization bound) 即为证明其泛化差距被某个大致形如\(\epsilon = \mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{m})\)的项给界定,其中\(\mathcal{C}(\mathcal{H})\)为假设空间\(\mathcal{H}\)的模型复杂度,\(m\)为样本个数。按照经典统计学习理论,一般假设空间\(\mathcal{H}\)的模型复杂度越低,样本个数\(m\)越多,学习算法的泛化性能越好。

    上述理论在深度学习中不一定适用。在深度学习理论中会出现所谓的双下降(double descent),过参数化模型的泛化性能也可能很好,感兴趣的同学可以查看B站南大大佬的视频JOJO想:深度学习中的泛化理论 (9)良性过拟合[8]

  • 第二项差值\(\underbrace{\widehat{R}_L(\hat{h}) – \widehat{R}_L(h^{\circ})}_{\leqslant 0} \leqslant \underbrace{\widehat{R}_L(\hat{h}) – \inf_{h}\widehat{R}_L(h)}_{\geqslant 0}\)和模型的训练误差有关,刻画了训练算法的优化能力。当\(\hat{h}\)能够最小化训练误差,也即\(\widehat{R}_L(\hat{h}) = \inf_{h}\widehat{R}_L(h)\)时,这一项一定\(\leqslant 0\)

  • 第三项差值\(\widehat{R}(h^{\circ}) – R(h^{\circ})\)一般是一个很小的项,我们称之为“小项”,也可以被界定。

观察上述分解,可以发现泛化差距\(R_L(\hat{h}) – \widehat{R}_L(\hat{h})\)和“小项”\(\widehat{R}(h^{\circ}) – R(h^{\circ})\)具有相似的形式,都可以写成\(R_L(\cdot)\)\(\widehat{R}(\cdot)\)之间关于某个假设\(h\)的差值。而这个差值可以被界定如下(以泛化差距为例,“小项”同理):

\[\begin{aligned} R_L(\hat{h}) – \widehat{R}_L(\hat{h}) \leqslant \sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) – R_L(h)\lvert \end{aligned} \]

若能证明当\(n\rightarrow \infty\)时,\(\sup_{h\in \mathcal{H}}\lvert \widehat{R}(h) – R_L(h)\rvert\rightarrow 0\)(比如该上确界被某个大致形如\(\epsilon = \mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{\sqrt{m}})\)\(\mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{m})\)的项给控制),则我们称假设类\(\mathcal{H}\)一致收敛(uniform convergence)[9][10]

注意这里一致收敛的“一致”对应的英文是“uniform”,而我们之前提到过的损失函数一致性的“一致性”对应的英文是“consistency”。

\(\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) – R_L(h)\lvert\)可以视为假设\(h\in \mathcal{H}\)做为下标索引的随机过程的量纲(magnitude),这种随机过程称为经验过程[11]

定义 1 (经验过程)假设类\(\mathcal{H}\)上的经验过程(empirical process)\(\left(X_h\right)_{h\in \mathcal{H}}\)定义为:

\[X_{h} := \widehat{R}_L(\hat{h}) – R_L(\hat{h}) \]

于是,证明泛化界的问题便转化为了证明经验过程有界(比如\(\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) – R_L(h)\lvert < \epsilon = \mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{\sqrt{m}})\))的问题。

3 经验过程的Rademacher复杂度上界

对于一对多代理损失\(L(h, x, y) = \phi\left(h(x)_y\right) + \sum_{y^{\prime}\neq y}\phi\left(-h(x)_{y^{\prime}}\right)\),以及定义在其上的经验过程\(X_{h} := \widehat{R}_L(\hat{h}) – R_L(\hat{h}), h\in \mathcal{H}\),我们有下列定理[2]成立:

定理 1 对任意\(\delta > 0\),至少以\(1 – \delta\)的概率有

\[\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) – R_L(h)\lvert \leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + M_{\phi} \sqrt{\frac{8\log \frac{2}{\delta}}{m}} \]

其中\(n\)为标签类别数,\(C_{\phi}\)为函数\(\phi(\cdot)\)的Lipschitz常数(假设\(\phi(\cdot)\)满足Lipschitz连续),\(\mathfrak{R}(\mathcal{H}\circ \mathcal{S})\)为定义在样本集\(S\)上的假设类\(\mathcal{H}\)的Rademacher复杂度,\(M_{\phi} = \sup_{x\in \mathcal{X}, h\in \mathcal{H}}\phi(h(x))\)。下面先介绍Rademacher复杂度的定义。

定义 2 (Rademacher复杂度) 设样本集\(S = (z_1, z_2, \cdots, z_m)\)中的每个样本都独立同分布地采自分布\(\mathcal{D}\)\(\mathcal{F}=\{f: \mathcal{Z}\rightarrow \mathbb{R}\}\)为可测函数类。则\(\mathcal{F}\)关于样本集\(S\)Rademacher复杂度[3]定义为

\[\mathfrak{R}_S(\mathcal{H}) = \mathbb{E}_{S}\mathbb{E}_{\sigma\sim \{\pm 1\}^m}\left[\sup_{f\in \mathcal{F}}\frac{1}{m}\sum_{i=1}^m \sigma_i f(z_i)\right] \]

其中\(\sigma = (\sigma_1, \cdots, \sigma_m)\in \{\pm 1\}^m\)为随机向量,其中每个元素都独立同分布地采自\(\{-1, +1\}\)

为了证明定理 1,我们会先展示一个引理,该引理关联了假设类\(\mathcal{H}\)和代理损失函数类\(\mathcal{L}\)的Rademacher复杂度。现定义代理损失函数类\(\mathcal{L}\)

\[\mathcal{L} = \left\{(x, y)\rightarrow L(h, x, y)\mid h\in \mathcal{H}\right\} \]

其中\(L\in \mathcal{L}\)是间隔损失\(\phi(\cdot)\)和假设\(h(\cdot)\)的复合,记\(\mathcal{L} = \mathcal{\phi}\circ \mathcal{H}\)

则有下列引理[2]成立:

引理 1\(\mathfrak{R}_S(\mathcal{L})\)\(\mathcal{L}\)关于样本集\(S\)的Rademacher复杂度,\(\mathfrak{R}_S(\mathcal{H})\)\(\mathcal{H}\)关于样本集\(S\)的Rademacher复杂度,则我们有\(\mathfrak{R}_S(\mathcal{L})\leqslant 2 n C_{\phi} \mathfrak{R}_S(\mathcal{H})\)

引理 1的证明 按照定义,可以将\(\mathfrak{R}_S(\mathcal{L})\)界定如下:

\[\begin{aligned} \mathfrak{R}_S(\mathcal{L}) &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{L\in \mathcal{L}}\frac{1}{m}\sum_{i=1}^m \sigma_i L(x_i, y_i, h)\right] \\ &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \left(\phi\left(h(x_i)_{y_i}\right) + \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right)\right)\right]\\ &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\left(\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y_i}\right) + \frac{1}{m}\sum_{i=1}^m \sigma_i \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right)\right)\right]\\ &\leqslant \underbrace{\mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y_i}\right)\right]}_{(A)} + \underbrace{\mathbb{E}_S\mathbb{E}_{\sigma} \left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right)\right]}_{(B)} \end{aligned} \]

其中最后一行不等式我们使用了\(\sup(\cdot)\)函数的次可加性(sub-additivity):\(\sup(x + y)\leqslant \sup(x) + \sup(y)\)。接下来我们尝试界定上述两项。设\(\alpha_i = 2\mathbb{I}_{y\neq y_i} – 1\),可以将第一项\((A)\)界定如下:

\[\begin{aligned} (A) &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y_i}\right)\right]\\ &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) (\alpha_i + 1)\right] \\ &\leqslant \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right)\alpha_i \right] + \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] \\ &\quad (\text{sub-additivity of} \sup(\cdot))\\ &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \alpha_i\sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] + \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] \\ &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] (\alpha_i\sigma_i \text{ has the same distribution as } \sigma_i)\\ &\leqslant \sum_y \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y}\right) \right] (\text{sub-additivity of} \sup(\cdot))\\ &= n \mathfrak{R}_S(\phi\circ \mathcal{H}) \end{aligned} \]

其中\(n\)是类别个数。与\((A)\)项类似,\((B)\)项也可以被$ \mathfrak{R}_S(\phi\circ \mathcal{H})$界定。

于是,我们可以将\(\mathcal{L}\)关于样本集\(S\)的Rademacher复杂度界定如下:

\[\mathfrak{R}_S(\mathcal{L}) \leqslant \underbrace{2 n \mathfrak{R}_S(\phi \circ \mathcal{H}) \leqslant 2 n C_{\phi} \mathfrak{R}_S(\mathcal{H})}_{\text{Talagrand contraction principle}} \]

最后一个不等式根据如下的Talagrand压缩原理[12]得到:

引理 2 (Talagrand压缩原理) 设\(\phi: \mathbb{R}\rightarrow \mathbb{R}\)\(C_{\phi}\)-Lipschitz函数,则

\[ \mathfrak{R}_S(\phi\circ\mathcal{H}) \leqslant C_{\phi}\mathfrak{R}_S(\mathcal{H}) \]

其中\(\phi\circ \mathcal{H} = \{z\mapsto \phi(h(z)): h\in \mathcal{H}\}\)

其次,我们介绍一个经验过程的单侧上界关于训练样本\(S\)的期望的重要结论[9],该结论将经验过程的单侧上界与Rademacher复杂度联系了起来。

引理 3

\[\mathbb{E}_{S}\left[\sup_{h\in \mathcal{H}} \left(\widehat{R}_L(h) – R_L(h)\right)\right] \leqslant 2\mathfrak{R}_S(\mathcal{L}) \]

这个引理的证明会用到一种称之为对称化(symmetrization) 的技术,大致为引入辅助样本集\(S^{\prime}\)并以此将泛化误差\(R_L(h)\)限制到\(S^{\prime}\)上(类似测试集),并利用\(S\)\(S^{\prime}\)样本集的对称性来在保持期望不变的前提下完成\(\sigma(\cdot)\)函数的引入(这也是为何不等式左边有个期望\(\mathbb{E}_S[\cdot]\)),详细证明可参阅《Understanding machine learning: From theory to algorithms》Ch.26 [9]

有了这些引理,我们可以接下来可以开始正式证明定理 1了。

下面再将定理 1再贴一遍:对任意\(\delta > 0\),至少以\(1 – \delta\)的概率有

\[\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) – R_L(h)\lvert \leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + M_{\phi} \sqrt{\frac{8\log \frac{2}{\delta}}{m}} \]

定理 1的证明 上述不等式是经验过程的双侧界,只需讨论与\(\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) – R_L(h)\right)\)相关的单侧界至少以概率\(1 – \frac{\delta}{2}\)成立即可。

\(A(z_1, \cdots, z_m) = \sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) – R_L(h)\right)\),通过引理 3,我们已经知道\( \mathbb{E}_{S}\left[A(z_1, \cdots, z_m)\right] \leqslant 2\mathfrak{R}_S(\mathcal{L}) \)成立。现在我们需要考虑\(A(z_1, \cdots, z_m)\)的界,那么如果我们可以证明有界变差条件[6][7]\(\left|A(z_1, \cdots, z_m) – A(z_1, \cdots, z_i^{‘}, \cdots, z_m)\right|\leqslant c\)(也即将参数中的任意一项\(z_i = (x_i, y_i)\)被与训练集独立同分布的\(z_i^{\prime} = (x^{\prime}_i, y_i^{\prime})\)替换后,函数值的变化量被常数\(c\)界定),那么就可以考虑应用McDiarmid不等式得到

\[ A(z_1, \cdots, z_m) \leqslant \mathbb{E}_{S}\left[A(z_1, \cdots, z_m)\right] + c\sqrt{\frac{m}{2}\log (\frac{1}{\delta}))} \]

\(1 – \delta\)概率成立。

那么我们先尝试界定变差:

\[\begin{aligned} &A(z_1, \cdots, z_m) – A(z_1, \cdots, z_i^{‘}, \cdots, z_m)\\ &= \sup_{h\in \mathcal{H}}\left[\frac{1}{m}\sum_{j=1}^mL(h, x_j, y_j) – \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right]\\ &\quad \space – \sup_{h\in \mathcal{H}}\left[\frac{1}{m}L(h^{\prime}, x_i^{\prime}, y_i^{\prime}) + \frac{1}{m}\sum_{j\in [m]\backslash\{i\}}L(h^{\prime}, x_j, y_j)\\ – \mathbb{E}_{\mathcal{D}}\left[L(h^{\prime}, x, y)\right]\right]\\ &= \sup_{h\in \mathcal{H}}\inf_{h^{\prime}\in \mathcal{H}}\left[\frac{1}{m}\sum_{j=1}^mL(h, x_j, y_j) – \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right.\\ &\quad \space \left.- \frac{1}{m}L(h^{\prime}, x_i^{\prime}, y_i^{\prime}) – \frac{1}{m}\sum_{j\in [m]\backslash\{i\}}L(h^{\prime}, x_j, y_j) + \mathbb{E}_{\mathcal{D}}\left[L(h^{\prime}, x, y)\right]\right]\\ &\leqslant \sup_{h\in \mathcal{H}}\left[\frac{1}{m}\sum_{j=1}^mL(h, x_j, y_j) – \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right.\\ &\quad \space \left.- \frac{1}{m}L(h, x_i^{\prime}, y_i^{\prime}) – \frac{1}{m}\sum_{j\in [m]\backslash\{i\}}L(h, x_j, y_j) + \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right]\\ &= \sup_{h\in \mathcal{H}}\left[\frac{1}{m}L(h, x_i, y_i) – \frac{1}{m}L(h, x^{\prime}_i, y^{\prime}_i)\right]\\ &= \frac{1}{m}\sup_{h\in \mathcal{H}}\left[\phi\left(h(x_i)_{y_i}\right) + \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right) – \phi\left(h(x_i^{\prime})_{y^{\prime}}\right) – \sum_{y^{\prime\prime}\neq y_i^{\prime}}\phi\left(-h(x_i^{\prime})_{y^{\prime\prime}}\right)\right]\\ &= \frac{1}{m}\sup_{h\in \mathcal{H}}\left[\phi\left(h(x_i)_{y_i}\right) + \phi\left(-h(x_i)_{y_i^{\prime}}\right) – \phi\left(h(x_i^{\prime})_{y_i^{\prime}}\right) – \phi\left(-h(x_i^{\prime})_{y_i}\right)\right]\\ &\leqslant \frac{4M_{\phi}}{n} \end{aligned} \]

于是\(c = \frac{4M_{\phi}}{n}\)。接着,应用McDiarmid不等式并结合引理 3、引理 1可知

\[\begin{aligned} \sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) – R_L(h)\right) &\leqslant \mathbb{E}_{S}\left[\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) – R_L(h)\right)\right] + c\sqrt{\frac{m}{2}\log (\frac{1}{\delta}))}\\ &\leqslant 2\mathfrak{R}_S(\mathcal{L}) + M_{\phi}\sqrt{\frac{8\log (\frac{1}{\delta})}{m}} \quad (\text{Lemma } 3)\\ &\leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H})+ M_{\phi}\sqrt{\frac{8\log (\frac{1}{\delta})}{m}} \quad (\text{Lemma } 1) \end{aligned} \]

对任意\(\delta > 0\),至少以\(1 – \delta\)的概率成立。用\(\frac{\delta}{2}\)直接变量替换掉\(\delta\)有:\(\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) – R_L(h)\right)\leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H})+ M_{\phi}\sqrt{\frac{8\log (\frac{2}{\delta})}{m}}\)至少以\(1 – \frac{\delta}{2}\)的概率成立。于是对于双侧界,我们有:

\[\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) – R_L(h)\lvert \leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + M_{\phi} \sqrt{\frac{8\log \frac{2}{\delta}}{m}} \]

对任意\(\delta > 0\),至少以\(1 – \delta\)的概率成立。定理得证。

于是,我们在第2部分提到的泛化差距\(R_L(\hat{h}) – \widehat{R}_L(\hat{h})\)和“小项”\(\widehat{R}(h^{\circ}) – R(h^{\circ})\)都可以被界定了。例如,泛化差距可以被界定如下:

\[R_L(\hat{h}) – \widehat{R}_L(\hat{h})\leqslant \sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) – R_L(h)\lvert \leqslant 8 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + 4 M_{\phi} \sqrt{\frac{2\log \frac{2}{\delta}}{m}} \]

至此,代理损失函数的泛化界得证。

参考