1. 概述
1.1. 为了让数据科学给实际应用增加价值,数据科学家和其他利益相关者必须仔细地考虑他们究竟希望通过挖掘数据实现什么
-
1.1.1. 将数据挖掘的结果与他们的实际目标联系起来
-
1.1.2. 其影响既可能表现为统计报告中缺少对统计数据正确性的明确解释,也可能表现为不能找出有意义的方法来测量性能
1.2. 即使必须选择替代变量,也要通过严谨的数据分析来实现
1.3. 数据科学一个至关重要的环节就是对模型进行正确的评估
-
1.3.1. 特别正确的模型评估是很难实现的,而评估过程通常需要进行多次迭代
-
1.3.2. 评估的时候还是应该使用原始、真实的数据集,以便结果能够反映出真正要实现的目标
1.4. 人们往往倾向于选择简单的评估指标,比如分类准确率,因为它们不仅很容易计算,又在许多研究论文中被使用,还可能是人们在学校学到的东西
1.5. 在现实中,过于简单的方法很少能够捕捉到问题真正的关键,甚至常常误导我们
1.6. 应把数据驱动模型与什么做比较,来判断它是否性能良好或者是否性能更好
2. 对分类器的评估
2.1. 分类模型是一个用来预测类别未知的实例的模型
2.2. 用正向结果代表值得关注或警惕的事情,而将负向结果看作不值得关注的事情或良性事件
2.3. 如果检测结果为阳性(也就是正向),则表示存在异常状况
2.4. 如果检测结果为阴性(也就是负向),则表示并没有什么值得警惕的因素
2.5. 如果欺诈检测模型检测到用户账户的异常活动,并引发风险预警,则称为正向反馈
2.6. 虽然负向反馈(只出现合法活动的账户)或许是好的事情,但从欺诈检测的角度来看,它们并不值得关注
2.7. 分类准确率
-
2.7.1. 分类准确率是一个常用的指标,因为它很容易测量
-
2.7.2. 对于数据挖掘技术在实际业务问题中的应用来说,还是过于简单了
-
2.7.3. 准确率是一项在数据挖掘研究中很常见的评估指标,因为它可以用单一的数字来评估分类器性能,而且很容易测量
-
2.7.4. 准确率这个指标其实存在局限性
2.8. 混淆矩阵
-
2.8.1. 类混淆和混淆矩阵这两个概念是非常重要的
-
2.8.2. 是一种列联表
-
2.8.3. 涉及n类问题的混淆矩阵是一个n×n矩阵,矩阵的每一列表示对应样本的真实类别,而每一行表示预测类别
-
2.8.4. 混淆矩阵可以将分类器做出的决策区分开,明确地展示出一个类别是如何与另一个类别混淆的
2.9. 样本类别不均衡
-
2.9.1. 分类器通常被用于筛选大量正常的、不值得关注的样本,以寻找相对少量的异常样本
-
2.9.2. 样本分布不均衡或分布偏斜的情况
-
2.9.3. 随着样本偏度(样本类别分布不均衡的程度)的增加,基于准确率的评估方法就会逐渐失效
-
2.9.4. 即使当样本偏度不是那么大时,如果样本总体中一个类别比另一个类别更占主导地位,那么准确率也容易变得不准确
2.10. 成本收益不均衡
-
2.10.1. 用分类准确率作为度量指标的另外一个问题是,它不区分假阳性错误和假阴性错误,而默认这两个错误同样重要
- 2.10.1.1. 这通常并不适用于真实的应用场景
-
2.10.2. 不同类型的错误会产生不同的成本,因为不同分类方法造成的后果的严重程度不同
-
2.10.3. 实际情况中,很难想象一个决策者可以对其是犯了假阳性错误还是假阴性错误漠不关心
2.11. 在将数据科学投入到实际应用时,至关重要的是把关注点放到问题本身
-
2.11.1. 在应用场景中什么是重要的?
-
2.11.2. 目标是什么?
-
2.11.3. 是否能根据实际目标来评估数据挖掘的结果?
3. 期望值
3.1. 期望利润
-
3.1.1. 期望成本或期望收益
-
3.1.2. 期望利润公式需要一系列特定条件来得出该场景下由单个数字表示的期望利润值
3.2. 将有助于构建评估框架,并且一旦最终部署的模型产生了不可接受的结果,它也有助于识别错误
3.3. 期望值计算的一般形式
- 3.3.1. EV=p(o1)·v(o1)+p(o2)·v(o2)+p(o3)·v(o3)+…
3.4. 用期望值规范分类器的使用
- 3.4.1. 期望值框架可以帮助我们看到问题的症结所在
3.5. 用期望值规范分类器的评估
-
3.5.1. 错误率
-
3.5.2. 成本和收益
- 3.5.2.1. 可以从数据中估计概率,却无法估计成本和收益
-
3.5.3. 假阳性错误是指我们把一个用户认定为可能响应用户,并针对其进行营销,但其没有做出响应
-
3.5.4. 假阴性错误是会购买产品的用户被错误判断为不会购买,因此没有对其进行产品宣传
-
3.5.5. 真阳性是指给用户发放了宣传材料,该用户也购买了商品
-
3.5.6. 真阴性的情况是未给没有购买产品意向的用户介绍产品
3.6. 类的先验概率
- 3.6.1. p(p)和p(n),分别表示了出现正向结果和负向结果的可能性
3.7. 基本概率规则
-
3.7.1. p(x, y)=p(y)·p(x | y)
-
3.7.2. 两个事件同时发生的概率等于其中一个事件发生的概率乘以另一个事件在已知第一个事件发生的条件下发生的概率
3.8. 期望收益=p(Y|p)·p(p)·b(Y, p) +p(N|p)·p(p)·b(N, p)+p(N|n)·p(n)·b(N, n) +p(Y|n)·p(n)·b(Y, n)
3.9. 考虑了先验p(p)和p(n)的期望收益公式
- 3.9.1. 期望收益=p(p)·[p(Y|p)·b(Y, p) +p(N|p)·b(N, p)]+p(n)·[p(N|n)·b(N, n) +p(Y|n)·b(Y, n)]
3.10. 陷阱
-
3.10.1. 保持成本收益矩阵中符号的一致性非常重要
-
3.10.2. 计算成本收益矩阵时容易犯的一个错误,就是“重复计算”,增加收益的同时也减少了成本(反之亦然),而比较有效的检验方式是计算因为决策改进而带来的收益提升
3.11. TP、FP、TN和FN来表示真阳性、假阳性、真阴性和假阴性
3.12. 精确度和召回率,它们在文本分类和信息检索的场景中尤其常用
-
3.12.1. 召回率与真阳性率相同,而精确度则是TP/(TP+FP),即预测为正的情况下的准确率
-
3.12.2. F-measure则是某给定点的精度和召回的调和平均值
-
3.12.3. 阳性预测值,这其实和精确度相同
3.13. 统计学、模式识别和流行病学等许多领域的从业者都会用到分类器的敏感性和特异性
-
3.13.1. 敏感性=TN/(TN+FP)=真阴性比率=1-假阳性比率
-
3.13.2. 特异性=TP/(TP +FN)=真阳性比率
4. 对数据投资的意义
4.1. 击败随机模型可能很容易(或者看起来很容易),所以证明随机模型的优越性可能不是一件有趣的事情,也无法带来什么信息
4.2. 数据科学家通常需要用替代模型,通常是简洁且不过度简单的模型,以便验证继续数据挖掘工作的合理性
4.3. 对于分类任务而言,一条好的基线必须是一个大样本分类器,即一个总是选择训练数据集中的多数类的原始分类器
4.4. 针对回归问题有一条类似的基线:使用总体的均值(通常是平均值或中位数)作为预测值
4.5. 从数据中挖掘这类单特征预测模型的一个例子就是用树型归纳构建“决策树桩”
-
4.5.1. 仅有一个内部节点(根节点)的决策树
-
4.5.2. 只有一个内部节点的树意味着在树的归纳过程中,会选择信息量最大的特征来做决策
-
4.5.3. 决策树桩是一个从很多可用信息中选择最有效的信息的策略的例子,而所有的决策也都根据这个策略来进行
4.6. 除了与简单模型(和简化数据模型)比较之外,基于行业知识或“已知经验”来构建简单且低成本的模型以供比较也是非常有用的
4.7. 无论数据挖掘小组选择了什么样的比较基线,它都应该能让利益相关者觉得其中的信息很有用,而且最好很有说服力
5. 可视化
5.1. 数据科学家工作中一个非常重要的部分就是对模型进行恰当评估,并且把评估结果传达给利益相关者
-
5.1.1. 做好这项工作需要大量经验,但是为了减少意外情况并且满足所有相关人士的期望,这项工作又十分关键
-
5.1.2. 模型结果可视化是评估任务中重要的一部分
5.2. 可视化形式往往是比数学计算形式更有效的呈现方式
5.3. 基本的利润图像足以比较各模型在一系列条件下的优劣
- 5.3.1. 基本的利润图像足以比较各模型在一系列条件下的优劣
5.4. 分数(模型的输出项)是对全部实例的待解释的目标变量(即流失、偏好或追加销售)的一种评估
5.5. 拟合曲线的基本思想是,模型越复杂,它对数据的拟合就越接近,但到了某个点,模型会开始只单纯记忆特定训练集的特征,而不是学习总体的普遍特征
5.6. 拟合曲线描绘的是模型复杂度与模型的性能测度
6. 排序
6.1. 利用模型分配的分数来为每个情形做决策
6.2. 另一种决策策略是按分数对不同情形排序,然后按照业务逻辑对排序靠前的几种情形采取适当的措施
- 6.2.1. 选择前n种情形(或选择所有分数大于给定阈值的情形)
6.3. 原因之一是模型给出的分数虽然能够根据每种情形属于某类的可能性的大小,对各种情形进行排序,却并不是真实概率
- 6.3.1. 概率估计并不与响应概率完全对应,但分类器的分数仍非常有助于判断哪种情形更好
6.4. 虽然成本和收益通常无法被精确地定义,但是不管怎样我们还是愿意采取行动
6.5. 在某些情况下,分类器应当保守地进行决策,因为其在预测时需要有非常大的把握
-
6.5.1. 相当于给输出分数设置了很高的阈值
-
6.5.2. 阈值越低,分类器的自由度越大
6.6. 一个带有阈值的排序分类器对应一个混淆矩阵
- 6.6.1. 混淆矩阵会随着阈值的改变而改变,因为真阳性和假阳性的数量发生了变化
7. 利润曲线
7.1. 预算受限
7.2. 预算限制不仅会改变操作点,还会改变对排序分类器的选择
8. ROC图像和曲线
8.1. ROC曲线也是一种重要的可视化工具
8.2. 类的先验概率,就是目标群体中正实例和负实例的比例,有时也被称为基础比率(通常指正实例的比例)
8.3. 成本和收益
- 8.3.1. 期望利润对成本收益矩阵中各单元的成本和收益的相对水平尤其敏感
8.4. 如果类的先验概率和成本收益的估计值都是已知且稳定的,那么利润曲线对模型性能可视化来说可能是一个不错的选择
8.5. 处理不确定因素的一种方法是,让每个模型生成很多不同的预期利润值
8.6. 还有一种处理不确定性的方法,就是展示整个模型性能概率的空间
8.7. ROC图像是分类器的二维图像,x轴为假阳性比率,y轴为真阳性比率,描绘的是分类器在收益(真阳性)与成本(假阳性)之间的权衡
8.8. 离散分类器是一个只会输出类标签(而不是排序)的分类器
8.9. 真阳性比率有时也叫命中率,即分类器辨别正确的、实际为正的实例的比例
8.10. 假阳性比率有时也叫误警率,即分类器辨别错误的、实际为负(即预测为正)的实例的比例
8.11. ROC图像的一个优点是可以把分类器的性能与分类器的使用场景区分开
-
8.11.1. 分类器的性能是与类别比例以及成本收益互不影响的
-
8.11.2. 数据科学家在生成分类器的时候,可以在ROC图像中绘制其性能的对应点,因为该点的位置和模型的相对性能不会发生改变
9. ROC曲线下面积
9.1. ROC曲线下面积(AUC)是一个重要的统计量
9.2. 指的是分类器曲线下,以单位正方形的形式表示的面积,值域为0到1
9.3. 虽然ROC曲线比这个面积信息量更大,但是当我们需要一个数字来概括模型性能,或者对运行条件一无所知时,AUC这个统计量更加有用
9.4. AUC是一个能够很好地反映分类器预测效果的统计量
- 9.4.1. AUC与秩和检验等价
10. 累积响应曲线和提升曲线
10.1. ROC曲线是对模型的分类性能、类概率估计性能和评分性能进行可视化的常用工具
10.2. 累积响应曲线有时也被称作提升曲线,因为它能用模型曲线(表示模型性能)向上远离对角线(表示随机分类器性能)的程度来展示模型的效果相对于随机选择的提升程度
10.3. “提升曲线”也可以指提升度数值的曲线
10.4. 直观上,分类器的提升表示的是它相对随机预测结果的优势
10.5. 提升度指分类器在列表中将正实例“提升”至负实例之上的程度
10.6. 提升曲线虽然能够展示每个模型的相对优势,但并不能展示每个模型带来的收益,甚至不能展示是否会取得收益
10.7. 累积响应曲线或提升曲线,两者都能展示分类器的相对优势,而且不受优势的值(货币价值等)的影响