
1. 预测建模
1.1. 把预测建模视为有监督的数据划分,也就是根据某个值得关注的量,将整个总体划分为不同的群组
- 1.1.1. 根据某个希望预测或估计的值对总体进行分组
1.2. 预测的目标
-
1.2.1. 可以是某个想避免的事件
-
1.2.1.1. 哪些用户合约期满时会流失
-
1.2.1.2. 哪些账户遭受了诈骗
-
1.2.1.3. 哪些潜在用户会无法结清账户(即不良贷款,如电话账单或信用卡账单的违约)
-
1.2.1.4. 哪些网页的内容会令人不适等
-
1.2.2. 可以是希望发生的事件
-
1.2.2.1. 哪些用户最可能响应某个广告或优惠活动,以及哪些网页最符合某个搜索请求
1.3. 寻找或选择数据所描述的实体的重要且富含信息(“富信息”)的变量或“属性”
1.4. 进行有监督的数据挖掘的关键,是要有一个想要预测的或希望更深入地理解的目标变量
-
1.4.1. 该变量在真正需要决策时往往是未知或不可知的
-
1.4.2. 目标变量能够让我们更清晰地了解什么是“寻找富信息属性”,即是否存在一个或多个能够减小目标变量的不确定性的变量
-
1.4.3. 希望找到与目标变量相关的可知属性,以减小该目标变量的不确定性
-
1.4.4. 仅是寻找这些相关变量的过程本身,就有助于更加深入地理解这个商业问题
1.5. 寻找富信息属性有助于处理体量日益庞大的数据库和数据流
-
1.5.1. 当需要对过于庞大的数据集进行分析时,计算将成为一个巨大的挑战
-
1.5.2. 一个经过实践检验的解决方法就是先从数据集中选出一个子集来分析
-
1.5.3. 选择富信息属性则为选择富含信息的数据子集提供了一种“聪明”的办法
-
1.5.4. 如果在数据驱动建模前先选择变量,也有助于提升建模的精度
1.6. 寻找富信息属性也是一种被称作树型归纳的预测模型的基础
- 1.6.1. 树型归纳能通过一种巧妙的方式,即不断重复选择富信息属性,对数据进行有监督的划分
1.7. 预测建模是数据科学的主要任务之一,它通过建立模型来估计新个体的目标变量值
-
1.7.1. 找出并选择富信息属性
-
1.7.2. 选择富信息属性本身也是一个有用的数据挖掘过程
-
1.7.3. 面对一个庞大的数据集,我们现在能够找出其中的某些变量,它们要么能给出有关我们所关心的其他变量的信息,要么与该变量相关
2. 建模、归纳与预测
2.1. 模型就是一种为特定目的服务的、简化了的对现实世界的表现
-
2.1.1. 简化往往基于某些假设(也就是对上述特定目的而言,哪些问题重要,哪些问题不重要),但有时也基于信息或处理方面的限制
-
2.1.2. 地图就是真实世界的一个模型
2.2. 各行业中都有不同种类的著名的模型
-
2.2.1. 建筑蓝图、工程原型和Black-Scholes期权定价模型
-
2.2.2. 都舍弃了与主要目的无关的细节而仅保留了相关的信息
2.3. 在数据科学中,预测模型是一种用来预测我们感兴趣的未知值(即目标变量)的公式
- 2.3.1. 公式既可以是数学表达式,也可以是逻辑表达式(如规则),但通常表现为两者的混合体
2.4. 有监督型数据挖掘分为分类和回归两大类
2.5. 预测
-
2.5.1. 预测是指预报一个未来要发生的事件,而在数据科学中,其更常见的含义是估计一个未知量
-
2.5.2. 该未知量既可以是未来发生的事件(即通常含义的“预测”),也可以是当前或过去发生过的事件
-
2.5.3. 由于数据挖掘所处理的通常是历史数据,所以模型的建立和验证往往也是基于历史事件的
-
2.5.4. 关键在于,预测模型所估计的是某个未知量
-
2.5.5. 预测建模与描述建模截然不同
-
2.5.5.1. 后者的主要目的不是估计某个值,而是试图了解某个现象或过程背后的本质
-
2.5.5.2. 在某种程度上,描述模型的评估标准是其可理解性,我们可能倾向于选择一个精度不够高,但比较好理解的模型
-
2.5.5.3. 对于预测模型而言,可理解性固然很重要,但其评估标准却是预测能力
-
2.5.5.4. 会共用某些技术,而且一个模型通常可以兼顾预测和描述两个目的
-
2.5.5.5. 预测模型的价值不在于预测结果本身,而主要在于观察预测模型时所获得的对问题的理解
-
2.5.6. 有监督学习是一个建立模型的过程,该模型描述了一系列所选变量(属性或特征)和一个预先确定的变量(目标变量)之间的关系
-
2.5.7. 预测模型就像是特征变量的函数(一般是概率函数),被用来估计目标变量的值
-
2.5.8. 一个实例由一系列属性(又称域、列、变量或特征)所描述
-
2.5.8.1. 可以表示为一组长度固定且有序的特征值(向量),所以有时候实例也被称为特征向量
2.6. 一物多名
-
2.6.1. 数据科学中的同一个概念往往具有多个名称
-
2.6.2. 人们常说的数据集,其形式与数据库中的表和电子制表软件中的工作表是一致的
-
2.6.3. 数据集包含一系列示例或实例,而实例既是数据库中的表里的行,也是统计学中的案例
-
2.6.4. 特征(即表中的列)也有许多不同的名称
-
2.6.4.1. 在统计学中,作为输入,属性被称为独立变量或预测变量
-
2.6.4.2. 在运筹学研究中则叫作解释变量
-
2.6.4.3. 目标变量
> 2.6.4.3.1. 因为其值需要被预测,所以在统计学中常被称为依赖变量
> 2.6.4.3.2. 这种命名方式很容易造成混淆,因为独立变量不一定相互独立(或与其他元素独立),而依赖变量也不一定总是依赖于所有的独立变量
> 2.6.4.3.3. 目标变量不能用来预测它自己
2.7. 根据数据建立模型的过程也叫模型归纳
-
2.7.1. 既然模型就是统计意义上的一般性规则(一般来说,它们并非100%正确,有时其正确率很低),那么根据数据进行建模的程序就叫作归纳算法或学习器
-
2.7.2. 大多数归纳过程被转化为分类模型或回归模型
2.8. 归纳和演绎
-
2.8.1. 归纳是一个哲学术语,表示将具体案例推广为一般性规则(或规律、真理)
-
2.8.2. 与归纳相对的概念叫作演绎
-
2.8.3. 演绎可以从一般性规律和具体事实出发,推演出其他具体事实
-
2.8.4. 使用模型的过程就是一个(概率)演绎过程
-
2.8.5. 归纳算法所输入的数据被称作训练数据,可以用来归纳出模型
-
2.8.6. 由于训练数据中的目标变量(即标签)的值已知,所以训练数据也叫标注数据
3. 有监督的划分
3.1. 预测模型主要用来估计我们关心的目标变量的值
3.2. 用有监督方法获取数据中所含模式最直观的方法,就是尝试把总体划分成目标变量值不同的子群(同时让子群内的目标变量值相近)
3.3. 如果在目标变量值未知时,能知道用哪些变量值来做上述数据集划分,那么这样的划分就可以用来预测目标变量值
3.4. 仅是选择富信息变量这个基本观点的一种应用而已
3.5. 选取富信息属性
-
3.5.1. 纯是指目标变量值的同质性
-
3.5.1.1. 如果一个组内所有成员的目标变量值都相同,那么该分组就是纯的
-
3.5.1.2. 如果组内至少有一个成员的目标变量值与其他成员不同,那么该分组就是不纯的
-
3.5.2. 只要能显著降低分组的不纯度,就可以对数据(以及与之对应的总体)多一分了解
-
3.5.3. 即便有一个子组碰巧是纯的,其他的也未必纯
-
3.5.4. 纯度测量
3.6. 最常见的划分数据的指标被称为信息增益,它基于一个被称作熵的纯度测量指标
-
3.6.1. 由信息论先驱Claude Shannon首创
-
3.6.2. 熵可以用于测量集合中的无序程度
-
3.6.3. 在有监督的划分中,成员的性质就相当于目标变量的值
-
3.6.4. 混乱则指的是某个分组中这些性质的混合(或不纯)程度
3.7. 信息增益(IG)
-
3.7.1. 用它来测量一个属性(在依据其所做出的划分中)对熵值提高(降低)的影响
-
3.7.2. 信息增益测量的是加入新信息后熵值的改变
-
3.7.3. 信息增益就是父集和子集的函数
-
3.7.4. 信息增益不追求绝对的纯度,而且可以应用在子集为任意数量的问题上
3.8. 方差就是一个专门用来衡量数值型变量不纯度的指标
3.9. 每条路径的末端都会有一个终端节点,称为叶节点
-
3.9.1. 每个叶节点包含的是该分组的分类类别
-
3.9.2. 称这样的树为分类树,或通俗点,称为决策树
3.10. 分类树通常被用作预测模型,即“树形结构模型”
-
3.10.1. 分类树是一种树形结构模型
-
3.10.2. 在实际商业应用中我们想预测的往往并非类别值本身,而是不同类别值的概率
-
3.10.3. 概率估计树的叶节点就将包含这些概率
-
3.10.4. 回归树的叶节点包含的就是数值
-
3.10.5. 分类树就是一般规则中的条件聚集起来构成的
3.11. 树型归纳能够递归地找出数据子集中的富信息属性,同时把其实例空间划分为相似的区域
-
3.11.1. 这样的划分之所以被称为“有监督的”,是因为它所尝试找出的分组,可以为要预测的量(即目标变量)提供越来越精确的信息
-
3.11.2. 历史上,树型归纳由于具有通俗易懂、易于实施和计算廉价的优势,一直是一种非常受欢迎的数据挖掘方法
-
3.11.3. 树形结构尽管不是精度最高的,效果却出类拔萃
3.12. 最早的树型归纳系统
-
3.12.1. CHAID(卡方自动交互侦测器,Kass, 1980)
-
3.12.2. CART(分类与回归树,Breiman,Freidman, Olshen & Stone, 1984
-
3.12.3. C4.5和C5.0作为同样流行的树型归纳算法,其世系显而易见(Quinlan,1986, 1993)
-
3.12.4. J48则是Weka包中对C4.5的重新实现(Witten &Frank, 2000; Hall等,2001)
4. 划分的可视化
4.1. 可视化地展现分类树是如何划分实例空间的会很有启发性
4.2. 实例空间指的是由数据特征所描述的空间
-
4.2.1. 一种常见的实例空间可视化的形式是描述某些成对特征的散点图
-
4.2.2. 仅从几个维度进行实例空间可视化,仍然有助于理解不同种类的模型,因为在这个过程中所得到的见解也同样适用于更高维度的空间
4.3. 每个内部节点(决策节点)都对应对实例空间的一次划分,而每个叶节点都对应实例空间中一个未划分的区域(即总体的一个分组)
- 4.3.1. 每当沿着一条路径离开某个决策节点后,我们都仅关注该次划分所产生的两个或多个子区域中的一个
4.4. 决策线与超平面
-
4.4.1. 对实例空间进行划分的线被称作决策线(二维空间中),一般也被称作决策平面或决策边界
-
4.4.2. 如果一个问题有n个变量,那么分类树的各个节点就可以在其实例空间中创建一个n -1维的“超平面”决策边界
5. 概率估计
5.1. 类概率估计值
5.2. 如果一个叶节点包含n个正实例和m个负实例,那么新实例为正的概率就是n/(n+m)
- 5.2.1. 这种方法被称为基于频率的类成员概率估计