换一换

咨信网 > 资源分类 > PDF文档下载

预览

《R语言》课件第10章数据评估.pdf

资源ID：231477 资源大小：1.10MB 全文页数：25页
资源格式： PDF 下载积分：15金币

微信登录下载

验证码下载

账号登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

VIP下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

特别提醒 | 会员权益免费领取5元金币

1、推荐【 2345浏览器】、【 WPS办公】、填表【下载求助】、【索取发票】、【退款申请】、咨询【微信客服】、【 QQ客服】、【客服电话：4008-655-100 | 投诉/维权电话：4009-655-100】。

2、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。

3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。

4、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

5、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【曲****】。

6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。

7、文档遇到问题，请及时私信或留言给本站上传会员【曲****】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

《R语言》课件第10章数据评估.pdf

1、大数据应用人才培养系列教材第十章数据评估1 0.1数据集10握混淆矩阵1 0.3 风险图10/ROC曲线习题10.1数据集第十章模型评估训练数据集是用于建模的，所以通常情况下，在训练数据集上模型执行得很好。但个结论并不能真的说明模型好，我们更希望知道模型对看不见的数据有怎样的表现。为了回答这个问题，需要把模型应用到数据上。这样做之后，将得到模型的总体错误率。简单的做法就是把观察数据按比例划分,对比模型结果和实际结果差异。使用验证数据集测试模型的性能，同时微调模型。因此，建立一个决策树之后，我们要在验证数据集再一次检查模型的性能。我们可能会改变一些用于构建决策树模型的参数调节选项。基于

2、模型在验证数据集性能与旧模型对比，得到一个最终的模型性能的偏差彳古计。10.1数据集第十章模型评估测试数据集是一个在建模阶段没有使用过的数据集。一旦根据验证数据集确定了最好的模型，那么在测试集上对模型的性能评估。然后，在任何新的数据集上估计模型预期的性能。Data标签的第四个选项是使用全集评估模型（联合训练、验证和测试数据集）。这中策略似乎只对玩具项目有用，而不能精确的评估模型的性能。在Data*示签中，作为数据源的另一个选项是通过输入提供选择。当打分（Score）选为评价的类型时才使用。在这种情况下，弹出一个窗口允许直接输入数据。Data标签数据源的最后两个选项，一个是CSV文

3、件，另一个是 RDataseto它们允许数据从一个CSV文件加载到R中，作为模型评估数据集。10.1数据集第十章模型评估模型性能评价是通过交叉验证完成的。事实上，R中一些算法就是执行交叉验证来评估，决策树算法使用的rpart()就是一个例子。交叉验证的概念很简单。给定一个数据集，随机分割10份，使用其中的9份来建模，用最后的那1份度量模型的性能，重复选择不同的 9份构成训练集，余下的那1份用作测试，需要重复10次，10次测试的平均作为最后的模型性能度量。大数据应用人才培养系列教材第十章数据评估1 0.1数据集1 0.2混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题 10.2混

4、淆矩阵第十章模型评估二分类混淆矩阵实际正例反例合计正例反例合计真阳(TP)假阳(FP)预测正例数(TP+FP)假阴(FN)真阴(TN)预测反例数(FN+TN)实际正例数(TP+FN)实际反例数(FP+TN)总样本数 TP+FP+FN+TNTP(真阳性)表示阳性样本经过正确分类之后被判为阳性。TN(真阴性)表示阴性样本经过正确分类之后被判为阴性。FP(假阳性)表示阴性样本经过错误分类之后被判为阳性。FN(假阴性)表示阳性样本经过错误分类之后被判为阴性。10.2混淆矩阵第十章模型评估二分类混淆矩阵混淆矩阵是将每个观测数据实际的分类与预测类别进行比较。混淆矩阵的每一列代表了预测类别，每一列的总数

5、表示预测为该类别的数据的数目；每一行代表了观测数据的真实归属类别，每一行的数据总数表示该类别的观测数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目。这些指标通常对区分误分类错误类型有用。例如，在weather 数据集中。假阳性将预测明天会下雨，但事实上并非如此。结果是,我可能会带伞，但没有用到。假阴性预测结果是明天没有雨，但实际下了，如果依据模型的预测，你不需要带雨伞，不幸的是遇到大雨，你被淋湿了。在这个例子中，假阳性比假阳性更重要。10.2混淆矩阵第十章模型评估模型评价指标TP+TNaccuracy=-TP+TN+FP+FNsencitivity 二TPTP+FNspe

6、cificity=TNTN+FP 10.2混淆矩阵第十章模型评估模型评价指标FN+FPerror=-TP+TN+FP+FNFN mis-judgement=-TN+FNrecall=TP+FNTP+FP+TN+FN 10.2混淆矩阵第十章模型评估多分类混淆矩阵类类类实晟、123类14352类22453类30149-从表可以看出，第三行第三列中的43表示有43个实际归属第一类的实例被预测为第一类，同理，第四行第三列的2表示有2个实际归属为第二类的实例被错误预测为第一类。每一行之和为50,表示 50个样本，第三行说明类1的50个样本有43个分类正确，5个错分为类2,两个错分为类3。大数据应用

7、人才培养系列教材第十章数据评估10；数据集1 0.2混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题10.3风险图第十章模型评估风险图的作用在决策中，个性、才智、胆识、经验等主观因素使不同的决策者对相同的益损问题（获取收益或避免损失）做出不同的反应；即使是同一决策者，由于时间和条件等客观因素不同，对相同的益损问题也会有不同的反应。决策者这种对于益损问题的独特感受和取舍，称之为效用。效用曲线就是用来反映决策后果的益损值对决策者的效用（即益损值与效用值）之间的关系曲线。通常以益损值为横坐标，以效用值为纵坐标，把决策者对风险态度的变化在此坐标系中描点而拟合成一条曲线，称为风险图。

8、风险图也称为累计增益图（cumulative gain chart）,提供另外一种度量二分类模型的视角。10.3风险图第十章模型评估实验指导10.3风险图第十章模型评估实验指导Risk Chart Decision Tree weather.csv validate Ra in Tomorrow(次)SOUEUUOJJod20-o-Risk Scores100040 60Caseload(%)Weather数据集风险图10.3风险图第十章模型评估实验指导Risk Chart Decision Tree audit.csv validate TARGET_Adjusted(上)soUEUUO

9、JJSd40 00Caseload(%)audit数据集风险图10.3风险图第十章模型评估实验指导假设我们的资金允许审计5000名纳税人，如果我们随机选取50%,则希望感兴趣的执行利率也为50%。随机选择就是风险图的对角线，随机加载50%的案例（50000）,其性能也就是50%（发现只有一半的案例是我们感兴趣的），这是风险图基线。面我们用随机森林模型预测可能需要调整申报表的纳税人，对于每个纳税人，该模型纳税人需要调整纳税表的概率，有较高概率的纳税人要优先审计，基于这样的选择，概率高的其风险打分也较高。虚线表示使用优先审计策略得到的模型性能。对50%的案例其性能接近90%,即希望识

10、别出90%的需要调整纳税表的纳税人。浅实线表明如果简单地随机选择纳税人，其性能几乎提高了 2倍。10.3风险图第十章模型评估实验指导因此，模型提供了相当明显的效益。注意，我们不是对错误率特别关注，而是关注使用排序或优先级后模型获得的利益。深实线与虚线很接近，它表明模型风险的大小，它是基于图 10.4所示的风险变量，记录了对纳税申请表任何调整需要的花费。八risk性能曲线并不能适用任何模型，根据经验risk性能曲线接近Target性能曲线或位于Target性能曲线之上。如果是后者,在过程的早期，模型是偶尔能识别到高风险的案例，这是有用的结果。大数据应用人才培养系列教材第十章数据评估1

11、0：数据集1012混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题10.4 ROC曲线第十章模型评估什么是ROC曲线受试者工作特征曲线（receiver operating characteristic curve,简称ROC曲线），又称为敏感曲线，得此名的原因在于曲线上各点反映着相同的敏感性，它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。ROC曲线是根据一系列不同的二分类方式（分界值或决定阈），以真阳性率（敏感度=TP/（TP+FN）为纵坐标，假阳性率（1-特异度）为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点，必须将试验结果分为两类，再

12、进行统计分析。ROC曲线的评价方法与传统的评价方法不同，无须此限制，而是根据思维，允许有中间状态，可以把试验结果划分为多个有序分类，如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此，ROC曲线评价方法适用的范围更为广泛。10.4 ROC曲线第十章模型评估 ROC曲线的作用(1)ROC曲线能很容易判断边界值的分类能力。(2)选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值，其假阳性和假阴性的总数最少。(3)两种或两种以上不同诊断试验对疾病识别能力的比较。在对同一种疾病的两种或两种以上诊断方法进行比较时

13、，可将各试验的ROC曲线绘制到同一坐标中，以直观地鉴别优劣，靠近左上角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较，哪一种试验的AUC 最大，则哪一种试验的诊断价值最佳。10.4 ROC曲线第十章模型评估实验指导ROC Curve Decision Tree churnTrain validate churn1.00-1.00-ROC Curve Random Forest churnTrain validate chum0.75-50o.g(sod 8己1o.方江8usod 8己 1o.oo-0.25AUC=0 890.50 Fa

14、lse Positive RateAUC=0 890.50False Positive Rate1.00ROC Curve Linear churnTrain validate chumAUC=0 820.000.25 0.50 0.75 1.00False Positive Rate大数据应用人才培养系列教材第十章数据评估10：数据集10:2混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题习题:1.FP表达的含义_。A表示阳性样本经过正确分类之后被判为阳性；B表示阴性样本经过正确分类之后被判为阴性；C表示阴性样本经过错误分类之后被判为阳性；D表示阳性样本经过错误分类之后被判为阴性；2.ROC曲线又称作_。A敏感曲线B成本曲线C Lift曲线D特异性曲线3.模型评估常用到得方法有：混淆矩阵、风险矩阵、成本曲线、Lift曲线、ROC曲线、_等方法。4.p-value常用至加勺标签:;_;_等。5.模型评估的度量参数有：度量，准确率、识别率，错误率、误分类率，敏感度、真正例率、_特效型、真负例率，精度(precision)，吩数，Fb、其中b是非负实数6.混淆矩阵评价有6个指标分别为_。7.分别用公式表达准确度，灵敏度，特异性，错误率，误判率，并解释其含义。8:ROC曲线作用？感谢聆听

注意事项: 本文（《R语言》课件第10章数据评估.pdf）为本站上传会员【曲****】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4008-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

《R语言》课件 第10章 数据评估.pdf

《R语言》课件 第10章 数据评估.pdf

《R语言》课件第10章数据评估.pdf

《R语言》课件第10章数据评估.pdf