欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    《R语言》课件 第10章 数据评估.pdf

    • 资源ID:231477       资源大小:1.10MB        全文页数:25页
    • 资源格式: PDF        下载积分:15金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    VIP下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    特别提醒    |    会员权益      免费领取5元金币
    1、推荐 2345浏览器】、 【 WPS办公】、填表 下载求助】 、 【 索取发票】 、 【 退款申请 】 、咨询 微信客服】、【 QQ客服】、【客服电话:4008-655-100 | 投诉/维权电话:4009-655-100】。
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    《R语言》课件 第10章 数据评估.pdf

    1、大数据应用人才培养系列教材第十章数据评估1 0.1数据集10握混淆矩阵1 0.3 风险图10/ROC曲线 习题10.1数据集第十章模型评估训练数据集是用于建模的,所以通常情况下,在训练数据集上 模型执行得很好。但个结论并不能真的说明模型好,我们更希望知 道模型对看不见的数据有怎样的表现。为了回答这个问题,需要把模型应用到数据上。这样做之后,将得到模型的总体错误率。简单的做法就是把观察数据按比例划分,对比模型结果和实际结果差异。使用验证数据集测试模型的性能,同时微调模型。因此,建立 一个决策树之后,我们要在验证数据集再一次检查模型的性能。我 们可能会改变一些用于构建决策树模型的参数调节选项。基于

    2、模型 在验证数据集性能与旧模型对比,得到一个最终的模型性能的偏差 彳古计。10.1数据集第十章模型评估测试数据集是一个在建模阶段没有使用过的数据集。一旦根据验 证数据集确定了 最好的模型,那么在测试集上对模型的性能评估。然后,在任何新的数据集上估计模型预期的性能。Data标签的第四个选项是使用全集评估模型(联合训练、验证和 测试数据集)。这中策略似乎只对玩具项目有用,而不能精确的评估 模型的性能。在Data*示签中,作为数据源的另一个选项是通过输入提供选择。当打分(Score)选为评价的类型时才使用。在这种情况下,弹出一 个窗口允许直接输入数据。Data标签数据源的最后两个选项,一个是CSV文

    3、件,另一个是 RDataseto它们允许数据从一个CSV文件加载到R中,作为模型评估 数据集。10.1数据集第十章模型评估模型性能评价是通过交叉验证完成的。事实上,R中一些算法就 是执行交叉验证来评估,决策树算法使用的rpart()就是一个例子。交叉验证的概念很简单。给定一个数据集,随机分割10份,使用 其中的9份来建模,用最后的那1份度量模型的性能,重复选择不同的 9份构成训练集,余下的那1份用作测试,需要重复10次,10次测试 的平均作为最后的模型性能度量。大数据应用人才培养系列教材第十章数据评估1 0.1数据集1 0.2混淆矩阵1 0.3 风险图1 0.4 ROC 曲线 习题 10.2混

    4、淆矩阵第十章模型评估二分类混淆矩阵实际 正例反例 合计正例反例合计真阳(TP)假阳(FP)预测正例数(TP+FP)假阴(FN)真阴(TN)预测反例数(FN+TN)实际正例数(TP+FN)实际反例数(FP+TN)总样本数 TP+FP+FN+TNTP(真阳性)表示阳性样本经过正确分类之后被判为阳性。TN(真阴性)表示阴性样本经过正确分类之后被判为阴性。FP(假阳性)表示阴性样本经过错误分类之后被判为阳性。FN(假阴性)表示阳性样本经过错误分类之后被判为阴性。10.2混淆矩阵第十章模型评估二分类混淆矩阵混淆矩阵是将每个观测数据实际的分类与预测类别进行比较。混淆矩阵的每一列代表了预测类别,每一列的总数

    5、表示预测为该 类别的数据的数目;每一行代表了观测数据的真实归属类别,每一 行的数据总数表示该类别的观测数据实例的数目。每一列中的数值 表示真实数据被预测为该类的数目。这些指标通常对区分误分类错误类型有用。例如,在weather 数据集中。假阳性将预测明天会下雨,但事实上并非如此。结果是,我可能会带伞,但没有用到。假阴性预测结果是明天没有雨,但实际下了,如果依据模型的 预测,你不需要带雨伞,不幸的是遇到大雨,你被淋湿了。在这个 例子中,假阳性比假阳性更重要。10.2混淆矩阵第十章模型评估模型评价指标TP+TNaccuracy=-TP+TN+FP+FNsencitivity 二TPTP+FNspe

    6、cificity=TNTN+FP 10.2混淆矩阵第十章模型评估模型评价指标FN+FPerror=-TP+TN+FP+FNFN mis-judgement=-TN+FNrecall=TP+FNTP+FP+TN+FN 10.2混淆矩阵第十章模型评估多分类混淆矩阵类类类实晟、123类14352类22453类30149-从表可以看出,第三行第三列中的43表示有43个实际归属第一 类的实例被预测为第一类,同理,第四行第三列的2表示有2个实际 归属为第二类的实例被错误预测为第一类。每一行之和为50,表示 50个样本,第三行说明类1的50个样本有43个分类正确,5个错分为 类2,两个错分为类3。大数据应用

    7、人才培养系列教材第十章数据评估10;数据集1 0.2混淆矩阵1 0.3 风险图1 0.4 ROC 曲线 习题10.3风险图第十章模型评估风险图的作用在决策中,个性、才智、胆识、经验等主观因素使不同的决 策者对相同的益损问题(获取收益或避免损失)做出不同的反应;即使是同一决策者,由于时间和条件等客观因素不同,对相同的 益损问题也会有不同的反应。决策者这种对于益损问题的独特感 受和取舍,称之为效用。效用曲线就是用来反映决策后果的 益损值对决策者的效用(即益损值与效用值)之间的关系曲线。通常 以益损值为横坐标,以效用值为纵坐标,把决策者对风险态度的 变化在此坐标系中描点而拟合成一条曲线,称为风险图。

    8、风险图 也称为累计增益图(cumulative gain chart),提供另外一种度 量二分类模型的视角。10.3风险图第十章模型评估实验指导10.3风险图第十章模型评估实验指导Risk Chart Decision Tree weather.csv validate Ra in Tomorrow(次)SOUEUUOJJod20-o-Risk Scores100040 60Caseload(%)Weather数据集风险图10.3风险图第十章模型评估实验指导Risk Chart Decision Tree audit.csv validate TARGET_Adjusted(上)soUEUUO

    9、JJSd40 00Caseload(%)audit数据集风险图10.3风险图第十章模型评估实验指导假设我们的资金允许审计5000名纳税人,如果我们随机选 取50%,则希望感兴趣的执行利率也为50%。随机选择就是风 险图的对角线,随机加载50%的案例(50000),其性能也就 是50%(发现只有一半的案例是我们感兴趣的),这是风险图 基线。面我们用随机森林模型预测可能需要调整申报表的纳税 人,对于每个纳税人,该模型纳税人需要调整纳税表的概率,有较高概率的纳税人要优先审计,基于这样的选择,概率高的 其风险打分也较高。虚线表示使用优先审计策略得到的模型性能。对50%的案 例其性能接近90%,即希望识

    10、别出90%的需要调整纳税表的纳 税人。浅实线表明如果简单地随机选择纳税人,其性能几乎提 高了 2倍。10.3风险图第十章模型评估实验指导因此,模型提供了相当明显的效益。注意,我们不是对错误 率特别关注,而是关注使用排序或优先级后模型获得的利益。深实线与虚线很接近,它表明模型风险的大小,它是基于图 10.4所示的风险变量,记录了对纳税申请表任何调整需要的花 费。八risk性能曲线并不能适用任何模型,根据经验risk性能曲线 接近Target性能曲线或位于Target性能曲线之上。如果是后者,在过程的早期,模型是偶尔能识别到高风险的案例,这是有用 的结果。大数据应用人才培养系列教材第十章数据评估1

    11、0:数据集1012混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题10.4 ROC曲线第十章模型评估什么是ROC曲线受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线),又称为敏感曲线,得此名的原因在于曲 线上各点反映着相同的敏感性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。ROC曲线是根据一系列不同的二分类方式(分界值或决定 阈),以真阳性率(敏感度=TP/(TP+FN)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。传统的诊断试验评价方法有 一个共同的特点,必须将试验结果分为两类,再

    12、进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是 根据思维,允许有中间状态,可以把试验结果划分为多个有序分 类,如正常、大致正常、可疑、大致异常和异常五个等级再进行 统计分析。因此,ROC曲线评价方法适用的范围更为广泛。10.4 ROC曲线第十章模型评估 ROC曲线的作用(1)ROC曲线能很容易判断边界值的分类能力。(2)选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的 准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好 阈值,其假阳性和假阴性的总数最少。(3)两种或两种以上不同诊断试验对疾病识别能力的比较。在 对同一种疾病的两种或两种以上诊断方法进行比较时

    13、,可将各试 验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上 角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各 个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的AUC 最大,则哪一种试验的诊断价值最佳。10.4 ROC曲线第十章模型评估实验指导ROC Curve Decision Tree churnTrain validate churn1.00-1.00-ROC Curve Random Forest churnTrain validate chum0.75-50o.g(sod 8己1o.方江8usod 8己 1o.oo-0.25AUC=0 890.50 Fa

    14、lse Positive RateAUC=0 890.50False Positive Rate1.00ROC Curve Linear churnTrain validate chumAUC=0 820.000.25 0.50 0.75 1.00False Positive Rate大数据应用人才培养系列教材第十章数据评估10:数据集10:2混淆矩阵1 0.3 风险图1 0.4 ROC 曲线习题习题:1.FP表达的含义_。A表示阳性样本经过正确分类之后被判为阳性;B表示阴性样本经过正确分类之后被判为阴性;C表示阴性样本经过错误分类之后被判为阳性;D表示阳性样本经过错误分类之后被判为阴性;2.ROC曲线又称作_。A敏感曲线B成本曲线C Lift曲线D特异性曲线3.模型评估常用到得方法有:混淆矩阵、风险矩阵、成本曲线、Lift曲线、ROC曲线、_等方法。4.p-value常用至加勺标签:;_;_等。5.模型评估的度量参数有:度量,准确率、识别率,错误率、误分类率,敏 感度、真正例率、_特效型、真负例率,精度(precision),吩数,Fb、其中b是非负实数6.混淆矩阵评价有6个指标分别为_。7.分别用公式表达准确度,灵敏度,特异性,错误率,误判率,并解释其含 义。8:ROC曲线作用?感谢聆听


    注意事项

    本文(《R语言》课件 第10章 数据评估.pdf)为本站上传会员【曲****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 服务填表 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)    



    关注我们 :gzh.png  weibo.png  LOFTER.png