人工智能和机器学习--PPT05-模型选择和评价.pdf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 机器 学习 PPT05 模型 选择 评价
- 资源描述:
-
模型选择和评价王秋月中国人民大学信息学院如何选择模型?对一个给定的有监督学习任务,应该选择哪个学习模型?如何选择该模型的最优参数?如何估计训练好的模型在学习样例之外的数据上可能的性能?模型评价(1)训练精度(training accuracy)在整个数据集上训练模型 并在同一个数据集上测试模型,得到模型的预测结果,和真实结果做比较,计算模型的精度 问题:机器学习的目标是期望模型能在学习样例之外的数在学习样例之外的数据上据上有好的表现(面向未来,而不是过去)最大化训练精度,通常会产生过于复杂的模型,从而导致过拟合,模型不能很好地泛化泛化01020Number of Malignant Nodes6040200K=16040201020Number of Malignant Nodes4K=34K值会影响判定边界XYModelTrue Function SamplesXYX5YPolynomial Degree=1Polynomial Degree=4Polynomial Degree=15不同复杂度的模型YModelTrue Function SamplesXYYPolynomial Degree=1Polynomial Degree=4Polynomial Degree=15XPoor at Training Poor at PredictingJust RightXGood at Training Poor at Predicting6不同模型的泛化能力XYModelTrue Function SamplesXYXYPolynomial Degree=1Polynomial Degree=4Polynomial Degree=15UnderfittingJust RightOverfitting7欠拟合与过拟合欠拟合和过拟合都会导致较大的泛化误差。监督学习中的误差来源Error=Bias2+Variance+Noise 偏差偏差(Bias):模型的期望输出值(即用不同数据集训练出的所有模型输出的平均值)与真实值之间的差异。即学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。方差方差(Variance):用不同数据集训练出的模型的输出值之间的差异。即数据的变动所导致的学习性能的变化,刻画了学习算法的稳定性。偏差与方差偏差-方差权衡YModelTrue Function SamplesXYYPolynomial Degree=1Polynomial Degree=4Polynomial Degree=15XHigh Bias Low VarianceJust RightXLow Bias High Variance11偏差-方差权衡模型评价(2)测试精度(testing accuracy)把数据集划分成两个子集:训练集和测试集 在训练集上训练模型 在测试集上测试模型,并计算精度划分训练集和测试集测试数据测试数据14划分训练集和测试集训练数据训练数据训练模型训练数据训练数据评价模型-用模型预测类别标签-和真实值比较-计算误差15测试数据测试数据使用训练集和测试集0.01.02.00.01.02.0 x108x1081.0162.03.04.0 x108x1081.02.03.04.0训练数据训练数据测试数据测试数据使用训练集和测试集0.01.02.00.0 x108x1081.02.03.04.0 x108x1081.02.03.04.0训练数据训练数据测试数据测试数据1.02.0训练模型训练模型17使用训练集和测试集0.01.02.00.01.02.0 x108x1081.02.03.04.0 x108x1081.02.03.04.0训练数据训练数据测试数据测试数据预测预测18使用训练集和测试集0.00.01.02.0 x108x1081.02.03.04.0 x108x1081.02.03.04.0训练数据训练数据测试数据测试数据1.02.0计算误差计算误差(或精度)(或精度)19使用训练集和测试集20导入划分训练集和测试集的函数:导入划分训练集和测试集的函数:from sklearn.model_selection import train_test_split划分数据集,测试集数据占全集的划分数据集,测试集数据占全集的30%:train,test=train_test_split(data,test_size=0.3)划分训练集和测试集的语法https:/scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html21超越单个测试集:交叉验证验证数据验证数据训练数据训练数据0.01.02.00.01.02.0 x108x1081.02.03.04.0 x108x1081.02.03.04.0训练数据训练数据测试数据测试数据对这个测试集的最优模型对这个测试集的最优模型22超越单个测试集:交叉验证23超越单个测试集:交叉验证验证数据验证数据1训练数据训练数据124验证数据验证数据2训练数据训练数据2超越单个测试集:交叉验证25超越单个测试集:交叉验证验证数据验证数据3训练数据训练数据326超越单个测试集:交叉验证验证数据验证数据4训练数据训练数据427超越单个测试集:交叉验证errorcross validation errortraining error28模型复杂度与误差errorcross validation errortraining error29模型复杂度与误差YModelTrue Function SamplesPolynomial Degree=1errorcross validation errortraining error30模型复杂度与误差欠拟合:训练误差和交叉验证误差都很高欠拟合:训练误差和交叉验证误差都很高YPolynomial Degree=15ModelTrue Function Samples31模型复杂度与误差errorcross validation errortraining error过拟合:训练误差低,交叉验证误差高过拟合:训练误差低,交叉验证误差高errorcross validation errortraining errorYPolynomial Degree=4ModelTrue Function Samples32模型复杂度与误差33导入划分训练集和测试集的函数:导入划分训练集和测试集的函数:from sklearn.model_selection import cross_val_score用一个给定的模型执行交叉验证:用一个给定的模型执行交叉验证:cross_val=cross_val_score(KNN,X_data,y_data,cv=4,scoring=neg_mean_squared_error)交叉验证的语法https:/scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html34导入划分训练集和测试集的函数:导入划分训练集和测试集的函数:from sklearn.model_selection import cross_val_score用一个给定的模型执行交叉验证:用一个给定的模型执行交叉验证:cross_val=cross_val_score(KNN,X_data,y_data,cv=4,scoring=neg_mean_squared_error)交叉验证的语法其他其他CV splitter:LeaveOneOut,ShuffleSplit,StratifiedShuffleSplit http:/scikit-learn.org/stable/modules/cross_validation.htmlcv的可能取值:None,to use the default 3-fold cross validation,integer,to specify the number of folds in a(Stratified)KFold,CV splitter,An iterable yielding(train,test)splits as arrays of indices.Jupyter演示第5章-模型选择.ipynb展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




人工智能和机器学习--PPT05-模型选择和评价.pdf



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/3564127.html