不完整数据分类与缺失信息重要性识别特权LSSVM.pdf
《不完整数据分类与缺失信息重要性识别特权LSSVM.pdf》由会员分享,可在线阅读,更多相关《不完整数据分类与缺失信息重要性识别特权LSSVM.pdf(11页珍藏版)》请在咨信网上搜索。
1、DOI:10.11992/tis.202202026网络出版地址:https:/ LSSVM吴晗,王士同(江南大学 人工智能与计算机学院,江苏 无锡 214122)摘 要:针对直接移除缺失数据的样本可能会导致因样本数量规模的减少从而降低了分类性能的问题,本文基于同时处理缺失数据与构建模式分类模型的策略,提出使用特权信息学习(learning using privileged information,LUPI)的特权最小二乘支持向量机(privileged least squares support vector machine,P-LSSVM),从而达到既能改进其分类性能,又能在保证无偏的情况
2、下确定缺失特征的重要性。本文的基本思想是将完整数据的训练作为特权信息,以此来引导面向整个不完全数据的最小二乘支持向量机(least squares support vector machine,LSSVM)的学习,通过可加性核表达每个特征(含缺失特征)的重要性,推导完整数据的训练的特权信息,并以此构建 P-LSSVM,运用所提出的留一交叉验证方法完成无偏的缺失特征重要性识别。实验结果表明,本文提出的方法不但在平均测试精度上优于对比算法,还能同时确定缺失特征的重要性。关键词:最小二乘支持向量机;特权信息学习;可加性核;数据缺失;k 最近邻;样本空间;特权空间;数据质量中图分类号:TP181 文献
3、标志码:A 文章编号:16734785(2023)04074311中文引用格式:吴晗,王士同.不完整数据分类与缺失信息重要性识别特权 LSSVMJ.智能系统学报,2023,18(4):743753.英文引用格式:WU Han,WANG Shitong.Privileged LSSVM for classification and simultaneous importance identification of miss-ing information on incomplete dataJ.CAAI transactions on intelligent systems,2023,18(4)
4、:743753.Privileged LSSVM for classification and simultaneous importanceidentification of missing information on incomplete dataWU Han,WANG Shitong(School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China)Abstract:While handling missing data classification tasks,th
5、e commonly-used removal strategy of missing data mayperhaps degrade the classifiers performance,due to very insufficient perfect data.Based on the strategy of processingmissing data and constructing classification model simultaneously,we develop a novel privileged LSSVM(P-LSSVM),which learns using p
6、rivilaged information.It can not only improve its classification performance,but also determines theimportance of missing features without bias.The basic idea is to take the trained classifier of the available perfect data asthe privileged information to guide the learning of LSSVM for the whole inc
7、omplete data,express the importance ofeach feature including missing features through the additivity kernel,then deduce the privilaged information of com-plete data after training,based on which P-LSSVM is constructed.Finally,the unbiased missing feature importance re-cognition is completed by the p
8、roposed leaving-one cross-validation method.Experimental results show that the pro-posed method can achieve better testing accuracies,with the importance identification of missing features.Keywords:least squares support vector machines;learning using privileged information;additional kernel;missingd
9、ata;k-nearest neighbor;sample space;privileged space;data quality 在实际应用中,数据的缺失是一个难以避免的问题。它减少了样本数量,还可能会在研究中引入偏见1。数据缺失的原因多且难以有效避免。例收稿日期:20220227.网络出版日期:20230324.基金项目:国家自然科学基金项目(61972181).通信作者:王士同.E-mail:.第 18 卷第 4 期智能系统学报Vol.18 No.42023 年 7 月CAAI Transactions on Intelligent SystemsJul.2023智能系统学报编辑部版权所
10、有如受访者出于保护隐私的目的拒绝提供某些信息、设备在某一时刻出现故障、调查时的失误导致的信息遗漏。缺失数据的修复通常比较困难,对缺失数据的不当处理可能导致分类性能下降。因此,以适当方式处理分类问题中缺失数据是一项基本要求2。机器学习对缺失数据分类的研究一般分为2 个部分:缺失数据的处理和分类模型的构建。在目前的机器学习中,已对样本的局部缺失做了很多研究1。通常会用 3 种类型的策略处理缺失数据。最直接的处理策略是直接丢弃不完整的数据,仅使用完整的样本构建分类模型2。这种策略会减少样本的数量,只适用于样本足够多且不完整样本占比例较小的情况。当丢失的数据不满足随机分布时,可能引入偏差2-3。另一种
11、策略是模式基础法,估计输入数据的分布并将其用于模式分类。例如,使用期望最大化(expectation max-imization,EM)算法4开发混合模型来估计数据分布,再使用贝叶斯决策理论来分类5。但估计值标准误差的计算6,以及建模协变量联合分布的EM 算法的蒙特卡罗实现7较复杂,使该方法的适用性差。第 3 种策略先通过使用估计值填充缺失数据来修复数据集,然后再使用修复后的数据建立分类模型。常用的填充方法有均值填充1和基于回归的填充2。均值填充法是使用具有完整数据的样本的特征平均值来填充缺失样本缺失的特征值。此方法没有考虑到数据集中样本的其他特征之间的相关性1。基于回归的填充使用具有完整数据
12、的样本构建出的回归模型来估计特征的缺失值。该方法高度依赖于数据的质量2-3。此外,还可以通过使用机器学习技术构建预测模型来估计缺失值。例如 k 最邻近填充(k-nearest neighbor,KNN)8和神经网络9。其中最常被使用的方法是 KNN,从完整样本中选出距离含缺失数据的样本最近的 k 个样本,用它们来估算出缺失的数据。KNN 的性能总体上优于其他机器学习方法,如决策树和均值填充方法3。在 DNA 研究中,KNN 具有优于均值填充和基于奇异值分解填充的性能10。然而,KNN 的性能依赖于 k 值等参数的设置,而这些参数难以使用理论方法确定。近年来,在处理缺失数据的同时构建模式分类模型
13、的相关研究工作正在发展,不同于前述策略中先处理缺失数据再建立模型的思路,该策略选择将处理缺失数据与构建模式分类模型同时进行。例如,设计神经网络集成用于不完整数据的分类11-13。从含有缺失数据的数据集中生成多个完整的子数据集,将其作为神经网络的训练数据集14。此外,还有使用模糊规则分类器处理缺失数据的模糊方法,可以通过使用模糊 C 均值算法15实现。该策略最大限度地利用了数据集中的信息,在尽可能地保留原始数据特性的同时,无需对数据分布做任何假设。越来越多的研究用该策略提高模型的性能 1。基于教学中教师的角色对学生学习起到的重要作用,Vapnik 等16提出了使用特权信息学习范式(learnin
14、g using privileged information,LUPI)方法。LUPI 通过提供仅在训练阶段可用的信息帮助提高模型在测试阶段的表现。经典的使用特权信息学习支持向量机(learning using privileged in-formation support vector machine,SVM+),若在校正空间获得了较小的误差,在决策空间中也会得到较小的误差,使用特权信息所定义的校正函数来计算支持向量机(support vector machine,SVM)中的松弛变量16。利用这一特性,将 LUPI 引入到此策略中,将完整数据的训练作为特权信息,保证训练样本中误差和特权信息
15、误差的相似,能得到由不完整特征的局部数据缺失所带来的对整体分类性能的影响。然而,目前还没有将 LUPI 引入这种策略的研究。大多数机器学习方法侧重于提高缺失数据的总体性能,但很少关注数据集中特征的缺失数据对分类性能的影响。如果能识别其影响,慎重地对待影响更大的特征,依此为数据收集过程提供指导,可以促进数据质量的改善2。基于在处理缺失数据的同时构建分类模型的思路,本文提出一种新的引入 LUPI 的特权最小二乘支持向量机(privileged least squares support vectormachine,P-LSSVM)来处理数据缺失问题17-18。将 LSSVM 与可加性高斯核相结合,
16、用完整数据的训练作为特权信息引导面向含有缺失数据的最小二乘支持向量机(least squares support vector ma-chine,LSSVM)的学习。P-LSSVM 可同时完成对不完整样本的分类和对缺失数据特征无偏的重要性识别。P-LSSVM继承了 LSSVM 的理想特性,即通过最小化基于 LSSVM 的目标函数,可以得到对应凸优化问题的解18-19。在实验部分,将 P-LSSVM 与使用了前 3 种策略处理缺失数据的 LSSVM 在公开数据集上进行了比较,实验结果证明了 P-LSSVM 的有效性。此外还介绍了使用 P-LSSVM 对 German 数据集进行的案例研究,强调了
17、该方法对该实际应用的贡献。744智能系统学报第 18 卷 本文的主要贡献归纳如下:1)开展了将 LUPI 引入在处理缺失数据的同时构建模式分类模型这一处理数据缺失策略的研究。2)提出了一种新的引入了 LUPI 的可加性 LSS-VM 模型,可直接用于具有缺失数据的数据集的分类任务,不需要提前对不完整数据集进行处理。3)通过留一交叉验证无偏评估出模型构建过程中特征缺失数据造成的分类误差,提供了其相关重要性,可为数据收集过程提供引导,改善数据质量。4)在公开数据集的实验结果证明了 P-LSSVM的有效性。并针对使用 P-LSSVM 对指导数据收集进行了案例研究。1 相关模型与学习范式 1.1 最小
18、二乘支持向量机LSSVM 将 SVM 中的不等式约束修改为等式约束,将原来的解二次规划问题变成了解线性方程组的问题,方便了对拉格朗日乘子的求解17。标准 LSSVM 模型为minw,b,eJ(w,e)=12w,w+2ni=1e2is.t.yt=w,(xt)+b+et,t=1,2,n(1)wb()etxt式中:、为样本特征空间的权重向量和偏置向量;为样本特征空间上的由核函数所诱导的特征映射函数,用于非线性可分的训练样本;为第t 个样本的误差变量,用来处理可能出现特异点的问题;正实数 为正则化参数,通过在训练误差和模型复杂度之间进行折衷,可以使函数具有更好的泛化能力17。对式(1)求解即可得到 L
19、SS-VM 的决策函数。1.2 可加性核在本文中,为了能够使模型可以学习包含了缺失信息的样本数据,采用可加性核。可加性核能单独的考虑每一维特征产生的影响,使用在各特征上的影响的组合衡量 2 个样本的关系。可加性核在多种框架下得到应用。Maji 等20证明了利用可加性核 SVM 建立分类器,其运行时和内存复杂度与支持向量的数量无关。在运行时间相同的情况下,与线性 SVM 相比,可加性核 SVM可以显著提高各种任务的精度,使其适用于大规模识别或实时检测任务。Demir 等21在遥感任务中引入了适合直方图特征的可加性核,提出了基于直方图特征和可加性核 SVM 的快速准确的分类方法。王旭凤22使用随机
20、梯度下降(stochasticgradient descent,SGD)以及一些改进的 SGD 方法包括异步随机梯度下降(asynchronous stochasticgradient descent,ASGD)、随机方差减少梯度下降(stochastic variance reduced gradient,SVRG)和Katyusha 算法来处理基于可加性核的 SVM 分类问题。Pelckman 等18将可加性核引入 LSSVM,提出分量 LSSVM,用于建立由非线性分量和组成的可加性模型。可加性核定义为k(xi,xj)=dl=1kg(xgj,xgi)(2)xixjdkg(,)g式中:、为数
21、据集中的任意 2 个样本,为样本的特征数量,为在样本的第 维特征上使用的核函数。相比较于传统的核函数,在模型上应用可加性核,不论特征是否具有缺失值,都可以很容易地用于计算核函数的相应值。1.3 特权信息学习基于老师往往在学习过程中发挥重要作用这一观察,Vapnik 等16提出了使用特权信息学习的算法。在实际应用中特权信息是常见且有用的。Xue 等23使用特权信息来控制决策误差,设计出可以有效对抗数据中噪声的鲁棒的 SVM+算法。Xu 等24基于 LUPI 设计了一种新颖的距离度量学习算法,从图像中分别提取视觉特征和深度特征并将深度特征视为特权信息,改进 RGB 图像中的人脸验证和人员重新识别。
22、Pal 等25从数据集中提取特权信息,将特权信息引入校正函数,提出了使用特权信息改进型双支持向量机(improvedtwin support vector machine using privilege informa-tion,I-TWSVMPI)。本文基于 LUPI,以 LSSVM 为基础,提出了能将缺失数据的处理和分类模型的构建同时进行的特权最小二乘支持向量机(privileged least squaressupport vector machine,P-LSSVM),可用于缺失数据的分类问题以及缺失数据影响识别问题。2 P-LSSVM 2.1 数据表示Ddd在引入 LUPI 的 LS
23、SVM 模型中,训练数据集的形式和 SVM+类似。定义是一个数据集,它具有 n 个样本和 n 个样本对应的特权信息,样本有 个特征,样本对应的特权信息具有个特征:第 4 期吴晗,等:不完整数据分类与缺失信息重要性识别特权 LSSVM745(x1,x1,y1),(x2,x2,y2),(xn,xn,yn)ixi=(x1i,x2i,xdi)xi=(x1i,x2i,xdi)yi+1,1 i=1,2,nddDDX=x1i,x2i,xdi|i=1,2,nDX=x1i,x2i,xdi|i=1,2,nD式中:第 个样本的特征向量标记为,对应的特权信息标记为,其对应的标签为,。对于一个包含了缺失数据的数据集,定
24、义 为含有缺失数据的特征的个数,可以定义为数据集中完整特征的个数,将原数据集划分为 2 部分。即原数据集的只含有不完整特征的一个子集和原数据集的子集,其中只含有完整信息的特征。图 1 是对数据集的描述,标记“?”表示此处的数据缺失了。D11Y2XX*dd*.x1x2xn?.图 1 数据集的表示Fig.1 Representation of dataset 2.2 P-LSSVM 算法在 SVM+中使用特权信息定义的校正函数来计算 SVM 中的误差变量。保证了训练样本中误差以特权信息为上界,即对于 LUPI 方法,特权信息对决策模型的建立进行了引导,如果在校正空间获得了较小的损失,那么在决策空间
25、中也应该得到较小的损失23。在 LSSVM 中引入 LUPI,将完整数据的训练作为特权信息,利用特权信息对LSSVM 进行引导,保证不完整特征中误差和特权信息误差的相似,反映出由特征的局部数据缺失所带来的对整体分类性能的影响。在 LSSVM 中引入 LUPI 得到的使用特权信息来引导 LSSVM中误差变量 e 的 LSSVM+模型,可得到其目标函数和约束为minw,w,b,bJ(w,w,e,)=12w,w+2w,w+2ni=1e2i+C2ni=1(eii)2s.t.yt=w,(xt)+b+ett=w,(xt)+bt=1,2,n(3)w bwb()()式中:、和、分别为样本特征空间和特权信息特征
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整 数据 分类 缺失 信息 重要性 识别 特权 LSSVM
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。