基于两视图半监督学习的产品质量问题识别方法.pdf
《基于两视图半监督学习的产品质量问题识别方法.pdf》由会员分享,可在线阅读,更多相关《基于两视图半监督学习的产品质量问题识别方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、doi:10.3969/j.issn.1007-7375.2023.03.010基于两视图半监督学习的产品质量问题识别方法姚池1,2,潘尔顺1,2(上海交通大学 1.机械与动力工程学院 2.中国质量发展研究院,上海 200240)摘要:针对电商网站中的大量非结构化、无标注的用户评论文本,运用两视图半监督学习方法对其进行分类,识别出涉及产品质量问题的内容,从而挖掘出其中隐含的产品质量缺陷与隐患。综合考虑词汇、情感、领域等多方面特征,构建文本特征视图和非文本特征视图,采用Co-training协同训练算法,依据是否涉及质量问题对评论进行分类。以电热水壶为例,爬取电商网站的评论数据进行实证分析。结果
2、显示,本文方法的分类F1值和AUC值分别为82.18%和86.24%,相比于单视图监督学习分类器具有显著提升。关键词:评论分类;多视图学习;半监督学习;协同训练;质量问题识别中图分类号:TP393文献标志码:A文章编号:1007-7375(2023)03-0086-09Identification Method of Product Quality Problems Based onTwo-view Semi-supervised LearningYAOChi1,2,PANErshun1,2(1.SchoolofMechanicalEngineering;2.ChineseInstitutef
3、orQualityResearch,ShanghaiJiaoTongUniversity,Shanghai200240,China)Abstract:Basedontheabundantunstructuredandunlabeledtextsofconsumerreviewsine-commercewebsites,atwo-viewsemi-supervisedlearningmethodisproposedtoclassifythereviewsandidentifythecontentrelatedtoproductqualityproblems,soastominethehidden
4、qualitydefectsanddangersofproducts.Comprehensivelyconsideringthecharacteristicsof vocabulary,emotion,domain and so on,the text view and non-text view are constructed,and the Co-trainingcollaborativetrainingalgorithmisadoptedtoclassifythereviewsaccordingtowhetherqualityproblemsareinvolved.Takingtheel
5、ectrickettleasanexample,theconsumerreviewswerecrawledfromane-commercewebsiteforempiricalanalysis.ResultsshowthatF1scoreandAUCoftheproposedmethodare82.18%and86.24%,respectively,whichissignificantlyimprovedcomparedwiththesingleviewsupervisedlearningclassifier.Key words:reviews classification;multi-vie
6、w learning;semi-supervised learning;collaborative training;qualityproblemsidentification传统的产品质量问题发现渠道为出厂前的检测、测试以及产品出厂后的用户问卷调查、保险公司反馈等,存在成本高、反映迟缓和样本不足等缺点1。随着电子商务的蓬勃发展,海量的产品评论数据为我们提供了大量来自顾客实际体验的反馈信息,而这些信息中又包含了大量涉及产品质量问题的内容。通过对这些在线数据进行收集、分类和挖掘,产品制造商可以在早期阶段就获取到产品的缺陷信息,从而做好风险管理,并制定合理的营销策略2。因此,如果充分利用好网络评论
7、数据,从中挖掘出产品质量方面的负面信息,将使得相关方能够尽早发现产品在质量方面的缺陷与隐患,对于消费品质量监管和促进消费品质量提升将带来极大的帮助。考虑到网络评论具有数据量大、信息稀疏、第26卷第3期工 业 工 程Vol.26No.32023年6月Industrial Engineering JournalJune2023收稿日期:2021-10-11基金项目:中国工程院重大咨询资助项目(2021-HYZD-7-3)作者简介:姚池(1997),女,四川省人,硕士研究生,主要研究方向为质量管理与文本挖掘。通讯作者:潘尔顺(1972),男,江苏省人,教授,博士,主要研究方向为可靠性工程与宏观质量研
8、究。表达不规范和非结构化等特点,为了从中提取出产品质量问题相关的信息,可以采用文本分类的方法,从海量评论数据中识别出涉及产品质量问题的评论(reviewsrelatedtoqualityproblems,RRQP),从而挖掘出其中隐含的产品质量问题与缺陷。以往不少学者通过情感分析(sentimentanalysis)识别产品质量问题。情感分析又称为态度挖掘(opin-ionmining),是根据主体各方面的属性来获得人的看法和情绪3。Zhang等4通过情感分析方法,对在线评论的态度极性进行挖掘,计算得到产品各类属性的情感得分,并在此基础上识别出产品的缺陷与问题。Li等5基于系统设计思想,通过情
9、感分析和社交网络分析实现社交智能的构建,对在线评论中可能提及的产品缺陷相关信息进行挖掘,为后续产品的改进提供参考。情感分析的方法原理简单,操作方便,其前提是假定评论的情感极性与产品质量优劣密切相关,但实际上负面评论不一定针对产品本身,因此运用情感分析来挖掘产品质量问题的方法存在较大的局限性6。随着文本挖掘技术的进一步发展,学者们越来越多地从文本特征分析的角度出发识别产品的质量状况,即基于文本特征对评论进行分类,进而划分出涉及质量问题的在线评论。英文语境下的研究开始得相对较早。如Abbasi等7将词汇、句法、语法以及结构方面的特征相结合,并构建了相应的文本特征集,实现对产品质量问题的识别。Abr
10、ahams等8构建面向网络论坛的社交媒体分析框架,综合考虑词汇、语法等7方面的文本特征,将定量分析运用于产品缺陷与质量问题的识别,并在疼痛治疗9、厨房洗碗机10等产品领域也进行了探究。Zhang等11提出一种针对产品缺陷的潜在狄利克雷分配模型(productdefectlatentDirichletallocation,PDLDA),利用相互依赖的三类主题从在线论坛里用户发表的大量帖子中识别出产品缺陷。Zheng等12通过构建概率图模型从社交媒体数据中识别出包含产品缺陷的内容,并对缺陷类型、部位以及问题等信息进行了挖掘。近年来逐渐有学者在中文语境下展开研究。如蒋翠清13从中文网络文本的特点出发
11、,综合考虑词汇、社会等多方面的特征,基于Tri-training半监督分类方法对论坛文本进行分类,挖掘出汽车质量问题与缺陷。张嵩等14提出基于在线评论的手机缺陷识别研究方法,利用监督学习方法进行文本分类,但该方法需要大量的人工标注。Jiang等15考虑中文论坛数据不平衡的特点,综合考虑语言、社会等多方面特征并构建质量相关文本挖掘模型(helpfulquality-relatedreviews,HQRM),利用一对多二叉树识别出汽车质量问题相关的内容。刘丹等16提出面向在线评论的产品缺陷识别框架,通过半监督学习对评论进行分类,并以除湿机为例开展实证研究。王海杰等17采用基于朴素贝叶斯的最大期望算
12、法实现了半监督分类,从在线汽车论坛中识别出指定类别的汽车缺陷。王余行等18针对论坛数据和用户体验的特点,选取词汇、文体等7方面特征,通过监督学习方法对涉及汽车质量问题的文本进行识别。综上所述,运用文本挖掘方法对社交媒体上的内容进行分析有利于发现产品质量问题,但现有研究大多都是通过情感分析或者构建特征框架等方式对文本进行分类,多采用基于单一视图的监督学习方法,需要人工标注大量语料,效率低,成本高,并且迁移性差。虽然有学者尝试运用Tri-training等半监督学习方法,但由于单视图特征下各个基分类器的差异性不足,对分类效果的提升作用有限。因此,本文针对用户评论本身的特点,提出基于Co-train
13、ing协同训练算法的两视图半监督文本分类方法TV-CoT(two-viewco-training),对涉及产品质量问题的评论(RRQP)进行识别,并运用真实评论数据对该方法的有效性进行验证。1 基于两视图半监督学习的用户评论文本分类方法基于上述分析,本文综合考虑词汇、情感、领域等多方面特征,采用Co-training协同训练算法构建两视图半监督分类模型,依据是否涉及产品质量问题对用户评论进行分类,对电商产品评论中的RRQP进行识别。对于同一评论,本文构建文本特征视图和非文本特征视图两个特征视图,基于少数标注样本分别训练支持向量机(supportvectormachine,SVM)和逻辑回归(l
14、ogisticregression,LR)分类器,并通过多次迭代,不断地对未标记样本进行分类和标记,以扩大训练集以及对分类器进行更新。构建的TV-CoT模型框架如图1所示,包括5个主要步骤。第3期姚池,潘尔顺:基于两视图半监督学习的产品质量问题识别方法871)将采集的评论数据经过数据清洗、分词、去停用词以及类别标注等数据预处理操作后,分成训练集、未标注集、验证集和测试集。2)对评论进行两视图特征构建。考虑传统的文本特征提取方法,通过LDA(隐含狄利克雷分布)主题模型和TF-IDF(词频逆文档频率)算法提取主题特征和统计特征,得到文本视图特征向量;考虑在线评论自身的特点和属性,通过构建领域特征、
15、属性特征、情感特征得到非文本视图特征向量。3)将训练集中的两视图特征向量分别输入到SVM和LR分类器中,对分类器进行训练,然后基于训练后的分类器对未标注集中的评论进行分类和类别标注,并从中选取一定数量的评论加入训练集,对训练集进行扩充。4)重复上面两个步骤,不断扩充训练集和更新分类器,直至达到终止条件,即迭代次数达到给定值。5)将经过上述步骤后所得到的两个分类器进行融合,最后输入测试集得到最终分类结果。2 两视图特征构建传统的短文本分类方法多是从文本本身的角度出发进行特征构建,获得的特征向量较为稀疏,并且往往不能充分挖掘在线评论所涵盖的信息。在评论挖掘领域,有学者证实词汇、文体、句法、情感等方
16、面的特征在文本分类中具有显著作用19。因此,针对电商平台在线评论数据的特点,本文在现有的研究基础上将评论特征分为文本视图(textview,TV)和非文本视图(non-textview,NTV),并分别进行特征构建,获得Co-training协同训练所需的两视图特征向量。2.1 文本视图特征构建用于分类的评论数据由于文本长度短,包含有效信息较少,采用单一的特征提取方法获得的样本特征有限。因此本文选取短文本分类中常用的TF-IDF算法和LDA主题模型分别提取评论文本的统计特征和主题特征,并将两种特征向量进行拼接,得到融合后的文本视图特征向量。2.1.1TF-IDF特征提取TF-IDF是用于评估文
17、档中词语重要程度的经典统计方法,其中TF(termfrequency)表示词频,IDF(inversedocumentfrequency)表示逆文本频率指数,它能够表征某个词语在某篇文档中的区分度,TF-IDF值由TF值和IDF值相乘得到。和简单的词频统计相比,TF-IDF倾向于过滤掉区分度低的高频词,文本预处理训练集TF-IDF 统计特征LDA 主题特征文本视图特征(TV)属性特征情感特征非文本视图(NTV)领域特征支持向量机逻辑回归终止条件?分类器融合是未标注集否添加伪标注样本测试集验证集最终分类结果模型调参类别预测分类效果评价原始评论数据图 1 TV-CoT模型框架Figure 1 Fr
18、amework of the TV-CoT model88工业工程第26卷但保留区分度高的低频词。式(1)(3)分别表示词语的词频、逆文本频率指数和TF-IDF值(可以理解为在分类中的词项权重)。tfi,j=ni,jknk,j;(1)idfj=lg|D|j:ti dj|;(2)tfidfi,j=tfi,jidfj。(3)j篇文档中第i个词语对应ni,jtidjdjkknk,jdjklg|D|?j:ti dj?ti上式计算了第的TF-IDF值。其中,表示词语 在文档 中出现的次数,文档中包含的词语数目为;表示在文档中所有词语(数目为)出现次数之和,即文档的总词数;是以10为底的对数,具有类似于增
19、强区分度的作用;表示语料库中的文档总数,表示所有文档中包含词语 的文档数量。2.1.2LDA主题特征提取LDA主题概率生成模型是一种在文本挖掘领域应用广泛的无监督学习方法,包含词语、主题、文档3层结构,可用于获取文档中潜在的主题概率分布信息。以LDA为代表的概率空间模型在文本表示上具有优异的效果,能够提升文本的分类效果。LDA认为每篇文档有一定概率属于某个主题,而该主题又有一定概率包含某个词,文档到主题、主题到词均服从多项分布,而对应主题和文档的多项式分布参数的先验分布为Dirichlet分布。运用Gibbs采样进行求解可以得到文本的文档主题概率分布信息,完成评论文本主题特征的提取。至此,将上
20、述得到TF-IDF统计特征和LDA主题特征采用拼接的方法进行融合,即可得到文本视图特征向量,具体做法如式(4)所示。V1=VL,VT。(4)VLnVTmV1nm(n+m)式中,为通过LDA提取的 维主题特征向量,为通过TF-IDF提取的维统计特征向量,为 维主题特征向量和 维统计特征向量拼接后的维文本视图特征向量。这种多维度融合的特征构建方式集合了LDA主题模型和TF-IDF算法的优势,有效解决了短文本特征稀疏、信息量少等问题。2.2 非文本视图特征构建针对电商平台在线评论本身的特点,本文通过对评论进行处理和分析,构建属性特征、领域特征、情感特征并融合输出为特征向量,完成非文本视图特征构建。2
21、.2.1属性特征评论所固有的那些独立于文本内容本身,且和文本含义,包含词汇无关的特征构成其属性特征,其中的多数信息在评论采集时即可直接获得。选取的属性特征及其含义如下:1)评论长度:对评论文本进行分词和去停用词后的总词数;2)评论星级:顾客在评论时所给的星级,其中5星和4星代表好评,3星和2星代表中评,1星代表差评;3)点赞数:该评论在评论区所获得的点赞数量;4)包含图片数:评论中所包含的图片数量;5)商家是否回复:商家是否对该评论进行回复,是为1,否则为0.2.2.2领域特征在与质量问题相关的评论中,那些表征产品缺陷与质量问题的词语出现频率通常远高于其他评论。Abrahams等8从用户评论中
22、抽取指示词构建“smokewords”,即“烟词”词表,利用这类能够反映质量问题的词汇检测评论中是否包含产品缺陷。本文基于“烟词”即“产品缺陷指示词”在不同类文本中的分布差异,对评论语料进行对比分析,运用统计方法并结合人工处理抽取出同产品质量缺陷与质量问题相关性较大的词,完成领域词典的构建。对用户评论中各领域词出现的频率进行统计,即得到评论的领域特征,其对应的维数为领域词典中的词语数量。2.2.3情感特征运用情感分析方法能够对用户评论中的情感倾向进行判断,并通过文本中出现的情感词、程度词、否定词等对评论的综合情感值进行计算。已有学者通过情感分析的方法4,根据产品各属性的情感极性及综合情感值进行
23、意见分类,利用负面极性消息发现产品缺陷。尽管负面评论不一定针对产品本身6,但表达负面情感倾向的评论涉及产品质量问题的可能性相对更大,因此本文通过情感分析得到用户评论的综合情感评分,完成情感特征的提取。VAVFVEV2=VA,VF,VE对上述得到的属性特征、领域特征、情感特征进行拼接,可以获得用户评论的非文本视图特征向量,具体如表1所示。第3期姚池,潘尔顺:基于两视图半监督学习的产品质量问题识别方法89 3 分类器选择Co-training协同训练中为不同的视图选择合适的分类器对于最终的分类结果有着显著影响。为了在特征构建的基础上选择正确的分类器,运用SVM、LR、朴素贝叶斯(naiveBaye
24、s,NB)、决策树(gradientboosingdecisiontree,GBDT)、K最近邻(K-nearestneighbor,KNN)5种常用分类器进行初步实验,并根据实验结果分别为文本视图和非文本视图选取对应分类效果最好的分类器,即SVM作为文本视图分类器(TV-SVM),LR作为非文本视图分类器(NTV-LR)。3.1 文本视图分类器(TV-SVM)(x)SVM在文本分类中应用广泛,在小样本训练集中有良好的分类效果。SVM通过找到一个使得被其分开的两类数据间隔最大的超平面来实现对样本的分类。对于线性可分问题,定义超平面如式(5)所示,其中表示将特征向量x映射后得到的向量,w是分类超
25、平面的权重向量,b是分类阈值。f(x)=wT(x)+b。(5)(xi,yi)满足式(6)的样本点被称作支持向量,其中yi为类别标签,1对应正例,1对应负例。yif(xi)1,i=1,n。(6)l=2ww对应的分类间隔为,那么求解最优超平面问题可以转化为求解最小值的二次规划问题,如式(7)所示。min(12w2)。s.t.yi(wixi+b)1,i=1,n。(7)而对于线性不可分问题,SVM需要将原始空间的样本映射到高维空间,在高维空间构造最优分离超平面。在实际应用中,为了减少计算复杂度,一般通过引入核函数来简化计算。常见的核函数包括线性核、高斯核和多项式核,为了保证基于文本视图的分类尽量高效和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 视图 监督 学习 产品质量问题 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。