分销赏收藏举报申诉 / 9

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于两视图半监督学习的产品质量问题识别方法.pdf

基于两视图半监督学习的产品质量问题识别方法.pdf

上传人：自信****多点

文档编号：639422

上传时间：2024-01-22

格式：PDF

页数：9

大小：904.48KB

《基于两视图半监督学习的产品质量问题识别方法.pdf》由会员分享，可在线阅读，更多相关《基于两视图半监督学习的产品质量问题识别方法.pdf（9页珍藏版）》请在咨信网上搜索。

1、doi:10.3969/j.issn.1007-7375.2023.03.010基于两视图半监督学习的产品质量问题识别方法姚池1,2，潘尔顺1,2(上海交通大学 1.机械与动力工程学院 2.中国质量发展研究院，上海 200240)摘要:针对电商网站中的大量非结构化、无标注的用户评论文本，运用两视图半监督学习方法对其进行分类，识别出涉及产品质量问题的内容，从而挖掘出其中隐含的产品质量缺陷与隐患。综合考虑词汇、情感、领域等多方面特征，构建文本特征视图和非文本特征视图，采用Co-training协同训练算法，依据是否涉及质量问题对评论进行分类。以电热水壶为例，爬取电商网站的评论数据进行实证分析。结果

2、显示，本文方法的分类F1值和AUC值分别为82.18%和86.24%，相比于单视图监督学习分类器具有显著提升。关键词:评论分类；多视图学习；半监督学习；协同训练；质量问题识别中图分类号:TP393文献标志码:A文章编号:1007-7375(2023)03-0086-09Identification Method of Product Quality Problems Based onTwo-view Semi-supervised LearningYAOChi1,2,PANErshun1,2(1.SchoolofMechanicalEngineering;2.ChineseInstitutef

3、orQualityResearch,ShanghaiJiaoTongUniversity,Shanghai200240,China)Abstract:Basedontheabundantunstructuredandunlabeledtextsofconsumerreviewsine-commercewebsites,atwo-viewsemi-supervisedlearningmethodisproposedtoclassifythereviewsandidentifythecontentrelatedtoproductqualityproblems,soastominethehidden

4、qualitydefectsanddangersofproducts.Comprehensivelyconsideringthecharacteristicsof vocabulary,emotion,domain and so on,the text view and non-text view are constructed,and the Co-trainingcollaborativetrainingalgorithmisadoptedtoclassifythereviewsaccordingtowhetherqualityproblemsareinvolved.Takingtheel

5、ectrickettleasanexample,theconsumerreviewswerecrawledfromane-commercewebsiteforempiricalanalysis.ResultsshowthatF1scoreandAUCoftheproposedmethodare82.18%and86.24%,respectively,whichissignificantlyimprovedcomparedwiththesingleviewsupervisedlearningclassifier.Key words:reviews classification;multi-vie

6、w learning;semi-supervised learning;collaborative training;qualityproblemsidentification传统的产品质量问题发现渠道为出厂前的检测、测试以及产品出厂后的用户问卷调查、保险公司反馈等，存在成本高、反映迟缓和样本不足等缺点1。随着电子商务的蓬勃发展，海量的产品评论数据为我们提供了大量来自顾客实际体验的反馈信息，而这些信息中又包含了大量涉及产品质量问题的内容。通过对这些在线数据进行收集、分类和挖掘，产品制造商可以在早期阶段就获取到产品的缺陷信息，从而做好风险管理，并制定合理的营销策略2。因此，如果充分利用好网络评论

7、数据，从中挖掘出产品质量方面的负面信息，将使得相关方能够尽早发现产品在质量方面的缺陷与隐患，对于消费品质量监管和促进消费品质量提升将带来极大的帮助。考虑到网络评论具有数据量大、信息稀疏、第26卷第3期工业工程Vol.26No.32023年6月Industrial Engineering JournalJune2023收稿日期：2021-10-11基金项目：中国工程院重大咨询资助项目(2021-HYZD-7-3)作者简介：姚池(1997)，女，四川省人，硕士研究生，主要研究方向为质量管理与文本挖掘。通讯作者：潘尔顺(1972)，男，江苏省人，教授，博士，主要研究方向为可靠性工程与宏观质量研

8、究。表达不规范和非结构化等特点，为了从中提取出产品质量问题相关的信息，可以采用文本分类的方法，从海量评论数据中识别出涉及产品质量问题的评论(reviewsrelatedtoqualityproblems,RRQP)，从而挖掘出其中隐含的产品质量问题与缺陷。以往不少学者通过情感分析(sentimentanalysis)识别产品质量问题。情感分析又称为态度挖掘(opin-ionmining)，是根据主体各方面的属性来获得人的看法和情绪3。Zhang等4通过情感分析方法，对在线评论的态度极性进行挖掘，计算得到产品各类属性的情感得分，并在此基础上识别出产品的缺陷与问题。Li等5基于系统设计思想，通过情

9、感分析和社交网络分析实现社交智能的构建，对在线评论中可能提及的产品缺陷相关信息进行挖掘，为后续产品的改进提供参考。情感分析的方法原理简单，操作方便，其前提是假定评论的情感极性与产品质量优劣密切相关，但实际上负面评论不一定针对产品本身，因此运用情感分析来挖掘产品质量问题的方法存在较大的局限性6。随着文本挖掘技术的进一步发展，学者们越来越多地从文本特征分析的角度出发识别产品的质量状况，即基于文本特征对评论进行分类，进而划分出涉及质量问题的在线评论。英文语境下的研究开始得相对较早。如Abbasi等7将词汇、句法、语法以及结构方面的特征相结合，并构建了相应的文本特征集，实现对产品质量问题的识别。Abr

10、ahams等8构建面向网络论坛的社交媒体分析框架，综合考虑词汇、语法等7方面的文本特征，将定量分析运用于产品缺陷与质量问题的识别，并在疼痛治疗9、厨房洗碗机10等产品领域也进行了探究。Zhang等11提出一种针对产品缺陷的潜在狄利克雷分配模型(productdefectlatentDirichletallocation,PDLDA)，利用相互依赖的三类主题从在线论坛里用户发表的大量帖子中识别出产品缺陷。Zheng等12通过构建概率图模型从社交媒体数据中识别出包含产品缺陷的内容，并对缺陷类型、部位以及问题等信息进行了挖掘。近年来逐渐有学者在中文语境下展开研究。如蒋翠清13从中文网络文本的特点出发

11、，综合考虑词汇、社会等多方面的特征，基于Tri-training半监督分类方法对论坛文本进行分类，挖掘出汽车质量问题与缺陷。张嵩等14提出基于在线评论的手机缺陷识别研究方法，利用监督学习方法进行文本分类，但该方法需要大量的人工标注。Jiang等15考虑中文论坛数据不平衡的特点，综合考虑语言、社会等多方面特征并构建质量相关文本挖掘模型(helpfulquality-relatedreviews,HQRM)，利用一对多二叉树识别出汽车质量问题相关的内容。刘丹等16提出面向在线评论的产品缺陷识别框架，通过半监督学习对评论进行分类，并以除湿机为例开展实证研究。王海杰等17采用基于朴素贝叶斯的最大期望算

12、法实现了半监督分类，从在线汽车论坛中识别出指定类别的汽车缺陷。王余行等18针对论坛数据和用户体验的特点，选取词汇、文体等7方面特征，通过监督学习方法对涉及汽车质量问题的文本进行识别。综上所述，运用文本挖掘方法对社交媒体上的内容进行分析有利于发现产品质量问题，但现有研究大多都是通过情感分析或者构建特征框架等方式对文本进行分类，多采用基于单一视图的监督学习方法，需要人工标注大量语料，效率低，成本高，并且迁移性差。虽然有学者尝试运用Tri-training等半监督学习方法，但由于单视图特征下各个基分类器的差异性不足，对分类效果的提升作用有限。因此，本文针对用户评论本身的特点，提出基于Co-train

13、ing协同训练算法的两视图半监督文本分类方法TV-CoT(two-viewco-training)，对涉及产品质量问题的评论(RRQP)进行识别，并运用真实评论数据对该方法的有效性进行验证。1 基于两视图半监督学习的用户评论文本分类方法基于上述分析，本文综合考虑词汇、情感、领域等多方面特征，采用Co-training协同训练算法构建两视图半监督分类模型，依据是否涉及产品质量问题对用户评论进行分类，对电商产品评论中的RRQP进行识别。对于同一评论，本文构建文本特征视图和非文本特征视图两个特征视图，基于少数标注样本分别训练支持向量机(supportvectormachine,SVM)和逻辑回归(l

14、ogisticregression,LR)分类器，并通过多次迭代，不断地对未标记样本进行分类和标记，以扩大训练集以及对分类器进行更新。构建的TV-CoT模型框架如图1所示，包括5个主要步骤。第3期姚池，潘尔顺：基于两视图半监督学习的产品质量问题识别方法871)将采集的评论数据经过数据清洗、分词、去停用词以及类别标注等数据预处理操作后，分成训练集、未标注集、验证集和测试集。2)对评论进行两视图特征构建。考虑传统的文本特征提取方法，通过LDA(隐含狄利克雷分布)主题模型和TF-IDF(词频逆文档频率)算法提取主题特征和统计特征，得到文本视图特征向量；考虑在线评论自身的特点和属性，通过构建领域特征、

15、属性特征、情感特征得到非文本视图特征向量。3)将训练集中的两视图特征向量分别输入到SVM和LR分类器中，对分类器进行训练，然后基于训练后的分类器对未标注集中的评论进行分类和类别标注，并从中选取一定数量的评论加入训练集，对训练集进行扩充。4)重复上面两个步骤，不断扩充训练集和更新分类器，直至达到终止条件，即迭代次数达到给定值。5)将经过上述步骤后所得到的两个分类器进行融合，最后输入测试集得到最终分类结果。2 两视图特征构建传统的短文本分类方法多是从文本本身的角度出发进行特征构建，获得的特征向量较为稀疏，并且往往不能充分挖掘在线评论所涵盖的信息。在评论挖掘领域，有学者证实词汇、文体、句法、情感等方

16、面的特征在文本分类中具有显著作用19。因此，针对电商平台在线评论数据的特点，本文在现有的研究基础上将评论特征分为文本视图(textview,TV)和非文本视图(non-textview,NTV)，并分别进行特征构建，获得Co-training协同训练所需的两视图特征向量。2.1 文本视图特征构建用于分类的评论数据由于文本长度短，包含有效信息较少，采用单一的特征提取方法获得的样本特征有限。因此本文选取短文本分类中常用的TF-IDF算法和LDA主题模型分别提取评论文本的统计特征和主题特征，并将两种特征向量进行拼接，得到融合后的文本视图特征向量。2.1.1TF-IDF特征提取TF-IDF是用于评估文

17、档中词语重要程度的经典统计方法，其中TF(termfrequency)表示词频，IDF(inversedocumentfrequency)表示逆文本频率指数，它能够表征某个词语在某篇文档中的区分度，TF-IDF值由TF值和IDF值相乘得到。和简单的词频统计相比，TF-IDF倾向于过滤掉区分度低的高频词，文本预处理训练集TF-IDF 统计特征LDA 主题特征文本视图特征(TV)属性特征情感特征非文本视图(NTV)领域特征支持向量机逻辑回归终止条件？分类器融合是未标注集否添加伪标注样本测试集验证集最终分类结果模型调参类别预测分类效果评价原始评论数据图 1 TV-CoT模型框架Figure 1 Fr

18、amework of the TV-CoT model88工业工程第26卷但保留区分度高的低频词。式(1)(3)分别表示词语的词频、逆文本频率指数和TF-IDF值(可以理解为在分类中的词项权重)。tfi,j=ni,jknk,j；(1)idfj=lg|D|j:ti dj|；(2)tfidfi,j=tfi,jidfj。(3)j篇文档中第i个词语对应ni,jtidjdjkknk,jdjklg|D|?j:ti dj?ti上式计算了第的TF-IDF值。其中，表示词语在文档中出现的次数，文档中包含的词语数目为；表示在文档中所有词语(数目为)出现次数之和，即文档的总词数；是以10为底的对数，具有类似于增

19、强区分度的作用；表示语料库中的文档总数，表示所有文档中包含词语的文档数量。2.1.2LDA主题特征提取LDA主题概率生成模型是一种在文本挖掘领域应用广泛的无监督学习方法，包含词语、主题、文档3层结构，可用于获取文档中潜在的主题概率分布信息。以LDA为代表的概率空间模型在文本表示上具有优异的效果，能够提升文本的分类效果。LDA认为每篇文档有一定概率属于某个主题，而该主题又有一定概率包含某个词，文档到主题、主题到词均服从多项分布，而对应主题和文档的多项式分布参数的先验分布为Dirichlet分布。运用Gibbs采样进行求解可以得到文本的文档主题概率分布信息，完成评论文本主题特征的提取。至此，将上

20、述得到TF-IDF统计特征和LDA主题特征采用拼接的方法进行融合，即可得到文本视图特征向量，具体做法如式(4)所示。V1=VL,VT。(4)VLnVTmV1nm(n+m)式中，为通过LDA提取的维主题特征向量，为通过TF-IDF提取的维统计特征向量，为维主题特征向量和维统计特征向量拼接后的维文本视图特征向量。这种多维度融合的特征构建方式集合了LDA主题模型和TF-IDF算法的优势，有效解决了短文本特征稀疏、信息量少等问题。2.2 非文本视图特征构建针对电商平台在线评论本身的特点，本文通过对评论进行处理和分析，构建属性特征、领域特征、情感特征并融合输出为特征向量，完成非文本视图特征构建。2

21、.2.1属性特征评论所固有的那些独立于文本内容本身，且和文本含义，包含词汇无关的特征构成其属性特征，其中的多数信息在评论采集时即可直接获得。选取的属性特征及其含义如下：1)评论长度：对评论文本进行分词和去停用词后的总词数；2)评论星级：顾客在评论时所给的星级，其中5星和4星代表好评，3星和2星代表中评，1星代表差评；3)点赞数：该评论在评论区所获得的点赞数量；4)包含图片数：评论中所包含的图片数量；5)商家是否回复：商家是否对该评论进行回复，是为1，否则为0.2.2.2领域特征在与质量问题相关的评论中，那些表征产品缺陷与质量问题的词语出现频率通常远高于其他评论。Abrahams等8从用户评论中

22、抽取指示词构建“smokewords”，即“烟词”词表，利用这类能够反映质量问题的词汇检测评论中是否包含产品缺陷。本文基于“烟词”即“产品缺陷指示词”在不同类文本中的分布差异，对评论语料进行对比分析，运用统计方法并结合人工处理抽取出同产品质量缺陷与质量问题相关性较大的词，完成领域词典的构建。对用户评论中各领域词出现的频率进行统计，即得到评论的领域特征，其对应的维数为领域词典中的词语数量。2.2.3情感特征运用情感分析方法能够对用户评论中的情感倾向进行判断，并通过文本中出现的情感词、程度词、否定词等对评论的综合情感值进行计算。已有学者通过情感分析的方法4，根据产品各属性的情感极性及综合情感值进行

23、意见分类，利用负面极性消息发现产品缺陷。尽管负面评论不一定针对产品本身6，但表达负面情感倾向的评论涉及产品质量问题的可能性相对更大，因此本文通过情感分析得到用户评论的综合情感评分，完成情感特征的提取。VAVFVEV2=VA,VF,VE对上述得到的属性特征、领域特征、情感特征进行拼接，可以获得用户评论的非文本视图特征向量，具体如表1所示。第3期姚池，潘尔顺：基于两视图半监督学习的产品质量问题识别方法89 3 分类器选择Co-training协同训练中为不同的视图选择合适的分类器对于最终的分类结果有着显著影响。为了在特征构建的基础上选择正确的分类器，运用SVM、LR、朴素贝叶斯(naiveBaye

24、s,NB)、决策树(gradientboosingdecisiontree,GBDT)、K最近邻(K-nearestneighbor,KNN)5种常用分类器进行初步实验，并根据实验结果分别为文本视图和非文本视图选取对应分类效果最好的分类器，即SVM作为文本视图分类器(TV-SVM)，LR作为非文本视图分类器(NTV-LR)。3.1 文本视图分类器(TV-SVM)(x)SVM在文本分类中应用广泛，在小样本训练集中有良好的分类效果。SVM通过找到一个使得被其分开的两类数据间隔最大的超平面来实现对样本的分类。对于线性可分问题，定义超平面如式(5)所示，其中表示将特征向量x映射后得到的向量，w是分类超

25、平面的权重向量，b是分类阈值。f(x)=wT(x)+b。(5)(xi,yi)满足式(6)的样本点被称作支持向量，其中yi为类别标签，1对应正例，1对应负例。yif(xi)1,i=1,n。(6)l=2ww对应的分类间隔为，那么求解最优超平面问题可以转化为求解最小值的二次规划问题，如式(7)所示。min(12w2)。s.t.yi(wixi+b)1,i=1,n。(7)而对于线性不可分问题，SVM需要将原始空间的样本映射到高维空间，在高维空间构造最优分离超平面。在实际应用中，为了减少计算复杂度，一般通过引入核函数来简化计算。常见的核函数包括线性核、高斯核和多项式核，为了保证基于文本视图的分类尽量高效和

26、准确,本文的TV-SVM分类器中选择线性核作为核函数。3.2 非文本视图分类器(NTV-LR)LR是一种经典的二分类算法，它采用Sigmod函数作为后验概率分布函数求解输入数据对应两个不同类别的概率，如式(8)所示。F(z)=P(Zz)=11+ez。(8)F(z)Z和z分别表示输入数据和两个类别间的分界值，表示输入数据归属于类别1的概率，该函数的输出映射在(0,1)之间，单调连续，且易求导，可以作为输出层，弥补线性回归模型在分类场景下输出值域无限大的不足。x=x1,x2,xnz=x+bxx对于特征向量，通过线性加权得到，其中，表示线性回归系数。每一组输入的特征向量对应的事件q有0或1两种可能

27、，结合式(8)，对和分别扩展1和b元素，可得P(=1|x)=ex1+ez；(9)P(=0|x)=11+ex。(10)将事件q为1的概率记为p，则事件q对应的两种类别的概率之比如式(11)所示。P(=1|x)1P(=1|x)=p1 p=ex+b。(11)对其取对数，可得lnP(=1|x)1P(=1|x)=x+b。(12)在求解二分类问题时，将特征向量x代入分类器可以得到一个01之间的分类概率值，通过设置阈值对结果进行归类即可得到对应的输出类别。4 Co-training协同训练Co-training协同训练算法能够充分运用未标注样本提升弱分类器的精度，在多视图数据集上具有良好的实验效果20。协

28、同训练通过多轮学习不断扩充训练集和训练分类器。在每一轮的学习中，首先利用现有训练集表 1 非文本视图特征表示及含义Table 1 Representation and meaning of non-text view features特征类型特征表示含义属性特征评论长度评论文本预处理后的总词数评论星级顾客在评论时所给的星级点赞数在评论区所获得的点赞数量包含图片数评论中所包含的图片数量商家是否回复商家是否对该评论进行回复领域特征领域词频用户评论中各领域词词频合集情感特征情感评分评论文本的综合情感评分90工业工程第26卷训练得到两个分类器(分别基于文本视图特征和非文本视图特征),然后运用得到的分类

29、器对未标记样本进行分类，从中挑选出分类置信度最高的若干样本作为伪标记样本(将分类结果作为标签)加入训练集中，完成训练集的更新。在更新后的训练集基础上，继续对分类器进行训练，从而在不断地更新训练集和训练分类器的基础上达到对分类器精度的提升，直至达到设定的学习轮数。为了减少训练的计算量，为样本设置缓冲池21，缓冲池中的样本即为每轮训练中用于挑选伪标记样本的未标记样本。考虑到未标注评论数据总量大且易获取，为了使协同训练达到更好的性能提升效果，和以往研究中每轮学习仅取少量样本对缓冲池进行补充不同，本文每轮学习均从未标注集中抽取样本构成新的缓冲池。所运用的Co-training协同训练算法详细步骤如下所

30、示。输入：输入：L-初始训练集U-未标注样本集S-缓冲池样本数量N1-每轮挑选的伪标记样本正例数量(质量问题相关评论)N2-每轮挑选的伪标记样本负例数量(质量问题无关评论)K-学习轮数输出输出：h1h2X1X2经过多轮训练的分类器和(分别对应文本视图和非文本视图)多轮学习过程：多轮学习过程：for i=1,2,K do1：USU2：从中随机抽取个样本构成此轮学习的缓冲池，并将它们从中移除for j=1,2 do3：Xjhj4：基于视图利用训练集L训练分类器hj5：利用分类器对缓冲池的样本进行分类，得到各样本的预测类别和类别概率6：对缓冲池中分类结果为正例和负例的样本分别按照对应的类别概率进行

31、降序排序N17：从正例中抽取类别概率最高的个样本，标记为1(正例)N28：从负例中抽取类别概率最高的个样本，标记为0(负例)N1+N29：将抽取出的个样本作为伪标注样本加入Lend for10：end for11：经过Co-training协同训练的多轮学习后得到两个分类器基于文本视图的SVM分类器(TV-SVM)和基于非文本视图的LR分类器(NTV-LR)，得到的分类器可以对样本的类别进行预测并输出样本为正类和负类的概率。为了提升最终的分类效果，通过设定规则将两个分类器进行融合，最终输出可信度更高的样本分类结果。设定的分类规则如下。1)对于某一样本，当两分类器的输出类别相同时，其最终分类结果

32、即为该输出类别；当两分类器的输出类别不同时，遵循第2)条规则。2)考虑到两分类器的分类效果存在差别，为了提高样本分类结果的可信度，用两分类器各自输出类别的类别概率乘以分类准确率(通过验证集得到)，所得值较大的分类器对应的输出类别即为样本的最终分类结果。5 实证分析 5.1 数据准备本文选取家电产品中的电热水壶作为实验对象，通过编写程序爬取了京东商城上11款热门电热水壶对应的用户评论共计11412条，爬取的信息包括评论内容、评论类型、评论星级、点赞数、图片数、追评内容以及店家回复。为了去除噪音文本，对不包含有效信息的评论进行了去除，如默认评论、不包含中文的评论等，剩余有效评论9250条。评论的标

33、注环节由3名研究生协助完成，在正式标注前，3人商议好标注规范，并以少数服从多数的原则得到最终的标注结果。在标注过程中，标注人员需要对评论内容是否涉及产品质量问题进行判断，“是”标记为1，“否”标记为0，表2展示了部分评论的标注示例。由于本文采用半监督学习方法，因此从评论数据集中随机抽取1600条评论进行标注，并从中随机选取各500条作为实验的验证集和测试集，而实验中用于协同训练的初始训练集则从剩余的有标注评论中抽取。表 2 用户评论标注示例Table 2 Examples of labeled user reviews评论文本标注劣质产品，新买的烧了两次水就底座炸火花，烧坏了，吓死了，然后才看

34、到内壁标志掉漆了，你们够可以的！1这个壶烧水噪音太大了，非常大，倒水的时候角度大了壶嘴还漏水1这个烧水壶还不错，用起来也顺手，各方面都很满意，一如既往的支持！0热水壶还行，比我预期的要差一点，好在便宜，将就能用，无功无过吧，还是给个好评0在数据预处理过程中，首先对评论文本进行分词、去停用词等操作，然后在此基础上构建用于第3期姚池，潘尔顺：基于两视图半监督学习的产品质量问题识别方法91RRQP识别的领域词典，并运用LDA主题模型、TF-IDF算法、文本情感分析等方法对评论文本进行预处理，即可得到结构化的两视图特征向量集。为了防止特征间数值差异过大影响算法性能，使用“离差标准化”方法对特征进行归一

35、化，以消除量纲的影响。5.2 评价标准为了综合考虑分类结果的召回率(R)和查准率(P)，采用它们的调和平均数(F1)值对分类结果进行评价，计算方法如式(13)(15)所示。其中，TP表示将正类预测为正类，FP表示将负类预测为正类，FN表示将正类预测为负类。P=TPTP+FP；(13)R=TPTP+FN；(14)F1=2PRP+R。(15)AUCAUCROCROCTPRFPRAUC考虑到评论数据存在类别不平衡的情况，引入(areaunderthecurve)值作为补充评价指标。值即为(receiveroperatingcharacteristic，受试者工作特征)曲线下的面积，曲线表示真正率(t

36、ruepositiverate,)伪正率(falsepositiverate,)变化曲线，横轴伪正率表示将样本中反例被判别为正例的概率,纵轴真正率表示样本中正例被模型正确识别的概率。值的计算同时考虑了学习器对于正例和负例的分类能力，在样本不平衡的情况下，依然能够对分类器作出合理的评价。5.3 实验结果及分析5.3.1模型参数对分类效果的影响N1N2N1=N2=NN为了探究Co-training协同训练过程中模型参数和对两视图分类器TV-SVM和NTV-LR分类效果的影响，以及找到TV-CoT方法的最优参数，设置不同的参数组合进行多组实验。基于Liu等22和Hong等23的研究，为了达到最好的效

37、果，协同训练中每次迭代所添加到训练数据集中的正例数量和负例数量应该相等，因此，令实验中每轮学习添加到训练集中的数据满足。从标注评论样本中随机选取50条正例和50条负例评论作为协同训练的初始训练集，取值分别为5、10、15、20进行4组实验,每组实验中学习轮数K由1迭代至50，运用验证集对分类器的性能进行初步评估，探究模型K、NF1参数对协同训练输出分类器性能的影响，取值为评价指标，实验结果如图2和图3所示。0.600.650.700.750.80051015202530354045F1 值学习轮数 K N=5N=10N=15N=20图 2 模型参数对TV-SVM分类器性能的影响Figure

38、 2 Impact of model parameters on the performanceof TV-SVM classifier0.700.750.80051015202530354045F1 值学习轮数 K N=5N=10N=15N=20图 3 模型参数对NTV-LR分类器性能的影响Figure 3 Impact of model parameters on the performanceof NTV-LR classifierF1N可以看出，随着学习轮数K的增加，TV-SVM和NTV-LR的分类值均呈增大趋势，但当K达到20后，分类效果的提升缓慢。同时，在一定范围内，每轮学习添加

39、的评论越多，对于分类效果的提升越明显，但当达到15后其提升效果不再显著。上述结果表明，在一定条件下，通过Co-training协同训练扩充训练集能够显著提升两视图分类器的分类效果，但提升效果是有限制的。另外，协同训练对于NTV-LR分类器的提升效果远低于TV-SVM分类器，分析其原因为文本视图特征向量的维数更高，并且结合SVM可将特征空间映射至更高维的空间，因此TV-SVM对应着更大的样本空间，样本数量的增加对于其分类效果的提升更明显。5.3.2对比试验K=20N=15F1AUC为了进一步验证本文提出的TV-CoT方法在RRQP识别上的性能，通过对比实验将该方法与5种常用监督学习方法(SVM、

40、LR、NB、DT以及KNN)进行了比较。从已标注评论中选取50条正例和50条负例作为初始训练集，设置协同训练的参数，取值和值为评价指标，实验结果如表3所示。92工业工程第26卷可以看出，在5种监督学习方法中，文本特征视图下SVM分类效果最佳；非文本特征视图下LR分类效果最佳，而在等量的标注数据下，TV-CoT方法的分类效果明显优于上述5种基于单视图特征的监督学习方法。上述结果表明，本文提出的基于Co-training协同训练的两视图半监督分类方法能够显著提升RRQP的识别效果。K=20N=15F1AUCF1AUC为了探究不同训练集大小下监督学习与半监督学习的分类效果的差异，通过调整初始训练集中

41、的样本数量进行对比实验。取初始训练集样本数量分别为100、200、400、600，其中正例与负例数量相等，设置协同训练的参数，取值和值为评价指标，得到的实验结果如表4所示。可以看出，不同初始训练集大小下TV-CoT方法的分类效果并无明显差异，但随着初始训练集样本数量的增加，监督学习方法对应的值和值不断增大，并且和TV-CoT方法的差距越来越小。表 4 不同初始训练集大小下的分类效果对比Table 4 Comparison of classification effects with different initial training set sizes学习方式分类方法100200400600

42、F1AUCF1AUCF1AUCF1AUC监督TV+SVM0.64530.72040.69150.76680.73630.79430.75060.8121NTV+LR0.73290.78350.77080.80130.79230.81340.80340.8215半监督TV-CoT0.82180.86240.82680.86460.82870.86570.82150.8690上述结果表明，只要协同训练达到了一定的学习轮数，初始训练集的大小并不会显著影响半监督学习的最终分类效果，但随着初始训练集样本数量的增加，协同训练对分类效果的提升作用逐渐变小，说明本文提出的基于Co-training协同训练的两

43、视图半监督学习分类方法在仅有少量标注数据的情况下能够显著提升RRQP的识别效果。6 小结本文提出基于两视图半监督学习的用户评论文本分类方法TV-CoT,综合考虑了词汇、情感、领域等多方面特征，为构建文本特征视图和非文本特征视图，采用Co-training协同训练算法，依据是否涉及产品质量问题对用户评论进行分类，实现对RRQP的识别。该方法对海量的未标注数据加以利用，在仅有少量标注数据的情况下通过多轮学习扩充训练集，能够降低标注成本，提升分类效率。以电热水壶为对象进行了多组对比实验，验证了TV-CoT方法相比于传统的监督学习方法能够显著提升评论的分类效果，为企业运用在线评论数据尽早发现产品质量问

44、题提供了思路。参考文献：KURUZOVICHJ,VISWANATHANS,AGARWALR,eta1.Marketspace or marketplace?Online information search andchanneloutcomesinautoretailingJ.InformationSystemsRe-search,2008,19(2):182-201.1LOYW,POTDARV.Areviewofopinionminingandsenti-mentclassificationframeworkinsocialnetworksC/OL/20093rdIEEEInternatio

45、nalConferenceonDigitalEcosystemsandTechnologies.NewYork:IEEE,2009(2009-10-02).https:/iee-explore.ieee.org/abstract/document/5276705.2LIUB.SentimentanalysisandsubjectivityM/INDURKHYAN,DAMERAUFJ.HandbookofNaturalLanguageProcessing.2ndEdition.BocaRaton:ChapmanandHall/CRC,2010:627-666.3ZHANGW,XUH,WANW.W

46、eaknessfinder:findproductweaknessfromChinesereviewsbyusingaspectsbasedsenti-4表 3 不同方法的分类效果对比Table 3 Comparison of classification effect of different methods学习方式特征视图分类方法F1AUC监督学习TVSVM0.64530.7204LR0.63860.7162NB0.64070.7182DT0.53770.6474KNN0.04460.5114NTVSVM0.68190.7536LR0.73290.7835NB0.70450.7382DT0

47、.72860.7673KNN0.63070.6816半监督学习TV+NTVSVMLogistc回归0.82180.8624第3期姚池，潘尔顺：基于两视图半监督学习的产品质量问题识别方法93ment analysisJ.Expert Systems with Applications,2012,39(11):10283-10291.LIYM,CHENHM,LIOUJH,etal.Creatingsocialintelli-gence for product portfolio designJ.DecisionSupport Sys-tems,2014,66:123-134.5LOUGHRANT,

48、MCDONALDB.Whenisaliabilitynotalia-bility?Textualanalysis,dictionaries,and10-KsJ.TheJournalofFinance,2011,66(1):35-65.6ABBASIA,CHENH,NUNAMAKERJF.Stylometricidentifi-cationinelectronicmarkets:scalabilityandrobustnessJ.Jour-nalofManagementInformationSystems,2008,25(1):49-78.7ABRAHAMSAS,FANW,WANGGA,etal

49、.AnintegratedtextanalyticframeworkforproductdefectdiscoveryJ.Produc-tionandOperationsManagement,2015,24(6):975-990.8LAWD,GRUSSR,ABRAHAMSAS.Automateddefectdis-coveryfor dishwasher appliances from online consumer re-viewsJ.ExpertSystemswithApplications,2017,67:84-94.9ADAMSDZ,GRUSSR,ABRAHAMSAS.Automate

50、ddis-coveryofsafetyandefficacyconcernsforjoint&musclepainrelieftreatmentsfromonlinereviewsJ.InternationalJournalofMedicalInformatics,2017,100:108-120.10ZHANGX,QIAOZ,AHUJAA,etal.Discoveringproductde-fectsandsolutionsfromonlineusergeneratedcontentsC/OL/TheWorldWideWebConference.NewYork:AssociationforC

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于视图监督学习产品质量问题识别方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。