人工参与的迭代式数据清洗方法研究.pdf
《人工参与的迭代式数据清洗方法研究.pdf》由会员分享,可在线阅读,更多相关《人工参与的迭代式数据清洗方法研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、59TOPIC 专题2023048-1人工参与的迭代式数据清洗方法研究摘要数据采集技术的进步导致了数据集规模的飞速上涨,由于数据的大规模和高复杂性引起了严重的数据质量问题,数据清洗是数据活动中必要且重要的环节。为了在保证清洗准确率的情况下有效地降低人工标注成本,提出了一种人工参与的迭代式的数据清洗方法(IDCHI)。该方法在检测模块中提出了数据选择优化方法,使分类器在初始阶段就拥有较高的准确度;并进一步提出了待人工标注数据选择方法,有效地降低人工标注的数据量。实验结果表明该方法可有效且高效地清洗错误数据。关键词数据清洗;人工参与;迭代式;小批量梯度下降中图分类号:TP311 文献标志码:A d
2、oi:10.11959/j.issn.2096-0271.2023048Research on iterative data cleaning of human-computer interactionAbstractThe advancement of data collection technology has led to a rapid increase in the size of datasets.Due to the big scale and high complexity of the data volume,serious data quality issues arise
3、.Therefore,data cleaning is a necessary and important step in data activities.To effectively reduce human annotation costs while ensuring the accuracy of cleaning,an iterative data cleaning method(IDCHI)with human participation was proposed.This method proposed a data selection optimization method i
4、n the detection module,which enables the classifier to have high accuracy in the initial stage;and further proposed a method for selecting data to be manually annotated,effectively reducing the amount of data to be manually annotated.The experimental results show that the proposed method is effectiv
5、e and efficient in cleaning erroneous data.Key wordsdata cleaning,human_in_loop,iteration,mini-batch gradient descentLIU Yida,DING Xiaoou,WANG Hongzhi,YANG DonghuaSchool of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China刘一达,丁小欧,王宏志,杨东华哈尔滨工业大学计算机科学与技术学院,黑龙江 哈尔滨 1500
6、01BIG DATA RESEARCH 大数据600 引言随着数据采集技术的不断进步,数据集的规模飞速上涨,针对数据的处理成为不同程序中一个重要的任务。数据由不同的传感器产生,这些数据总量庞大。但是数据量的庞大以及数据来源的复杂也导致出现错误数据的概率增加,因为数据之间存在关联关系,这种关联性会导致新的错误类型产生1。为了解决这些错误数据引发的问题,如果直接删除错误的数据会破坏数据之间关系的完整性,降低数据的价值。因此不仅需要对错误数据进行检测,更需要采取方法将其清洗为干净的数据。数据的复杂性和不确定性使自动化修复算法很难以100%的置信度和准确率修复错误数据。以领域专家和用户为代表的人工参与
7、方法是通用数据清洗和持续数据清洗的重要部分2-4。近年来,范举等人5提出了人在回路的数据准备概念,归纳了在数据提取、标注、集成、清洗等数据准备过程6中的人工参与方法和人工任务。相比于自动化修复算法,人工修复具有修复准确率高、可靠性强,且对特定领域的数据修复效果好的优势7,但同时也具有修复成本高的问题8。因此,如何在提高数据清洗效果的同时减少人工标注的成本,是数据清洗中面临的主要挑战。本文的研究着重于通过人机结合进行迭代式的数据清洗。本文的贡献主要在于以下3个方面。本文提出了人工参与的迭代式清洗算法(iterative data cleaning of human-computer intera
8、ction,IDCHI)。本方法结合人工参与以及迭代式的方法,利用规则依赖将数据集分为符合规则的数据以及低质量数据,并对低质量数据进行迭代式的人工修复,实现了较高的清洗效果。本文提出了一种针对人工标注阶段数据的挑选方法。本文通过优化分类器模型和计算违反分数的方式,将针对单一维度内错误数据的违反分数计算、针对单一数据同一维度综合的违反分数计算、针对不同数据不同维度之间错误数据的违反分数计算这3种不同的违反分数结合,提高了违反分数的代表性,让违反分数较高的数据更可能成为错误数据,提高了挑选参与人工标注的错误数据的准确度,使数据可以通过较少的人工标注工作量得到较高的准确率。本文在数据集上展开了大量的
9、测试。人工参与的迭代式数据清洗方法可以通过较少的样本规模实现较高质量的错误检测任务,可以显著地减少达到一定准确度的数据清洗所需要的标注数量,进而减少人工标注的负担。1 数据清洗工作的研究现状目前,国内外对于时间序列上错误数据的研究往往集中于基于数据统计特征进行数据清洗的方法和基于规则依赖等先验知识进行数据清洗的方法。1.1 基于统计特征的数据清洗方法基于统计特征的数据清洗方法通常根据目前已知序列的分布,通过计算数据本身的统计量和统计指 标,使用聚类等方法将具有接近相似系数的数据进行聚类,从而对错误数据进行清洗9-12。2016年Krishnan等人13提出的ActiveClean算法通过判断数
10、据在对应模型中成为劣质数据的可能性来挑选要清洗的数据样本。近年来有学者提出了使用自动编码器14的深度学习方法。该方案将数据转换到低维空2023048-261TOPIC 专题间,并通过解码器进行重构,提取出数据中的特征,正确的数据将会得到较好的重构,而错误数据的重构将会出现问题。Le等人15通过计算数据的违反分数,结合逆最近邻(INN)算法,计算数据的幅值分数、相关分数和方差分数3类违反分数,进行决策树的构建,并最终利用决策树上的相关系数进行聚类,根据聚类结果通过人工修复来进行数据清洗。1.2 基于规则依赖的数据清洗方法基于规则依赖的数据清洗方法通过现有先验知识或者其学习的方式从已清洗过的数据中
11、推断规则依赖的方式,减少人工参与的成本,通过这些规则依赖对其余数据进行一定的清洗16-18。Charfi等人19通过将数据分为时空上的不同粒度,对不同时空粒度的数据采用不同粒度的约束进行对应的处理,实现了较为精细的数据清洗。范举等人5提出了人在回路的数据准备概念,通过基于众包的数据准备技术结合大量众包工作者来提升计算能力,从而支持数据准备的基本任务,对清洗质量和清洗成本进行控制。相比于自动化修复算法,人工修复具有修复准确率高、可靠性强,且对特定领域的数据修复效果好的优势20,但同时有修复成本高的问题。2 研究问题介绍2.1 问题定义定义1:多元序列。对于输入的待清洗的原始数据,可以将其定义为多
12、元序列X=X1,X2,Xn,其中每个元组的特征集合为Xt=f1,f2,fn,每个f表示元组X的一个特征。同时定义多元序列Xt表示时间戳为t时,多元序列X上所有的数据集合。定义2:规则依赖。令R表示一个关系,它包含m个属性Attrs(R)=(A1,Am)表示R上的属性集合,Dom(A)表示一个给定属性A的域。令I表示关系R的一个实例,包含若干元组,各元组均属于域Dom(A1)Dom(Am)。令DomI(A)表示属性A的空间,它包括所有出现在实例I中的A属性值。假设I中的每个元组均有一个标识符,即使元组的其他属性都发生变更,该标识符也不会改变。令TIDs(A)表示在实例I中的所有元组的标识符的集合
13、。令tA表示元组t的一个单元,其中,AAttrs(R),tTIDs(I)。每一个单元tA由元组以及属性来确定。在R上定义一个函数依赖集合,包含多个函数依赖。对于两个属性集合X和Y,它们均属于Attrs(R)。基于实例I的一个函数依赖,XY被表示为IXY。换言之,对于实例I中的任意两个元组t1和t2,如果t1X=t2X成立,则t1Y=t2Y必然成立。令表示基于关系R的函数依赖集合。本文假设是正则最小化的。每个函数依赖均可以被描述为如下的形式:XA。其中,XAttrs(R),且AAttrs(R)。定义3:错误数据。假设正确的序列为Xtrue,得到的原始数据中的序列为Xnormal。如果Xtrue=
14、Xnormal,那么就可以称这个数据点为正确的数据点,如果Xtrue!=Xnormal,那么就可以称这个数据点为一个错误数据。结合规则依赖的数据清洗指基于给定的规则依赖集合对劣质数据集进行清洗,将检测出其中的错误数据,并将其通过人工或者自动化的方式进行修复。2.2 方法框架本文的方法通过计算违反分数的方法对数据进行计算,从中找出违反分数较2023048-3BIG DATA RESEARCH 大数据62高的数据。如图1所示,首先针对原始数据集,基于现有的规则依赖对数据进行初步检测,将原始数据集分为违反规则的数据和符合规则的数据,其中符合规则的数据会对接下来的分类器模型进行初始化,之后这两部分数据
15、集共同组成劣质数据集。接下来通过更新后的分类器对劣质数据集进行违反分数的计算,从中挑选出高违反分数的错误数据,在人工修复部分对错误数据进行修复,再将这些修复过后的数据集传给分类器,对分类器模型进行更新,修复后的数据构成干净数据。反复迭代以上步骤,就可以提高训练模型的精度。3 人工参与的迭代式数据清洗3.1 检测模块数据清洗的第一步就是基于现有的规则依赖对原始数据集进行检测,并对原始数据集进行分类,将原始数据集X分为违反规则的数据Xvio和符合规则的数据Xacc,其中符合规则的数据Xaxx将对分类器进行初始化,违反规则的数据Xvio和符合规则的数据Xacc这两部分数据都会组成劣质数据集,并在之后
16、的迭代中使用。虚构数据举例见表1。假设存在规则依赖:学号姓名,年龄,专业。即在确定学号的基础上就能确定对应的姓名、年龄和专业。但是表1中第1行数据和第3行数据在学号相同的情况下专业不同,因此第1行数据和第3行数据就是违反规则的数据。3.2 分类器的更新与数据的自动修复本文方法中的分类器输出对劣质数据的预测值,该预测值可作为下一步计算违反分数的基础。在本文中,采用小批量梯度下降的方法作为分类器的模型。本方法中的分类器主要分为两步:初始化步骤中根据符合规则的数据Xacc对分类器进行初始化;在每一轮迭代中对劣质数据集Xdir进行预测,预测值作为下一步违反分数的计算基础。图 1人工参与的迭代式数据清洗
17、2023048-463TOPIC 专题在对分类器的初始化步骤中,将原始数据集X分为违反规则的数据Xvio和符合规则的数据Xacc,采用符合规则的数据Xacc对分类器模型进行更新,之后将违反规则的数据Xvio作为劣质数据集Xdir,得到劣质数据集作为以后的待清洗数据。对于每一个劣质数据,需要计算其所有维度的综合梯度,并计算这些劣质数据的平均梯度,利用劣质数据点的平均梯度对小批量梯度下降模型的系数进行初始化。在每一轮迭代过程中,采用被人工修复后的数据Xrep对分类器进行更新。具体到本方法中,在小批量梯度下降算法的更新中,每轮迭代采用固定数量的数据进行更新,对每轮更新列表中的数据逐行进行梯度计算,利
18、用更新数据点的平均梯度对小批量梯度下降模型的系数进行更新。然后对未标注数据进行筛选,已经清洗过的数据不需要再次筛选和清洗,最后得到待清洗数据。算法1:分类器的更新输入:传入的系数、数据集x、数据集结果y、迭代最大轮数n_epochs输出:更新后的参数(1)初始化更新序列(2)for epoch in n_epochs do(3)for 遍历更新序列中元组 do(4)计算在该元组时的梯度(5)计算所有更新序列的梯度之和(6)end(7)通过梯度和计算平均梯度(8)更新模型的系数=更新模型的系数学习率*平均梯度(9)筛选下一轮的更新序列(10)对筛选出的序列进行人工修复(11)end在如上所示算法
19、中,首先需要在第一轮对分类器模型涉及的更新数据元组进行初始化,从中挑选出需要更新的元组。之后进行n_epochs轮迭代,每一轮中,首先计算更新序列中的元组所处位置的平均梯度,之后通过平均梯度计算更新模型的系数,并筛选下一轮的更新序列;对这些更新序列进行人工修复,之后开始下一轮的迭代。3.3 挑选数据模块为了挑选参与人工修复的错误数据,需要计算数据点对应的违反分数Score。在这一步要从数据点中找出违反分数较高的数据进行人工修复,需要利用小批量梯度下降模型中对数据的预测值。对数据违反分数的计算分为3类,分别是对单一维度内数据错误的违反分数Scoresin、对单一 数 据不同维度 综 合的违 反分
20、 数Scoresinmul以及不同数据不同维度之间结合比值法的违反分数Scoremul的计算。之后,对这3种违反分数进行求和,求取违反分数Score=Scoresin+Scoresinmul+Scoremul。之后将数据按照违反分数Score从大到小排序,从中挑选违反分数较高的数据进行人工修复。(1)对单一维度内错误数据的违反分数Scoresin进行计算单一维度的违反分数主要考察其值与平均值的差。对于单一维度的计算,需要计算其最大值Xmax、最小值Xmin,以及此维度所有数据的平均值Xavg,违反分数为|X-Xavg|/|Xmax-Xmin|。例如,对于给定的数据表 1虚构数据举例学号姓名年龄
21、专业22780974潘达23计算机22781074黄天22计算机22780974潘达23数据科学22798774谢凡24生物2023048-5BIG DATA RESEARCH 大数据64(5,3,2,3,2),这5个数字的最大值为5,最小值为2,平均值为3,因此对其中的每一个数据,可以计算它的比值,5个数据的单一维度的违反分数为2 0 1 0 1,3 3 3 3 3。(2)对单一数据不同维度综合的违反分数Scoresinmul进行计算对违反分数计算方法进行判断,将得到的数据初始值与它的预测值进行比较,差距越大,就说明这个数据的违反分数越低。对于一个数据X以及它的预测值Xpredict,可以定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工 参与 迭代式 数据 清洗 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。