案源线索的违法业务种类自动分类研究.pdf
《案源线索的违法业务种类自动分类研究.pdf》由会员分享,可在线阅读,更多相关《案源线索的违法业务种类自动分类研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、文章编号003-0077(2023)05-0157-08JOURNALOFCHINESEINFORMPROCESSINGMay,20232023年5月Vol.37,No.5第5期第3 7 卷中文信息学报案源线索的违法业务种类自动分类研究范钦,李兵,温立强2 3,李伟平3(1.对外经济贸易大学信息学院,北京10 0 0 2 9;2.北大软件工程股份有限公司,北京10 0 0 8 0;3.北京大学软件与微电子学院,北京10 0 8 7 1)摘要:案源线索管理是工商行政执法办案的初始环节。随着网络举报途径的简化,案源线索的数量激增,现有的人工对案源线索进行分派处理的方式存在压力大、错误率高、人工成本
2、高等种种弊端。为了降低人工成本、提高案源线索分类的准确率,该文以某一线城市的案源线索数据为例,探索基于深度学习模型的分类算法,来实现违法种类的自动识别。经过模型选择和实证研究,发现所提算法的总体分类准确率较高,能够满足实际的业务需求。本研究的成果表明了基于深度学习模型的分类器,可以有效地实现案源线索的自动分类,为推进社会治理能力的智能化和现代化提供借鉴。关键词:案源线索;文本分类;BERT模型中图分类号:TP391文献标识码:AAutomatic Classification of Illegal Business Typesfor Clues to Case SourcesFAN Qin,L
3、I Bing”,WEN Liqiang,LI Weiping(1.School of Information Technology&Management,University of International BusinessandEconomics,Beijing100029,China;2.Beijing Beida Software Engineering Development Co.,Ltd.,Beijing 100080,China;3.School of Software&Microelectronics,Peking University,Beijing 100871,Chin
4、a)Abstract:Case source clues management is the initial step for industrial and commercial administration and law-en-forcement.To deal with the sharp increasing case source clues,this paper explore the deep learning model to realizeillegal types automatic recognition.After model selection and empiric
5、al research,the overall classification accuracyrate meets actual business needs.The experiment on a first-tier citys data show that the proposed model can effec-tively realize the case source clues automatic classification.Keywords:case source clues;text classification;BERT model0引言案源线索管理是工商行政执法办案的初
6、始环节。2 0 18 年12 月2 1日国家市场监督管理总局颁布市场监督管理行政处罚程序暂行规定,对行政执法领域案源线索的管理和分类处置做了明确的规收稿日期:2 0 2 1-0 5-14定稿日期:2 0 2 1-11-0 3基金项目:国家重点研发计划(2 0 2 0 YFC0833304)定。市场监督管理部门对依据监督检查职权或者通过投诉、举报、其他部门移送、上级交办等途径发现的违法行为线索,应当自发现线索或者收到材料之日起十五个工作日内予以核查,并报市场监督管理部门负责人批准决定是否立案,派出机构在本部门确定的权限范围内以本部门的名义实施行政处罚,如发现案件属于其他行政管理部门管辖的,应当及
7、1582023年中文信息学报时依法移送其他有关部门1。加强对案源线索管理的智能化建设,可以有效地提升工商行政部门执法效率,从一定程度上避免执法过程中差错的出现,推进社会治理能力的智能化和现代化建设。案源线索的主要来源有三部分:一是市场监督稽查部门依照法律法规授予的监督检查职权进行检查时主动发现的问题;二是其他机关移送、上级机关交办的违法行为和线索;三是公民、法人或其他组织举报、申投诉或信访提交的违法行为和线索2。“12 315 和 96 315 投诉举报中心在相继建成和投人运行后,发挥了相当重要的案源线索搜集、移送及案件督办功效,使得案源线索的数量越来越多3随着案源线索的数量激增,给现有传统的
8、人工案源线索分派处理方法带来了很大压力。在高强度的工作压力下,会出现倦怠的现象,甚至会出现随意分派案源的现象,无法保证案源线索分派的准确率,会给进一步的案件调查办理造成不必要的麻烦。鉴于此,本文提出基于BERT模型的案源线索违法业务种类的自动识别分类模型,可以有效地优化人工分类方法存在的弊端,减轻人工分类的压力,推进社会治理能力现代化。1相关研究究其本质,案源线索的违法业务种类自动识别属于多分类问题。在文本分类领域内,实现方法大致可以分为两类:基于传统的文本分类和基于深度学习的文本分类。传统的文本分类算法包括朴素贝叶斯等,由于传统的文本分类方法存在一定的弊端,其特征表达能力还有待提高,在文本分
9、类领域中虽然广泛使用,但是分类效果不能达到最优。随着深度学习的推进,许多深度学习算法也被广泛应用于文本分类任务中,比如TextRNNL4、Fa s t T e x t E5等模型,通过使词语进行向量化操作来解决文本表示,例如Word2VecL61等方法,然后再自动获取特征表达能力,不需要再人工地进行繁杂的特征工程,使得文本分类任务效果得到了提升。近年来,大规模通用的预训练模型陆续出现,如BERTE7、GPTL81等,预训练语言模型能够从海量的数据中学习到更多的内容,以参数的形式存储在模型中,经过适当的微调就能在下游任务中取得SOTA表现。在政府的行政领域,孙宗锋等针对公民的诉求,采用词频分析对
10、某市市长信箱数据的内容进行分析,但是也仅仅从词频来对文本内容进行了笼统的分类,并没有实现较为准确的分类9。王思迪等选取神经网络模型来设计一套适用于政府信箱的自动转递方法,使得政府部门之间的信件转递实现了自动化,降低了人工成本10 。段尧清等为实现将公众留言自动分发给相关的政府部门这一功能,选取支持向量机(SVM)作为模型架构,模型取得了不错的效果11。薛彬等通过对比不同的分类算法,选取朴素贝叶斯分类方法来针对民生热线文本的热点进行文本分类12 。但上述研究主要采用传统机器学习方法,存在着特征选择难度大、分类评价指标效果一般等问题。这也是本研究呕待解决的问题。在国外的相关领域内,印度尼西亚政府曾
11、创建过一个政府投诉管理系统,为公众提供一个综合和可访问的门户,以向政府提交投诉文本信息。Surjandari等使用支持向量机(SVM)分析公众通过印度尼西亚国家投诉系统提交的意见或投诉形式的文本数据,将这些报告分类,将各类数据集聚为特定的主题13。Fauzan等使用LamdaMART排序算法来对印度尼西亚政府投诉管理系统中各投诉文本的责任机构进行分类研究,但其效果并没有表现出优于其他机器学习中典型的算法14。Hayati等在对印度尼西亚政府的投诉系统短文本分类实验中,证明了在unigrams和bigrams同时作为模型的特征时,能够实现短文本分类最佳的效果,准确率达到81.69%15,但是没有
12、考虑长文本的情况。在其他国家,Thompson等认为利用人类知识工程构建的基于规则的分类系统,虽然可以成功地对裁判文书的案由进行预测,但开发成本大,且准确率不是很理想,利用机器学习的方法虽然所需的开发时间少,但是其结果并不准确,他通过比较k近邻算法,以及两种机器学习规则归纳算法:C4.5rules和Ripper16来完成裁判文书的案由预测17 。Sulea等以给定的案件描述文本、案件判决时间和相对应的法律规定作为特征,采用SVM模型实现对法国最高法院的裁决和案件所属的法律领域的高精度预测18 159范钦等:案源线索的违法业务种类自动分类研究5期综上所述,现有的关于案源线索的违法业务种类的自动识
13、别分类任务多为基于传统的分类算法,虽然能够实现分类任务,但是准确率有待提高。而且案源线索相关的信息文本多为长文本,传统的文本分类并不能很好地表示原有文本的语义。因此,本文选取BERT模型作为建立关于案源线索的违法业务种类的分类器模型,能够实现比以往传统的分类模型和人工分类更好的效果。2业务逻辑现有的案源线索分类识别多为人工分类,由相关人员对登记的案源内容进行分类,并移送给相关的承办部门,此时分类的准确性和一致性在很大程度上取决于相关人员的能力水平以及对待工作的认真程度,存在着诸多弊端。为解决上述问题,本文借助大数据技术和深度学习模型对此业务逻辑进行优化,对登记的案源线索的违法业务种类进行自动识
14、别分类,从而减少人工的工作量,具体新的业务逻辑如图1所示。登记在册的案源线索通过文本预处理之后,得到较为规范的文本数据,然后将其输人给由已有的案源线索数据集训练得出的分类器,通过分类器的自动识别分类,输出该案源线索对应的违法种类,并根据该违法种类转交给相关职能部门。另一方面,会根据该违法种类来更新训练已有的分类器,使分类器的性能不断提升。相关职能部门会针对转交来的案源线索进行判断,判断案源线索对应的案件是否属于本部门职能之内案,如果分类正确,该职能部门会正式开启案件的调查办理;如果不属于本部门职能之内的案件,则会将分类错误的案源线索提交给相对应的管理人员进行复核,然后根据复核结果转交给正确的职
15、能部门,并更新标签。案源线索案源线索登记文本预处理分类器分类器训练数据集更新标签判断分类错误违法种类相关职能部门管理人员复核是否正确正确案件调查办理图1案源线索违法种类自动识别分类流程该分类器模型将之前完全人工的分类工作转换成由机器进行分类,相关管理人员只需要进行纠错工作,大大减小了分类工作的成本,同时也提升了分类工作的准确率。3研究设计本文针对案源线索的违法业务种类的自动识别进行研究,首先对获取的数据源进行预处理,经过业务逻辑的梳理和清洗之后,规范数据格式,降低噪声信息,然后选取合适的文本分类算法进行分类器模型的构建,并不断地优化模型的参数,使得模型达到最好的效果,进而实现案源线索违法业务种
16、类的自动识别分类。研究设计过程如图2 所示。3.1实验数据本文实验数据来源于某一线城市2 0 16 年5月至2 0 2 1年2 月的案源线索数据,总数据量为9956 8条,包含2 9种违法种类。案源线索示例如表1所示。16020233年中文信息学报验证集案源内数据开始训练集特征表示模型训练容语料预处理分类器分类测试集模型结果结束图2研究设计过程表1案案源线索示例案源线索描述违法业务种类根据系统工单(XXXXXXXXXXX),有举报线索称位于我局辖区XX街道XX社区X区X号XXX的百货涉嫌销售无3C认证的产计量和认证业务品,当事人的行为涉嫌违反X质量管理条例第十五条第一款的规定,建议案源登记。执
17、行人员在XX区XX路XX广场X栋X室进行检查时,发现该址为XX有限公司的经营场所,在其经营场所市场建设业务内发现一批用于销售的未标明产品执行标准号XXXX焊台,当事人现场无法提供上述商品的合法来源。我局接到XX市工商行政管理局移交的检验检测报告,报告检验结论为:经抽样检验,所检项目(XXXXX货号:XXX)中纤维含量不符合FZ/T质量业务73025一2 0 13婴幼儿针织服饰一等品标准要求,判该批次商品不合格。为了进一步查清事实,建议进行调查。3.2数据预处理3.2.1梳理业务逻辑由于现有的数据集的违法种类较多,同时存在少数的违法种类内含有的文本数量较少(低于10 0条),且相近业务的违法种类
18、通常由同一职能部门处理的问题,所以需要将相近业务的违法种类进行合并,对违法业务的大类进行分类。同时,经过对数据的观察,违法种类为“其他”的相关数据普遍存在错误分类的情况,考虑到人工分类的弊端,使得“其他”类别的分类错误率比较高,在很大程度上影响分类器的训练,所以将“其他”类别原有的文本数据删去,不参与分类器的训练。将其余的一些数据量较少,并且无相近业务的数据合并为新的“其他”类别。经过对业务类别的合并和梳理之后,现有违法业务类别为11类,共936 2 7 条有效数据,各违法业务类别数据分布情况如表2 所示。表2 各各违法业务数据分布违法业务类别数据量/条违法业务类别数据量/条知识产权食品业务2
19、85953298保护业务计量和认广告业务144412.427证业务质量业务15 877特设业务2562药品、医疗器械、4.881价格业务2552化妆品业务许可审批业务16115其他1675市场建设业务12043.2.2文本清洗文本清洗可以有效地降低数据的噪声,使分类器能够充分地利用文本数据的信息,达到一个最佳的效果,主要包括去除数字、去除标点符号、去除停用词等。(1)去除数字案源线索文本中包含大量的日期、工单号等数字,这些数字符号对于违法种类业务的分类没有正向的影响,去除数字可以减少其对分类器的影响,提升分类器的性能。(2)去除标点符号案源线索文本多为长文本,包含大量的标点符号和无意义的占位符
20、,去除标点符号和占位符可以缩短案源线索文本的长度,有助于提升分类器的分类效果和效率。(3)去除停用词案源线索中停用词的存在也会存在大量的噪声,如去除数字后,文本中会存在大量的“年月日”,“工单:”等,这就需要选择合适的停用词库,停用词1615期范钦等:案源线索的违法业务种类自动分类研究的去除可以减少文本信息中存在的噪声,使得构建的分类器模型更准确。3.2.3规则判别根据已有文献和相关实践证明,行政执法领域的部分线索业务的类别可以根据少量的关键词通过简单的规则判断来进行识别,如表3所示。表3可通过规则判断的业务和关键词举例违法业务规则判断关键词广告业务“虚假宣传”“广告法”等“未经3C强制认证”
21、“计量条例”“计量和认证业务码”“无检验合格证”等但是也存在部分数据无法经过规则判断来完成准确的识别,如食品业务和药品、医疗器械、化妆品业务下“保健食品违法行为”的类别中存在大量的相似关键词,食品业务和质量业务也存在一定的重合的关键词,无法通过关键词来完成筛选。因此,为了实现较高的准确率,极大地优化业务流程,本文研究基于深度学习模型的分类器来实现较高精度的识别。3.3模型介绍本文关于案源线索的违法业务种类的分类器选取中文预训练BERT模型(BERT-Base-Chinese)来建立模型。BERT模型利用大规模无标注语料训练和获得文本的包含丰富语义信息的表示,并将获取的文本语义的关键特征输人到S
22、oftmax分类层来完成任务门3.3.1BERT模型架构BERT模型架构是基于多层双向的Transformer编码器,该模型可以获取上下文的语义联系7。模型架构如图3所示。T1T2TN-1TNTrmTrmTrmTrmTrmTrmTrmTrmE1E2EN-1EN图3BERT模型架构3.3.2输人层BERT模型的输人由三部分组成,如图4所示InputCLSX2X3X4SEPTokenEicLsJEEEISEPSegmentEAEAEAPositionEoE3EEE图4模型输人结构图首先将预处理之后的案源线索文本数据输人模型进行向量化,假如输入文本为“纤维含量不符合标准,判不合格”,首先对文本进行分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 案源 线索 违法 业务 种类 自动 分类 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。