分销赏收藏举报申诉 / 8

立即下载开通VIP

当前位置：首页 > 学术论文 > 自然科学论文 > 案源线索的违法业务种类自动分类研究.pdf

案源线索的违法业务种类自动分类研究.pdf

上传人：自信****多点

文档编号：879411

上传时间：2024-04-02

格式：PDF

页数：8

大小：5.09MB

《案源线索的违法业务种类自动分类研究.pdf》由会员分享，可在线阅读，更多相关《案源线索的违法业务种类自动分类研究.pdf（8页珍藏版）》请在咨信网上搜索。

1、文章编号003-0077(2023)05-0157-08JOURNALOFCHINESEINFORMPROCESSINGMay,20232023年5月Vol.37,No.5第5期第3 7 卷中文信息学报案源线索的违法业务种类自动分类研究范钦，李兵，温立强2 3，李伟平3（1.对外经济贸易大学信息学院，北京10 0 0 2 9；2.北大软件工程股份有限公司，北京10 0 0 8 0；3.北京大学软件与微电子学院，北京10 0 8 7 1）摘要：案源线索管理是工商行政执法办案的初始环节。随着网络举报途径的简化，案源线索的数量激增，现有的人工对案源线索进行分派处理的方式存在压力大、错误率高、人工成本

2、高等种种弊端。为了降低人工成本、提高案源线索分类的准确率，该文以某一线城市的案源线索数据为例，探索基于深度学习模型的分类算法，来实现违法种类的自动识别。经过模型选择和实证研究，发现所提算法的总体分类准确率较高，能够满足实际的业务需求。本研究的成果表明了基于深度学习模型的分类器，可以有效地实现案源线索的自动分类，为推进社会治理能力的智能化和现代化提供借鉴。关键词：案源线索；文本分类；BERT模型中图分类号：TP391文献标识码：AAutomatic Classification of Illegal Business Typesfor Clues to Case SourcesFAN Qin,L

3、I Bing”,WEN Liqiang,LI Weiping(1.School of Information Technology&Management,University of International BusinessandEconomics,Beijing100029,China;2.Beijing Beida Software Engineering Development Co.,Ltd.,Beijing 100080,China;3.School of Software&Microelectronics,Peking University,Beijing 100871,Chin

4、a)Abstract:Case source clues management is the initial step for industrial and commercial administration and law-en-forcement.To deal with the sharp increasing case source clues,this paper explore the deep learning model to realizeillegal types automatic recognition.After model selection and empiric

5、al research,the overall classification accuracyrate meets actual business needs.The experiment on a first-tier citys data show that the proposed model can effec-tively realize the case source clues automatic classification.Keywords:case source clues;text classification;BERT model0引言案源线索管理是工商行政执法办案的初

6、始环节。2 0 18 年12 月2 1日国家市场监督管理总局颁布市场监督管理行政处罚程序暂行规定，对行政执法领域案源线索的管理和分类处置做了明确的规收稿日期：2 0 2 1-0 5-14定稿日期：2 0 2 1-11-0 3基金项目：国家重点研发计划（2 0 2 0 YFC0833304）定。市场监督管理部门对依据监督检查职权或者通过投诉、举报、其他部门移送、上级交办等途径发现的违法行为线索，应当自发现线索或者收到材料之日起十五个工作日内予以核查，并报市场监督管理部门负责人批准决定是否立案，派出机构在本部门确定的权限范围内以本部门的名义实施行政处罚，如发现案件属于其他行政管理部门管辖的，应当及

7、1582023年中文信息学报时依法移送其他有关部门1。加强对案源线索管理的智能化建设，可以有效地提升工商行政部门执法效率，从一定程度上避免执法过程中差错的出现，推进社会治理能力的智能化和现代化建设。案源线索的主要来源有三部分：一是市场监督稽查部门依照法律法规授予的监督检查职权进行检查时主动发现的问题；二是其他机关移送、上级机关交办的违法行为和线索；三是公民、法人或其他组织举报、申投诉或信访提交的违法行为和线索2。“12 315 和 96 315 投诉举报中心在相继建成和投人运行后，发挥了相当重要的案源线索搜集、移送及案件督办功效，使得案源线索的数量越来越多3随着案源线索的数量激增，给现有传统的

8、人工案源线索分派处理方法带来了很大压力。在高强度的工作压力下，会出现倦怠的现象，甚至会出现随意分派案源的现象，无法保证案源线索分派的准确率，会给进一步的案件调查办理造成不必要的麻烦。鉴于此，本文提出基于BERT模型的案源线索违法业务种类的自动识别分类模型，可以有效地优化人工分类方法存在的弊端，减轻人工分类的压力，推进社会治理能力现代化。1相关研究究其本质，案源线索的违法业务种类自动识别属于多分类问题。在文本分类领域内，实现方法大致可以分为两类：基于传统的文本分类和基于深度学习的文本分类。传统的文本分类算法包括朴素贝叶斯等，由于传统的文本分类方法存在一定的弊端，其特征表达能力还有待提高，在文本分

9、类领域中虽然广泛使用，但是分类效果不能达到最优。随着深度学习的推进，许多深度学习算法也被广泛应用于文本分类任务中，比如TextRNNL4、Fa s t T e x t E5等模型，通过使词语进行向量化操作来解决文本表示，例如Word2VecL61等方法，然后再自动获取特征表达能力，不需要再人工地进行繁杂的特征工程，使得文本分类任务效果得到了提升。近年来，大规模通用的预训练模型陆续出现，如BERTE7、GPTL81等，预训练语言模型能够从海量的数据中学习到更多的内容，以参数的形式存储在模型中，经过适当的微调就能在下游任务中取得SOTA表现。在政府的行政领域，孙宗锋等针对公民的诉求，采用词频分析对

10、某市市长信箱数据的内容进行分析，但是也仅仅从词频来对文本内容进行了笼统的分类，并没有实现较为准确的分类9。王思迪等选取神经网络模型来设计一套适用于政府信箱的自动转递方法，使得政府部门之间的信件转递实现了自动化，降低了人工成本10 。段尧清等为实现将公众留言自动分发给相关的政府部门这一功能，选取支持向量机（SVM)作为模型架构，模型取得了不错的效果11。薛彬等通过对比不同的分类算法，选取朴素贝叶斯分类方法来针对民生热线文本的热点进行文本分类12 。但上述研究主要采用传统机器学习方法，存在着特征选择难度大、分类评价指标效果一般等问题。这也是本研究呕待解决的问题。在国外的相关领域内，印度尼西亚政府曾

11、创建过一个政府投诉管理系统，为公众提供一个综合和可访问的门户，以向政府提交投诉文本信息。Surjandari等使用支持向量机（SVM)分析公众通过印度尼西亚国家投诉系统提交的意见或投诉形式的文本数据，将这些报告分类，将各类数据集聚为特定的主题13。Fauzan等使用LamdaMART排序算法来对印度尼西亚政府投诉管理系统中各投诉文本的责任机构进行分类研究，但其效果并没有表现出优于其他机器学习中典型的算法14。Hayati等在对印度尼西亚政府的投诉系统短文本分类实验中，证明了在unigrams和bigrams同时作为模型的特征时，能够实现短文本分类最佳的效果，准确率达到81.69%15，但是没有

12、考虑长文本的情况。在其他国家，Thompson等认为利用人类知识工程构建的基于规则的分类系统，虽然可以成功地对裁判文书的案由进行预测，但开发成本大，且准确率不是很理想，利用机器学习的方法虽然所需的开发时间少，但是其结果并不准确，他通过比较k近邻算法，以及两种机器学习规则归纳算法：C4.5rules和Ripper16来完成裁判文书的案由预测17 。Sulea等以给定的案件描述文本、案件判决时间和相对应的法律规定作为特征，采用SVM模型实现对法国最高法院的裁决和案件所属的法律领域的高精度预测18 159范钦等：案源线索的违法业务种类自动分类研究5期综上所述，现有的关于案源线索的违法业务种类的自动识

13、别分类任务多为基于传统的分类算法，虽然能够实现分类任务，但是准确率有待提高。而且案源线索相关的信息文本多为长文本，传统的文本分类并不能很好地表示原有文本的语义。因此，本文选取BERT模型作为建立关于案源线索的违法业务种类的分类器模型，能够实现比以往传统的分类模型和人工分类更好的效果。2业务逻辑现有的案源线索分类识别多为人工分类，由相关人员对登记的案源内容进行分类，并移送给相关的承办部门，此时分类的准确性和一致性在很大程度上取决于相关人员的能力水平以及对待工作的认真程度，存在着诸多弊端。为解决上述问题，本文借助大数据技术和深度学习模型对此业务逻辑进行优化，对登记的案源线索的违法业务种类进行自动识

14、别分类，从而减少人工的工作量，具体新的业务逻辑如图1所示。登记在册的案源线索通过文本预处理之后，得到较为规范的文本数据，然后将其输人给由已有的案源线索数据集训练得出的分类器，通过分类器的自动识别分类，输出该案源线索对应的违法种类，并根据该违法种类转交给相关职能部门。另一方面，会根据该违法种类来更新训练已有的分类器，使分类器的性能不断提升。相关职能部门会针对转交来的案源线索进行判断，判断案源线索对应的案件是否属于本部门职能之内案，如果分类正确，该职能部门会正式开启案件的调查办理；如果不属于本部门职能之内的案件，则会将分类错误的案源线索提交给相对应的管理人员进行复核，然后根据复核结果转交给正确的职

15、能部门，并更新标签。案源线索案源线索登记文本预处理分类器分类器训练数据集更新标签判断分类错误违法种类相关职能部门管理人员复核是否正确正确案件调查办理图1案源线索违法种类自动识别分类流程该分类器模型将之前完全人工的分类工作转换成由机器进行分类，相关管理人员只需要进行纠错工作，大大减小了分类工作的成本，同时也提升了分类工作的准确率。3研究设计本文针对案源线索的违法业务种类的自动识别进行研究，首先对获取的数据源进行预处理，经过业务逻辑的梳理和清洗之后，规范数据格式，降低噪声信息，然后选取合适的文本分类算法进行分类器模型的构建，并不断地优化模型的参数，使得模型达到最好的效果，进而实现案源线索违法业务种

16、类的自动识别分类。研究设计过程如图2 所示。3.1实验数据本文实验数据来源于某一线城市2 0 16 年5月至2 0 2 1年2 月的案源线索数据，总数据量为9956 8条，包含2 9种违法种类。案源线索示例如表1所示。16020233年中文信息学报验证集案源内数据开始训练集特征表示模型训练容语料预处理分类器分类测试集模型结果结束图2研究设计过程表1案案源线索示例案源线索描述违法业务种类根据系统工单（XXXXXXXXXXX），有举报线索称位于我局辖区XX街道XX社区X区X号XXX的百货涉嫌销售无3C认证的产计量和认证业务品，当事人的行为涉嫌违反X质量管理条例第十五条第一款的规定，建议案源登记。执

17、行人员在XX区XX路XX广场X栋X室进行检查时，发现该址为XX有限公司的经营场所，在其经营场所市场建设业务内发现一批用于销售的未标明产品执行标准号XXXX焊台，当事人现场无法提供上述商品的合法来源。我局接到XX市工商行政管理局移交的检验检测报告，报告检验结论为：经抽样检验，所检项目（XXXXX货号：XXX）中纤维含量不符合FZ/T质量业务73025一2 0 13婴幼儿针织服饰一等品标准要求，判该批次商品不合格。为了进一步查清事实，建议进行调查。3.2数据预处理3.2.1梳理业务逻辑由于现有的数据集的违法种类较多，同时存在少数的违法种类内含有的文本数量较少（低于10 0条），且相近业务的违法种类

18、通常由同一职能部门处理的问题，所以需要将相近业务的违法种类进行合并，对违法业务的大类进行分类。同时，经过对数据的观察，违法种类为“其他”的相关数据普遍存在错误分类的情况，考虑到人工分类的弊端，使得“其他”类别的分类错误率比较高，在很大程度上影响分类器的训练，所以将“其他”类别原有的文本数据删去，不参与分类器的训练。将其余的一些数据量较少，并且无相近业务的数据合并为新的“其他”类别。经过对业务类别的合并和梳理之后，现有违法业务类别为11类，共936 2 7 条有效数据，各违法业务类别数据分布情况如表2 所示。表2 各各违法业务数据分布违法业务类别数据量/条违法业务类别数据量/条知识产权食品业务2

19、85953298保护业务计量和认广告业务144412.427证业务质量业务15 877特设业务2562药品、医疗器械、4.881价格业务2552化妆品业务许可审批业务16115其他1675市场建设业务12043.2.2文本清洗文本清洗可以有效地降低数据的噪声，使分类器能够充分地利用文本数据的信息，达到一个最佳的效果，主要包括去除数字、去除标点符号、去除停用词等。(1）去除数字案源线索文本中包含大量的日期、工单号等数字，这些数字符号对于违法种类业务的分类没有正向的影响，去除数字可以减少其对分类器的影响，提升分类器的性能。（2）去除标点符号案源线索文本多为长文本，包含大量的标点符号和无意义的占位符

20、，去除标点符号和占位符可以缩短案源线索文本的长度，有助于提升分类器的分类效果和效率。（3）去除停用词案源线索中停用词的存在也会存在大量的噪声，如去除数字后，文本中会存在大量的“年月日”，“工单：”等，这就需要选择合适的停用词库，停用词1615期范钦等：案源线索的违法业务种类自动分类研究的去除可以减少文本信息中存在的噪声，使得构建的分类器模型更准确。3.2.3规则判别根据已有文献和相关实践证明，行政执法领域的部分线索业务的类别可以根据少量的关键词通过简单的规则判断来进行识别，如表3所示。表3可通过规则判断的业务和关键词举例违法业务规则判断关键词广告业务“虚假宣传”“广告法”等“未经3C强制认证”

21、“计量条例”“计量和认证业务码”“无检验合格证”等但是也存在部分数据无法经过规则判断来完成准确的识别，如食品业务和药品、医疗器械、化妆品业务下“保健食品违法行为”的类别中存在大量的相似关键词，食品业务和质量业务也存在一定的重合的关键词，无法通过关键词来完成筛选。因此，为了实现较高的准确率，极大地优化业务流程，本文研究基于深度学习模型的分类器来实现较高精度的识别。3.3模型介绍本文关于案源线索的违法业务种类的分类器选取中文预训练BERT模型（BERT-Base-Chinese）来建立模型。BERT模型利用大规模无标注语料训练和获得文本的包含丰富语义信息的表示，并将获取的文本语义的关键特征输人到S

22、oftmax分类层来完成任务门3.3.1BERT模型架构BERT模型架构是基于多层双向的Transformer编码器，该模型可以获取上下文的语义联系7。模型架构如图3所示。T1T2TN-1TNTrmTrmTrmTrmTrmTrmTrmTrmE1E2EN-1EN图3BERT模型架构3.3.2输人层BERT模型的输人由三部分组成，如图4所示InputCLSX2X3X4SEPTokenEicLsJEEEISEPSegmentEAEAEAPositionEoE3EEE图4模型输人结构图首先将预处理之后的案源线索文本数据输人模型进行向量化，假如输入文本为“纤维含量不符合标准，判不合格”，首先对文本进行分

23、词处理，在分词之后，将开始标志“CLS”插人到句子的开头，将结束标志SEP插入到句子的结尾，得到（“CLS”，“纤”，“维”，“含”，“量”，“不”，“符”，“合”，“标”，“准”“判”“不”“合”“格”，“SEP），然后再将处理之后的分词向量转化成由Token Embenddings向量、Segment Embeddings 向量、Position Embeddings向量三部分组成。由此，最初输人模型的文本“纤维含量不符合标准，判不合格”会得到三种不同的向量表示，三个向量的维度是相同的，将这三种表示向量按照相对应的顺序相加，就会得到模型最终的输入向量，这个最终的输人向量包含了输人文本的三种

24、不同信息，最后输人到模型的编码层。3.3.3Transformer层BERT中的Transformer层借助于传统Trans-former架构中的Encoder部分19，通过Multi-headSelf-Attention来提取多重语义的含义，增强模型的学习能力。此外，Transformer层还引人了Add&Norm模块以连接模型的残差，增强模型的拟合能力，再对每一层计算后的残差和进行规范化，以提升模型的表现3.3.4Softmax分类层Softmax分类器是为解决多分类问题而提出的模型，属于广义线性模型。将BERT模型最终输出的文本向量输人Softmax分类层中，经过归一化计算，会得到每个文

25、本向量对应到每个具体类别的概率，分类层选择概率最大的类别作为最终的分类类别。3.4模型构建流程在掌握BERT模型的架构之后，结合业务特点来构建基于BERT的案源线索违法业务自动识别模型，1622023年中文信息学报并在训练过程中不断更新模型参数，主要步骤如下：第一步：从Google官网下载官方的BERT的中文预训练模型“bert-base-chinese,并加载模型。第二步：将预处理之后的案源线索文本数据输入模型，在案源线索文本分词结果相应位置中加人“CLS“SEP符号。第三步：对输人模型的案源线索文本数据进行向量化，将每个字所对应的Token Embenddings向量、Segment Em

26、beddings 向量、Position Embeddings向量线性相加，构成一个新的向量，同时包含上面三类信息，构成Transformer层的输入向量。第四步：设定模型的学习率、批处理大小、处理文本长度等超参数，进行模型的训练，并采用交叉熵损失函数，依据真实所属类别以及输出预测类别对比来进行反向传播，不断地调整模型内部参数，使模型能够更加全面、准确地提取案源线索的文本特征。4实验及结果分析4.1评价指标本文研究案源线索的违法业务种类的自动识别问题，其本质是一个多分类问题。在多分类问题中，常用的评价指标为准确率（Accuracy），精确率（Pre-cision)、召回率(Recall)和F，

27、值（Fi-score)20)。混淆矩阵如表4所示。（1）准确率：TP+TNAccuracy=TP+FP+FN+TN(1)正确预测的样本数所有的样本数分类准确率，是指分类正确的样本数占总样本数的比例。表4混淆矩阵预测值Positive预测值Negative实际值PositiveTPFP实际值NegativeFNTN(2）精确率：TPPrecision=（2)TP+FP精确率是指分类器预测为Positive且预测正确的样本占所有预测为Positive的样本的比例。（3）召回率：TPRecall=(3)TP+FN召回率是指分类器预测为Positive且预测正确的样本占所有真实为Positive的样本

28、的比例。(4)F1值:2 X precision*recallF1(4)precision+recallF1值是统计学中用来衡量二分类模型精确度的一种指标，可以看作是模型精确率和召回率的一种加权平均，其取值范围在0 和1之间，越接近1，分类效果越好。4.2实验过程本文选取基于PyTorch版本的BERT模型，按照6：2：2 的比例划分训练集（Trainingset）、验证集（Validation set)、测试集（Testing set)，在实验过程中，我们设置实验参数batch_size为32，文本长度为2 56 个字符，学习率为5e-5。为了降低模型拟合的偶然性，本实验还选取了五折交叉验证

29、方法来确保模型结果的稳定性和保真性。4.3实验结果本实验在经过多次交叉验证之后，取多次实验的均值，得到评价指标，如表5所示。如表5所示，基于BERT模型的分类器能够在多数的业务上实现较好的效果，在“特设业务”和“许可审批业务”上的F1值较高，在98%以上，而在“市场建设业务”和“其他业务”上数值较低。表5测试集上各类别的分类效果类别PrecisionRecallFi-score食品业务0.96440.975 50.9699广告业务0.973 90.977 30.9756质量业务0.93320.94940.9413药品、医疗器械、化妆品业务0.9083 0.91050.9093许可审批业务0.9

30、8500.984.90.984.9市场建设业务0.777 30.67560.7225知识产权保护业务0.90960.89760.9034计量和认证业务0.88320.82790.8544特设业务0.995660.99410.9949价格业务0.95690.967880.9623其他0.71330.57390.6341根据行政执法部门提供的办案事权清单可以看到，“市场建设业务”包含“合同违法行为”“无合法来源进口商品”“控烟违法”等违法行为，“其他业务”中也包含了许多不同的违法行为，由此可见部分违法行为责任划分不合理或者存在重叠的情况，这种情163范钦等：案源线索的违法业务种类自动分类研究5期况

31、会严重影响模型的文本特征的选取，进而影响分类效果。在实验结果中，选取一些违法业务划分错误的案例，如表6 所示。表6 连违法业务划分不合适示例案源线索现有数据标签预测标签我局X对X火锅店进行现场检查，现场负责人无法提供食品经许可审食品业务营许可证，该公司涉嫌未取得食品批业务经营许可从事餐饮经营活动。XX向我局反映，XX销售的“泰药品、医和牌排毒养颜颗粒”涉嫌宣称保疗器械、食品业务健功能，违反中华人民共和国食化妆品品安全法（2 0 15），要求查处。业务我局接到投诉，投诉人称向当事人购买到的衣服与当事人宣传的不其他（不一致，当事人涉嫌虚假宣传。要求广告业务正当竞我局查处。建议先等记案源，经处争行为

32、）核实后决定是否立案处理。此外，分类效果较差的“市场建设业务”和“其他业务”的两种业务的数据量也较少，并且本次实验选用的数据为非均衡数据集，可以推测样本的数据容量大小也会对分类效果造成影响，后续应该继续加大数据量，来对比模型在非均衡数据集和均衡数据集上的分类效果。数据本身的类别正确程度也会对分类效果造成影响，因为现有的数据为人工分类的结果，不能保证数据集的类别完全正确，所以，在分类器模型的训练过程中，应该尽可能地减少现有数据的错误标签类别造成的影响。例如，本次实验在数据预处理时删去原有的“其他类别”，极大地减少了现有数据类别错误的影响，但是在其他类别中也会有少量的错误数据存在，如表7 所示。表

33、7数据标签错误示例案源线索现有标签准确标签XXXX年月X日，我药品、医疗所依法对位于杂器械、化妆许可审批业务货店进行检查，发现该地品业务址无证从事食品销售。XX公司涉嫌连续两年市场建设许可审批业务未依法申报企业年报案。业务举报人举报在百货店购买的条形码为的，高山茶、梅山茶区，单食品业务市场建设业务价330 元/盒，数量2 盒，小计6 6 0 元，其称该产品无合法来源。要求查处。总体来说，基于BERT模型的分类器可以满足业务需求，实现案源线索的违法业务自动识别任务。为了验证基于BERT的分类器模型是否能够实现较好的效果，本文还选取了TextRCNN、TextRNN、T r a n s fo r

34、m e r、T e x tR NN_A tt(BiLST M十Attention）、Fa s t T e x t 作为对比实验，设置相同的参数，测试集在各模型上分类的效果如表8 所示。表：各模型在测试集上的准确率(单位：%)模型名称准确率TextRCNN94.88TextRNN92.46TextRNN_Att94.22Transformer92.75FastText94.47BERT95.20从表8 可以看出，选取的对比实验采用的模型均能在测试集上满足业务需求，实现案源线索的违法业务自动识别任务。由此可见，基于深度学习模型构建分类器，用来替代人工优化业务流程的方法是可行的。与其他模型相比，基于

35、BERT的分类器模型能够在测试集上获得最高的准确率，证明了本文所提的基于BERT模型的分类器可以较好地完成案源线索的违法业务分类任务。5结语在案源线索违法种类的自动识别分类任务中，本文选取某一线城市的案源线索数据，采用基于BERT模型的分类算法来进行分类。实验结果表明，相较于其他的分类算法，基于BERT模型的分类器能够获得较高的准确率，并且在多个单项的小类别上能够得到较好的F值。以上实验验证了基于BERT模型的分类器能够较好地实现案源线索的违法种类的自动识别，从而大大降低了人工分类的压力和成本，提升了分类的准确率。本文的不足之处在于将一些数据样本较少的案源线索进行了合并，并且将一些极少的工作合

36、并为“其他”类别，后续工作会增大数据量，采用数据增强的方法，针对小样本的违法种类进行更进一步的研究，使得分类器能够较好地识别小样本数据。此外，后续可以考虑将违法种类业务进行更细化的分类，并能和权责清单进行职能之间的匹配，使得分类器能够更细化地识别违法业务类别。1642023年中文信息学报参考文献1市场监督管理行政处罚程序暂行规定J.中华人民共和国国务院公报，2 0 19，11（11）：58-6 8.2王胤元.行政执法检察监督的案源问题.中国检察官，2 0 17，3(0 5)：3-5.3于洋.新形势下12 315热线标准化建设推进路径和建议J.质量与市场，2 0 2 0，3（2 0）：118-2

37、 0.4LIU P,QIU X,HUANG X.Recurrent neural net-work for text classification with multi-task learningCJ/Proceedings of the 25th International Joint Con-ference on Artificial Intelligence,2016:2873-2879.5JOULIN A,GRAVE E,BOJANOWSKI P,et al.Bagof tricks for efficient text classification C/Proceed-ings of

38、 the 15th Conference of the European Chapter ofthe Association for Computational Linguistics:2016:427-431.6MIKOLOV T,CHEN K,CORRADO G,et al.Effi-cient estimation of word representations in vector spaceLJJ.arXivpreprintarXiv:1301.3781,2013.7DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of deep bid

39、irectional transformers for lan-guage understanding CJ/Proceedings of the Confer-ence of the North American Chapter of the Associationfor Computational Linguistics:Human LanguageTechnologies,2019:4171-4186.8RADFORD A,NARASIMHAN K.Improving lan-guage understanding by generative pre-training EB/OLJ.ht

40、tps:/s3-us-west- 0 19，15(0 5)：12-2 6.10王思迪，胡广伟，杨已煜等.基于文本分类的政府网站信箱自动转递方法研究.数据分析与知识发现，2020,4(06):51-59.范钦（1997 一），硕士研究生，主要研究领域为智慧司法。E-mail:温立强（1991一），硕士，主要研究领域为知识图谱构建。E-mail:wenlqpku,11段尧清，姚兰.政媒融合问政平台非正式文本自动分类匹配研究J.情报理论与实践，2 0 2 0，43（0 6）：156-161,48.12薛彬，陶海军，王加强.针对民生热线文本的热点挖掘系统设计.中国计量大学学报，2 0 17，2 8（0

41、 3)：37 1-9.13SURJANDARI I,MEGAWATIC,DHINI A.Appli-cation of text mining for classification of textual re-ports:a study of Indonesias national complaint han-dling system CJ/Proceedings of the 6th Interna-tional Conference on Industrial Engineering and Oper-ations Management,2016.14FAUZAN A,KHODRA M L

42、.Automatic multilabelcategorization using learning to rank framework forcomplaint text on Bandung government CJ/Pro-ceedings of the International Conference of AdvancedInformatics:Concept，T h e o r y a n d A p p l i c a t i o n,2015:28-33.15HAYATI S A,WICAKSONO A F,ADRIANI M.Short text classificatio

43、n on complaint documents JJ.International Journal of Computational Linguistics&.Applications，2 0 16,7(2)：12 9-43.16COHEN W W,SINGER Y.Context-sensitive learn-ing methods for text categorization JJ.ACM TransInfSyst，19 9 9,17(2):141-7 3.17THOMPSON P.Automatic categorization of case lawCJ/Proceedings o

44、f the 8th International Conferenceon Artificial Intelligence and Law,2001:70-77.18SULEA O-M,ZAMPIERI M,MALMASI S,et al.Ex-ploring the use of text classification in the legal domainC/Proceedings of the 2nd Workshop on Automated Se-mantic Analysis of Information in Legal Texts,2017.19VASWANI A,SHAZEER N,PARMAR N,et al.Attention Is all you need CJ/Proceedings of the31st Conference on Neural Information ProcessingSystems,2017:6000-6010.20王成，刘亚峰，王新成等.分类器的分类性能评价指标J.电子设计工程，2 0 11，19（0 8）：13-15，2 1.李兵（197 0 一），通信作者，博士，教授，主要研究领域为智慧司法。E-mail:

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 案源线索违法业务种类自动分类研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。