基于文本挖掘的政府数据开放平台在线评论内容特征分析.pdf
《基于文本挖掘的政府数据开放平台在线评论内容特征分析.pdf》由会员分享,可在线阅读,更多相关《基于文本挖掘的政府数据开放平台在线评论内容特征分析.pdf(6页珍藏版)》请在咨信网上搜索。
1、40探索与创新基于文本挖掘的政府数据开放平台在线评论内容特征分析王丽雅1 庞晓楠2(1.沈阳建筑大学图书馆 辽宁沈阳 110168)(2.沈阳建筑大学计算机科学与工程学院 辽宁沈阳 110168)摘 要:政府开放数据平台是连接用户和数据的重要桥梁。文章从用户利用的视角出发,采用Tf-idf特征提取、词云图、社会语义网络图等深度挖掘文本内容,展示用户需求的热门数据并及时找到存在的问题,从而提出优化内容服务、增强互动设计、完善反馈解答以及规范隐私保护四个方面的建议。通过对政府数据开放平台的用户反馈评论数据的挖掘,为我国政府开放数据平台的发展提供参考建议。关键词:文本挖掘;用户反馈;政府数据开放平台
2、;开放数据中图分类号:G252.0 文献标识码:AText Mining-Based Analysis of Online Comments on Government Open Data PlatformsAbstract The government open data platform is an important bridge connecting users and data.This article starts from the perspective of user utilization,and uses techniques such as Tf-idf feature
3、extraction,word cloud,and social semantic network analysis to deeply mine the content of user feedback and showcase the popular data needs while timely identifying existing problems.Based on this,it proposes four suggestions for refining content services,enhancing interactive design,improving feedba
4、ck and answers,and regulating privacy protection.By mining user feedback data on the government open data platform,this study provides reference suggestions for the development of Chinas government open data platform.Key words text mining;user feedback;government data open platform;open data1 引言政府数据
5、开放是信息技术、政治和社会发展到一定阶段的产物1,而政府数据开放旨在让用户参与来创造公众价值2。我国高度重视政府数据开放并加快政府数据开放平台建设。2020年4月,国务院颁布的关于建立更加完善的要素市场配置机制的意见 中指出,要推进政府数据开放共享,提升社会数据资源价值,“迎接数字时代,激活数据要素潜能”被确立为战略布局重要内容。截至2022年10月,我国已有208个省级和城市的地方政府上线了数据开放平台,基本实现了公共数据的平台化服务。但是中国目前尚未建成全国性的政府数据开放平台,“数林”的整体格局模式尚未形成3。为了更加精准、有效地为用户提供数据服务,让*本文系辽宁省高等学校图书情报工作委
6、员会基金项目“馆、社、商三方合作背景下的高校图书馆服务创新机制与实践研究”(项目编号:LTB201904)的成果之一。*412023 年第 9 期开放数据创造更大的经济和社会价值,深入研究平台用户反馈具有重要意义4。通过对政府数据开放平台的用户反馈评论数据进行挖掘,结合词云图和社交网络的语义关系进行可视化分析,展示用户需求的热门数据并及时找出平台建设过程中存在的问题,为政府数据开放平台更好满足用户需求提供有效借鉴,以期提高我国政府数据开放平台的建设水平。2 相关研究概述从现有研究来看,我国学者主要采用定性和定量相结合的方法,从不同维度对不同国家、地区的开放数据平台进行探讨。如黄如花5在数据生命
7、周期理论的指导下,以多个开放数据的生命周期模型为基础,建立了一个完整的政府数据开放共享标准体系。付熙雯和郑磊6则提出开放数据的动态体系,提出我国开放数据工作要从系统、动态的角度来看待问题、推动工作,以社会、市场需要为起点,以公共利益为终极目的,开放与应用并重,政府与社会共同努力,与政策、管理和技术同时进行,促进开放数据的良性循环。姬卓君和马海群7运用AHP(AnalyticHierarchyProcess,层次分析法)方法,从政策、数据、开放数据平台三个层面对中国9个地区的开放数据平台进行评价,并基于中国大多数的城市数据质量较低且较差的评价结果给出相应的对策。程风、邵春霞8从历史、能力和外部因
8、素三个层面对中国19个省市的政府数据开放程度进行研究,运用模糊集定性比较分析方法对其进行具体的分析。邓胜利、夏苏迪9针对开放数据平台的建设情况,从数据层和平台层2个层面的11个维度对中美城市政府开放数据平台的发展现状进行了对比分析,根据对比分析得出的问题提供对策。现有研究主要从指标、理论设计和实证等方面进行了分析,对中国政府数据开放平台建设的现状进行了深入的探索,并对其进行了相应的优化和改进,以提高我国政府数据开放水平。政府数据开放平台的用户是实际的数据使用者,通过对用户反馈评论数据进行文本分析,我们可以了解平台的服务和功能是否真的让用户满意。在目前的研究中,最常使用比较分析、文献分析等定性研
9、究和描述性分析相结合的方法。与此同时,由于人工智能和机器学习等技术的广泛应用,使得传统的实证研究在时间和空间上受到限制,导致了研究效率低下,而大数据时代的来临,使我们有机会更新研究方法,对政府数据开放平台的服务质量进行更加科学、有效的评估。因此,本文从用户角度出发,以我国建议反馈功能模块较为完善的浙江省政府数据开放平台为例,收集了大量的用户反馈评论数据,运用文本挖掘的方法对其进行分析,力图通过文本内容特征体现出更加真实、准确的信息。然后根据反馈的内容,及时找出问题所在,并针对这些问题提出相应的改进措施,从而提高我国政府数据开放平台的建设水平。3 研究设计3.1 研究思路通过网络爬虫采集浙江省政
10、府数据开放平台用户反馈评论数据,并对数据进行数据清洗、中文分词和去除停用词等预处理10;对预处理后的数据提取特征词,对评论数据进行词频分析并制作词云图11;最后利用ROSTCM6内容挖掘系统软件(ROSTContentMining6)对数据进行语义网络分析,生成词频数据和语义网络可视化图像12。具体流程如图1所示。3.2 数据获取及预处理图 1 基于用户反馈评论数据的文本挖掘分析模型3.2.1 数据采集本研究以浙江省政府数据开放平台为数据采集对象,以其用户反馈评论数据作为研究对象进行文本挖掘研究。将该平台子栏目下的互动文本数据进行归类,分为“数据需求”“平台体验”“数据纠错”三大模块,使用Py
11、thon采集浙江省政府数据开放平台用户反馈评论数据。收集时间为2022年11月12日,采集信息共845条,部分评论数据如表1所示。3.2.2 数据预处理基于文本挖掘的政府数据开放平台在线评论内容特征分析42(1)数据清洗。为了增强数据分析的可信性,对原始的评论进行了必要的清理和删除,文本信息去噪(删除了重复以及不相关的评论),减少了对分类的影响。最后把剩余的802条评论数据作为样本数据保存到.txt文件中。(2)文本分词。在文本挖掘的过程中,将评论语句拆分成单个的词语,以便于分析语句的特性进行更好的处理。jieba词库是中文分词系统中效果最好的中文分词组件之一,主要有三种类型:精确模式、全模式
12、和搜索引擎模式。本文采用jieba算法对爬取得到的数据进行文本分词处理(精确模式)。中文分词的步骤是:将用户的反馈信息输入到.txt文件中,把jieba文件装入Python;进行代码的分词,为了优化分词的效果,根据实际情况,在编程中加载了自定义词典;在分析结果时,如果单词长度为1,可解释性较弱,因此要选取长度超过1的单词,才能更好地理解结果13。(3)去除停用词。那些在文本分类中没有任何实际意义但却频繁出现的词被称为“虚词”,即停用词,删除停用词后可以更加准确地传达文章的主旨,避免某些不必要的词汇会影响分析14。在哈尔滨工业大学自然语言处理实验室停用词典中,添加了一些自定义的词汇(主要是标点符
13、号、官方网站回复的礼貌用语以及省市的名称)。在语料库中适当降低停用词出现的次数,有助于我们对关键词的精炼,使其更加集中、突出15。4 实例分析4.1 基于词云图的高频词分析基于上述划分的模块,按不同类目(标题词频、问题描述、回复词频)利用Tf-idf算法对文字进行特征抽取,其主要依据单词在一段文字中出现的频率和在各个语料库中的使用频率,以此来反映该词的重要性。这种方法能够区分词频中词汇的重要性。如果某一词在一文本中的频率较高,而在词库中又很少见,则该词为本文的关键词;相反,如果这个词在语料库中所有的文本中都是高的,则该词的重要性就会降低。Tf-idf的值越大,说明这个特征词对用户反馈评论数据的
14、重要性越高16。根据Tf-idf的计算结果,提取三个模块前20个特征词,如表2所示。“数据”“信息”“申请”“接口”“平台”“开放”“数量”等特征词尤为显著,说明这几个特征词在政府数据开放平台的用户反馈评论数据中具有较高的重要性17。为了更好地展现用户在反馈过程中所关心的问题和需要,本研究采用了“词云图”来进行特征可视化。词云图中的文字大小可以看出这个词在所有评论中的重要程度,通过词云图可以看出文本所要表达的主要含义。按不同类目(标题词频、问题描述、回复词频)绘制词云图进行可视化,如图2图4所示。获取主题并追踪原文,使其更加准确地对主题词加以解读。由图可见,在“数据需求”中,“企业”“人口”“
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 挖掘 政府 数据 开放 平台 在线 评论 内容 特征 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。