基于语义理解力的我国省级政府网站智能问答服务质量评价研究.pdf
《基于语义理解力的我国省级政府网站智能问答服务质量评价研究.pdf》由会员分享,可在线阅读,更多相关《基于语义理解力的我国省级政府网站智能问答服务质量评价研究.pdf(18页珍藏版)》请在咨信网上搜索。
1、科 技 情 报 研 究SCIENTIFIC INFORMATION RESEARCH第5卷第3期Vol.5No.32023年7月Jul.2023基于语义理解力的我国省级政府网站智能问答服务质量评价研究王芳1,2魏中瀚3连芷萱1,2康佳1,21.南开大学商学院,天津 3000712.南开大学网络社会治理研究中心,天津 3000723.科学技术部信息中心,北京 100862摘要:目的/意义 智能问答系统已成为各类网站提供信息咨询服务的重要设施。政务咨询问题的复杂性,对政府网站智能问答系统的语义理解能力提出了更高要求。方法/过程 文章采用南开大学网络社会治理研究中心开发的“基于语义理解力的政府网站智
2、能客服评价体系”以及配套的测试题集,对我国 30 个省级政府网站智能问答系统的“问题解决质量”“服务交互质量”“基础建设质量”进行了评测。结果/结论 上海、浙江、北京总分名列前三;当前政府网站智能问答系统在语义理解及场景化服务方面存在明显不足,仅有 30%的系统得分达到及格线以上,部分问答系统在基础功能与服务交互方面存在较大提升空间。最后,文章提出扩展知识库、提升问题匹配精度、增加人文关怀等对策建议。关键词:政府网站;智能客服;语义理解;智能问答系统;质量评价;对话机器人中图分类号:TP18;G350文献识别码:A文章编号:2096-7144(2023)03-0067-18DOI:10.198
3、09/ki.kjqbyj.2023.03.006收稿日期:2023-02-27修回日期:2023-03-31基金项目:国家社会科学基金重大项目“基于数据共享与知识复用的数字政府智能化治理研究”(编号:20ZDA039)作者简介:王芳(ORCID:0000-0002-2655-9975),通讯作者,女,1970 年生,博士,教授,博士生导师,主要研究方向:知识发现、政府信息资源管理,E-mail:;魏中瀚,男,1997 年生,硕士研究生,主要研究方向:政府信息资源管理、电子政务,E-mail:;连芷萱,女,1993 年生,博士,主要研究方向:电子政务、政务问答,E-mail:;康佳,女,1998
4、 年生,硕士研究生,主要研究方向:电子政务,E-mail:。1引言智能客服以提高坐席服务效率、降低人力及培训成本等应用优势,已成为各类网站提供信息咨询服务的重要设施。智能客服是 AI 客服和人工客服的有机协同,智能问答系统是智能客服的核心功能模块。2017 年,国务院发布的 政府网站发展指引 提出,各级政府网站需提高自然语言处理等相关技术,满足自动解答用户咨询、提供个性化政务服务的需求1。此后,各地政府网站陆续推出 24 小时不间断的智能问答服务。2018年,广州市推出了智能服务机器人云平台系统,该系统不仅具备基础的一问一答智67科 技 情 报 研 究第5卷第3期能咨询功能,同时还能实现多轮会
5、话以及模糊问题引导2。2019 年,商务部电子商务和信息化司在官网推出政务智能客服,具备信息公开、办事指南查询、最新政策和热门问题咨询等技能3。2020 年 1 月,济南疾控中心官方网站首页和济南疾控中心官方微信号“济南疾控微健康”相继上线了疾控智能问答机器人,用于回复新型冠状病毒相关问题4。截至 2022 年3月底,全国各省级政府门户网站或隶属的政务服务网站均已配备“智能客服”问答功能模块5-6(港澳台除外,下同)。传统的政府网站问答系统主要依赖信息检索技术进行答案的查找与匹配,但是,关键词匹配只能触及浅层语义信息,难以实现语义理解与推理。虽然大部分问答系统能够准确回答标准化、结构化问题,但
6、是对口语化提问的解答准确度则大幅下降7。政务系统的服务对象具有多样性和复杂性,同样的需求常常有多种不同的表达方式。因此,简单的关键词匹配常常难以准确定位答案8。深度学习技术的发展以及面向不同实际应用的大规模语料集的出现,促使问答技术从传统的特征工程向深度学习的语义理解转变9。由于政府网站的智能客服面向全体公民而非特定用户群体,用户需求多样化且知识结构、表达能力等水平参差不齐,大部分用户只是偶尔使用系统进行咨询,因此,难以像推荐系统一样,通过积累历史数据对用户本身的语言风格、咨询习惯进行学习。语义理解能力成了政府网站问答系统效能发挥的瓶颈所在。为了进一步提升政府网站的智能化服务水平,需要基于语义
7、理解能力对政府网站智能问答系统的服务质量进行评价研究。本研究运用由南开大学网络社会治理研究中心构建的面向语义理解力的政府网站智能问答系统评价指标体系和评测题集,对我国 30 个省级政府网站智能问答系统进行评测,发现存在的问题,并提出对策建议。2相关研究综述2.1语义理解能力评测研究根据霍华德 加德纳的多元智能理论,智能可以分 为 语 言(Verbal/Linguistic)、逻 辑(Logical/Mathematical)等 7 个范畴10。体现语言与逻辑智能的关键在于问答系统的语义理解能力,属于自然语言理解(NLU)范畴。语义理解能力研究,旨在用计算机模拟人的语言交际过程,使计算机能够理解
8、和运用人类社会的自然语言,如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,例如检索、问答等需要处理自然语言信息的工作11-12。如NORASET等13基于维基百科知识库构建了能够回答泰语问题的问答系统“WabiQA”。问答系统常用的语义理解技术包括意图识别、共指消解、命名实体识别、文本推理、情感感知、知识推理等多种任务14,难点在于对语言的多样性、歧义性、鲁棒性(缺字、省略等现象)、知识依赖、上下文依赖等特征进行情景化处理。政府网站智能问答系统需要准确理解并满足用户的咨询需求,其理解力可以分解为同义文本理解、上下文感知、自动纠错、多语种翻译等具体能力。为提高问答系统的语义理
9、解能力,美国陆军网站的SGT STAR问答助手采用机器学习方法,区分新兵招募相关问题的有用答案与无用答案,成功率高达94%15。哥伦比亚政务信息问答系统采用 FAQ 文档库、本体扩展词、语义网以及EuroWordNet技术,提高问答系统的语义理解力,受访公众满意率达到80%16。CHAN 与 TSAI17在灾害数据的基础上,为应急行动中心(EOC)建立了对话系统,通过问答功能、知识库和可以处理困难查询任务的搜索模块提高系统的问题理解能力。ANDROUTSOPOULOU 等18利用682023年7月王芳,魏中瀚,连芷萱,等:基于语义理解力的我国省级政府网站智能问答服务质量评价研究现有的结构合理、
10、语义注释恰当的数据(如包含立法和指令的文件、来自政府机构操作系统的结构化数据、社交媒体数据等),使公民能够用日常语言与政府对话机器人进行更加丰富、更具表达力的沟通。衡量机器或系统是否能够真正理解用户意图的最直接标准是能否在接收用户信息后实现用户的指定目标19。基于此,许多学者从问答评测的角度来评估系统的语义理解能力,如 20 世纪 50 年代,英国数学家艾伦 图灵提出了著名的“图灵测试”20;1999 年举办的 TREC(文本检索会议)首次引入了“问答评测(QAtrack)”环节,以评测检索系统的问题解决能力;吴 友 政 等21建 立 了 汉 语 问 答 系 统 评 测 平 台(EPCQA),
11、采用MRR、事例召回率、事例准确率、片段召回率以及片段准确率等指标来验证问答系统的性能;JURCICEK 等22利用众包技术对口语对话系统进行了远程评估,由受测者主观决定回复信息是否成功;腾讯 AI Lab 的李菁等23构建了一个大规模人工标注中文对话数据集,而后邀请专业人员根据系统回复的相关性、连贯性、信息性、趣味性等维度对文本数据进行五级评分;ROQUE 等24借助可用性测试量表,邀请 17 位医护人员与患者对“关于伤口处理”的智能问答系统回复质量进行评价。由于面向用户群体的广泛性、任务的多样性和语言特征的不确定性,采用针对特定任务设置基准的评估方式局限了用户真实需求的表达,仅能从计算效率
12、上评估问答系统的服务质量,而采用人工问答评测方式,通过设定人类基准则可以从问题解决能力、回复质量、用户易用性、场景适用性等多个方面弥补基准算法评测方法的不足。2.2政务智能问答系统评价研究学术界利用计算实验、调查问卷、用户模拟实验等方法对政府网站智能问答系统的问答质量进行评测。例如,李焱冬25采用答复准确率对中心自建的“海德先生”系统进行了评价,而后将答复结果划分为“直接答复、提供选择、回答错误、无法回答”4 类,并通过统计分析评估问答质量。AOKI26对 220 万订阅小组成员对政府AI聊天机器人的信任程度进行在线调查,通过用户的主观评判来衡量对政务聊天机器人的使用满意程度。王友奎等27采用
13、模拟用户的方法,利用测试关键词与问句从信息类、办事类、辅助类3个维度对政府网站问答系统进行评测,主要衡量了政府网站问答系统后台知识库的水平。以上研究在评价指标、用户体验、问答知识水平等方面涉及语义理解能力,但是未针对语义理解能力进行综合评价。同时,由于各政府网站后台对所采用的自然语言理解技术进行了密级管理,无法得到具体技术细节。本文从用户角度出发,采用面向语义理解力的政务问答系统评价指标体系,以及由政府网站真实用户提问改编而成的不同语言类型的评测题目,对我国省级政府网站智能问答系统进行测评分析,并针对发现的问题提出对策建议。3评价对象与评价方法3.1评价目的评价是管理的重要手段。评价的目的包括
14、问题诊断、荣誉激励、优秀遴选、决策支持等。诊断性评价的对象常常是单一的,采用的评价方式包括用户评价与由管理咨询公司开展的专家评价,其目的在于发现问题,并提出针对性的改进方案,比如对新开发的检索系统或政府网站进行可用性评价就是典型的诊断性评价。而激励、遴选或决策支持性质的评价则常常是对多个同类对象进行评价,并依据评价结果进行排序,主要有3个目的:一是总体诊断,通过系统性评价指标的设定,发现普遍存在的问题,帮助评价对象找到改进的方向与重点领域,比如由教育部开展的高等学校学科评估;二是激励,帮助管理者了解69科 技 情 报 研 究第5卷第3期情况,更好地做出奖励先进、鞭策后进的决策,以此实现普遍的质
15、量改进或能力提升,主要由主管部门或第三方机构开展评价研究,比如由南开大学网络社会治理研究中心开展的数据赋能政府治理评价研究28等;三是辅助决策,通过提供真实全面的情况为用户的选择和决策提供依据,常常由第三方机构进行评价并发布指数排名,也可以起到间接地诊断、激励和引导发展方向的作用,比如由第三方机构发布的高等学校排行榜。本文所开展的评价主要目的在于诊断和引导发展方向,通过发现问题,树立标杆,促进我国省级政府网站智能问答系统语义理解能力和服务质量的提升。3.2评价对象的选择省级政府网站与部委网站代表了较为先进的政府网站建设水准。相比于部委网站,省级政府网站智能客服解决的问题更具普遍性,相互之间更具
16、有可比性,适合运用统一的评测题目进行评价比较,因此选择省级政府网站智能问答系统作为评测对象。经多次预测试后发现,截至 2022 年 3 月,在全国 34 个省级行政区中,云南省政府网站智能问答系统无响应,澳门特别行政区政府网站没有智能问答系统,香港特别行政区政府网站的智能问答系统仅能提供政务信息表格,台湾省政府网站则因网络问题难以开展,其余 30 个省级政府门户网站均开通了智能问答服务功能。2022 年 3 月 15 日至 16 日,对能够正常运行的30个省级政府网站的智能问答系统进行统一评测(网址详情见附录 1)。本文中所使用的“智能问答系统”“智能问答服务”或“智能客服”术语,均表示“智能
17、问答系统”。3.3评价指标与评分细则本文选择南开大学网络社会治理研究中心开发的“政府网站智能客服评价指标体系”作为评价工具,该指标体系包括“问题解决质量”“服务交互质量”“基础建设质量”3 个一级指标和 9 个二级指标、18个三级指标,见表1。该评价体系包含客观指标和主观指标。每项指标设置评判细则,并邀请 3 名专家组成评分小组,对主观评价指标打分。首先,客观指标“问题解决质量”中的三级指标多数可以量化,其中5种类型的问题解决率可通过正确率测量;交互次数指标可通过公式“全部有效交互次数/正确回答问题数”衡量;完整性指标的评价则由系统答案中事项要素的个数决定,根据要素数量设置15分;规范性指标是
18、主观指标,由评分专家依据信息组织的有序情况划分标准进行评分29。其次,在指标“服务交互质量”中,互动人性化指标为主观指标,同样为其设置 3 个标准供评分小组成员判断,在转换人工服务和使用意见反馈两方面则根据系统的配置情况设立评测标准。最后,在指标“基础建设质量”中,界面美观程度和系统稳定性为主观指标,由评分小组主观打分,其余指标均可由单人根据系统表现情况直接评分。另外,因不同用户对系统稳定性的感知程度有差异,如果直接由专家自行评测,难以保证评分的准确性。考虑到稳定性指标在本层级中相对权重较高,故为稳定性指标添加客观衡量依据:当系统能在2秒内对用户进行有效回复则为满分;当系统无法在 2 秒内回复
19、,但可以在 4 秒内完成 2 个问题的回复时,其表现可评为中等;当系统无法满足上述 2 个条件时,评为下等。3.4评测问题与评测流程本文选用由南开大学网络社会治理研究中心为评价指标体系配套编制的政务测试问题集(详见附录 2)进行评测,其中高频政务咨询问题用于测试智能客服系统的知识库容量;同义问题用于测试智能客服系统的语义理解能力;省略型问题用于测试智702023年7月政府网站智能客服评价指标体系一级指标问题解决质量(0.748)服务交互质量(0.125)基础建设质量(0.127)二级指标问题解决率(0.408)解答效率(0.101)信息质量(0.239)共情服务(0.040)人工支持(0.05
20、8)效果评价(0.027)功能建设(0.057)系统性能(0.054)界面设计(0.016)三级指标高频型问题(0.245)同义型问题(0.082)错误型问题(0.041)省略型问题(0.020)英文问题(0.020)交互次数(0.101)完整性(0.191)规范性(0.048)互动人性化(0.040)转接人工服务(0.058)使用意见反馈(0.027)具备使用说明(0.017)地区导航(0.017)热点服务(0.017)输入联想(0.006)运行稳定性(0.027)终端兼容性(0.027)界面美观程度(0.016)评分细则正确回答问题数/测试问题数正确回答问题数/测试问题数正确回答问题数/测
21、试问题数正确回答问题数/测试问题数正确回答问题数/测试问题数全部有效的交互次数/正确回复的问题数根据答案中的事项办理要素评价(15分)1分,信息排版杂乱无章23分,信息排版尚可,略有瑕疵45分,信息组织统一有序1分,毫无人性化23分,初步具备人性化特征45分,交互过程中,与真人无感知差异1分,无人工服务3分,用户可要求人工服务5分,主动提供人工服务1分,无反馈渠道3分,有反馈,只能好评、差评5分,有反馈渠道,且可输入反馈内容1分,无任何展示2分,仅有字数说明3分,有使用说明的文字4分,有使用说明的动画5分,使用说明+字数限制1分,无地区导航功能3分,网页可选或者提问可选5分,网页可选择+提问时
22、可选根据系统提供的热点服务数量打分(15分)1分,无输入联想功能5分,有输入联想功能0分,无法回复1分,明显卡顿或4秒内无法回复2条问题3分,运行略显卡顿,4秒内进行二对二回复5分,运行顺畅,且2秒内可进行一对一回复1分,移动端不能打开3分,移动端可打开但不适配5分,移动端完全可适配1分,布局、色彩混乱不统一23分,布局、色彩基本统一,无特色45分,布局、色彩风格协调一致,具备地方特色表1 政府网站智能客服评价指标体系能客服的上下文语境感知能力;错误型政务问题用于测试智能客服的自动纠错能力;英文型政务问题用于测试智能客服的对外开放程度。运用上述评测问题集针对 30 个省级政府网站进行评测,其具
23、体流程为:综合考虑指标权重后,选取60道高频政务测试问题进行测试,得出高频问题正确率指标的评分数据;在高频问题测试结束后,选取与各系统正确回复的高频问题对应的改编问题再次进行测试,得到各系统的4种问题解决率以及交互次数。同时,以“人机交互”过程为主线对其余指标进王芳,魏中瀚,连芷萱,等:基于语义理解力的我国省级政府网站智能问答服务质量评价研究71科 技 情 报 研 究第5卷第3期行测试。首先,当用户进入政府网站问答系统后,即对“具备使用说明”“地区导航”“热点服务”“终端兼容性”“界面美观程度”5个指标进行评分。然后,通过输入不同类型的问题测试问答系统有无“输入联想”功能。当系统对于全部问题给
24、予回复后,评测者便可对“完整性”“规范性”“互动人性化”“运行稳定性”这4 个指标进行综合评价。最后,针对系统无法给予回复的情形,测试者通过对有无“转接人工服务”以及“使用意见反馈”功能完善对智能客服的评价。最终得到18个指标的全部评测数据。4评测数据处理4.1指标得分区间选择根据评分细则,对 30 个省级政府网站智能客服进行评测后,得到30组评分数据,数据包括百分率与15 整数值等评测分数。为了统一量级与单位,且便于后期加权,统一将得分区间设定为0,5,按此标准处理其余指标。4.2客观指标得分处理5 种不同类型的问题解决率均以百分率形式体现,其原始范围为0,1,为了使最终数据位于0,5区间,
25、对各百分率作“乘5”扩倍处理。交互次数越多,表明系统交互效率越低,故选取逆向化(NMMS)处理方式30。为将交互次数标准化,本文首先将原始的交互次数归一化,使得交互次数置于0,1区间,具体公式见式(1)。依据此方式,原本最多的交互次数将转化为 0,最少的交互次数将转化为 1。在评估交互效率方面,在实践中交互效率低并不代表交互效率为 0,将最低交互效率设置为 0 与实际不符,因此本文在原有交互次数归一化方法的基础上运用 i4+1 的方式,将最大的交互次数设置为1,最小交互次数设置为 5,同时将中间各数散落至1,5区间,符合5分制打分习惯。i=msx-imax-min(1)式(1)中,i为i省份(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语义 理解力 我国 省级 政府 网站 智能 问答 服务质量 评价 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。