调查问卷中开放题文本答案编码方法研究综述.pdf
《调查问卷中开放题文本答案编码方法研究综述.pdf》由会员分享,可在线阅读,更多相关《调查问卷中开放题文本答案编码方法研究综述.pdf(13页珍藏版)》请在咨信网上搜索。
1、Statistics and Application 统计学与应用统计学与应用,2023,12(5),1464-1476 Published Online October 2023 in Hans.https:/www.hanspub.org/journal/sa https:/doi.org/10.12677/sa.2023.125150 文章引用文章引用:刘培莹,安建业.调查问卷中开放题文本答案编码方法研究综述J.统计学与应用,2023,12(5):1464-1476.DOI:10.12677/sa.2023.125150 调查问卷中开放题文本答案编码方法研究综述调查问卷中开放题文本答案编
2、码方法研究综述 刘培莹,安建业刘培莹,安建业 天津商业大学理学院,天津 收稿日期:2023年9月27日;录用日期:2023年10月24日;发布日期:2023年10月31日 摘摘 要要 调查问卷作为联系调查者与被调查者之间的“纽带”,是采集数据、发现因素间内在联系和规律的有力调查问卷作为联系调查者与被调查者之间的“纽带”,是采集数据、发现因素间内在联系和规律的有力工具。对其中的开放题收集的答案文本数据进行编码,有助于了解文本答案蕴含的固有特征,便于后期工具。对其中的开放题收集的答案文本数据进行编码,有助于了解文本答案蕴含的固有特征,便于后期开展统计分析,是开放题研究的热点问题。为此,从人工编码、
3、半自动编码及自动编码三个方面对开放开展统计分析,是开放题研究的热点问题。为此,从人工编码、半自动编码及自动编码三个方面对开放题文本答案的编码方法研究进行了归纳、总结与展望,为进一步开展相关研究奠定良好的基础。结果表题文本答案的编码方法研究进行了归纳、总结与展望,为进一步开展相关研究奠定良好的基础。结果表明:关于开放题文本答案的编码方法研究,经历了从最初的完全人工编码到“机器明:关于开放题文本答案的编码方法研究,经历了从最初的完全人工编码到“机器+人工人工”的半自动的半自动编码,逐步发展到目前编码,逐步发展到目前“基于人工智能基于人工智能”的自动编码探索三个阶段;的自动编码探索三个阶段;虽然虽然
4、编码效率得到了极大编码效率得到了极大的的提升,提升,但是由于缺乏普适性的编码方法,因而不同领域开放题文本答案编码的准确性存在较大差异,提高编码但是由于缺乏普适性的编码方法,因而不同领域开放题文本答案编码的准确性存在较大差异,提高编码的普适性、准确性仍是未来研究的重点。的普适性、准确性仍是未来研究的重点。关键词关键词 调查问卷,开放题,自动编码,研究综述调查问卷,开放题,自动编码,研究综述 A Review of Text Answer Coding Methods for Open-Ended Questions in Questionnaires Peiying Liu,Jianye An
5、School of Science,Tianjin University of Commerce,Tianjin Received:Sep.27th,2023;accepted:Oct.24th,2023;published:Oct.31st,2023 Abstract As the“link”between the investigator and the respondent,questionnaire is a powerful tool to col-lect data and find the internal relations and rules among factors.En
6、coding the answer text data collected by the open-ended questions is helpful to understand the inherent characteristics of the text answers,which is convenient for later statistical analysis,and is a hot issue in the study of open questions.Therefore,this paper summarizes,concludes and prospects the
7、 research on the 刘培莹,安建业 DOI:10.12677/sa.2023.125150 1465 统计学与应用 encoding methods of open-ended question text answers from three aspects:manual encoding,semi-automatic encoding and automatic encoding,which lays a good foundation for further re-lated research.The results show that:As for the research
8、 on the encoding method of open-ended question text answer,it has experienced three stages from the initial completely manual encoding to the semi-automatic encoding of“machine+manual”,and gradually developed to the current automatic encoding exploration of“artificial intelligence”.Although the codi
9、ng efficiency has been greatly improved,due to the lack of universal coding methods,the accuracy of open-ended ques-tion text answer encoding in different fields is quite different.Improving the universality and ac-curacy of coding is still the focus of future research.Keywords Questionnaire,Open-En
10、ded Question,Automatic Coding,Review Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 调查就是为了获得被调查者的真实意见,使调查者的决策依据更加充分,对未来的预测更加准确,被广泛应用于教育、农业、医学等领域1-9。在各种调查
11、方法中,问卷调查是最常用、最重要的方法,已成为各行各业开展诸如评价学习、了解市场、征集民意等活动的主要方法。调查问卷作为联系调查者与被调查者之间的“纽带”,是采集数据、发现因素间内在联系和规律的有力工具10。通常,调查问卷设计的题目包括封闭题、半开放题和开放题三种类型。封闭题设计了题目和相应的选项以及指定回答规则,由被调查者选择合适的答案;半开放题是封闭题选项的扩充,可以发表自己的观点;而开放题则按照研究目的只设置题目,不提供任何答案选项,完全由被访者自由作答。关于调查问卷中开放题设置的必要性,不同学者拥有截然不同的观点。例如,潘绥铭11认为问卷中“开放题”的存在是种失误,不应该设置任何一种关
12、于原因类的开放题;而肖富群12则认为问卷中开放题是很有必要的,他指出如果题目中有大量备选答案或者无法给出明确的备选答案,在问卷设计过程中不便提供,就可以设置成开放题,这样在一定程度上就能够避免由于选项对用户的限制而造成的回答偏见,收集到更加翔实的数据13 14。调查问卷中开放题文本答案虽然包含了情感倾向、商品喜好、社会热点看法等丰富的有价值信息,但是由于其具有描述信息弱、稀疏性、表达不规范等短文本数据的特点15,因而难以直接对其进行频数、相关性、可视化等常规统计分析。再加上开放题分析对工作人员的技术要求和处理成本较高,尤其是涉及某些特定领域的调查时,需要研究人员有较强的专业知识,所以导致调查问
13、卷中大多数题目都采用封闭题,对于开放题的研究与应用明显不足16 17。由此可知,通过对开放题文本答案进行编码,将非结构化的文本数据转换成易被机器读懂的结构化代码数据形式,对于调查研究具有重要的现实意义。对开放题文本答案进行编码,实质上就是建立开放题文本答案数据集与码表集之间的一个映射:已知 n 为样本容量,调查问卷中某一开放题文本答案构成的集合为 DT,对应的码表集为 Rc,如果对于 DT中任意的文本答案()1,2,ix in=,存在与 Rc 中唯一编码()1,2,iCyRin=之间的对应关系 f,建立的编码模型如式(1)所示:(),1,2,iiyf xin=(1)Open AccessOpe
14、n Access刘培莹,安建业 DOI:10.12677/sa.2023.125150 1466 统计学与应用 当编码结束后,通过对开放题文本答案编码结果与其他封闭题的一致性检验,还可以进一步判断每份调查问卷所采集到数据的有效性,提高样本数据的质量。最初,调查研究中收集数据的方式是通过实地发放问卷进行的,这种传统发放方式所收集的开放题文本答案数量较小,通过人工方法就可以对答案进行编码处理了18。后来,信息技术的不断发展,发放平台逐渐向网络平台转移,问卷发放与回收效率不断提高,这为广泛运用问卷开展调查研究提供了广阔的空间19。随着文本计算能力的不断加强,文本挖掘技术日益成熟,调查问卷中开放性题目
15、的设置比例逐步增加,开放题文本答案蕴含的信息量更加丰富,此时对于开放题答案编码仍然采用人工的方式,其成本高、效率低等劣势表现得非常明显。如果要在短时间内高效地对问卷的文本数据进行处理和分析,那么开放题文本答案自动编码的重要性不言而喻20。近年来,语音识别技术飞速发展,语音成为人机交互的主要途径之一21,采用语音识别技术开展问卷调查成为数据收集的新模式,开放题文本答案半自动编码、自动编码的应用场景不断扩大。为此,许多学者同时利用网络语音调查和实地问卷调查两种形式,采取定量分析与定性描述相结合的方式开展调查研究22 23 24,并通过设置更丰富的开放性题目,收集更大量的文本答案数据,为后期统计分析
16、奠定良好的基础。目前,开放题编码问题受到越来越多学者的关注,如何实现文本答案准确、快速编码已成为研究的热点,然而这方面的综述文章很少,急需对开放题文本答案编码的相关研究进行系统总结。为此,下面从开放题文本答案编码经历的人工编码、半自动编码、自动编码三个阶段入手,梳理了编码方法的相关研究成果,比较分析了不同编码方式的特点与研究现状,归纳总结了分词库的建设情况,展望了未来的研究方向。2.人工编码人工编码 人工编码是开放题文本答案编码的基础,而要准确地进行人工编码,就要了解开放题的题型设计以及不同类型开放题的具体特征,以此选取适宜的编码策略。关于开放题题型设置方面的研究,Popping R 25曾在
17、文章中指出开放题主要是为了调查“谁”“什么”“何时”“何地”以及“为什么”,因此从调查目的出发可以将开放题划分客观题、主观题和综合题,具体情况如表 1 所示:Table 1.Basic types of common open questions 表表 1.常见开放题的基本类型 类型 发问词 题目举例 目的 客观题 谁(who)您家有谁使用该款手机?询问客观事实,发现事实,收集有价值信息 什么(what)您使用什么牌子的手机?何时(when)您在何时开始使用该款手机?何地(where)您在何地了解到该款手机的?主观题 为什么(why)您为什么喜欢某牌子的手机?征求客户的意见和态度 综合题-您觉
18、得以下谁适合当该款手机的代言人?为什么?综合考虑客观事实与客户观点 由表 1 可知,不同研究目的需要设置的开放题题目类型不同,因而收集到的文本答案具有很大差异。在遵循统一性、合理性、完备性、唯一性和可读性这一开放题文本答案编码原则的前提下,不同类型的开放题文本答案所采用的编码方式也各不相同26 27。针对开放题中诸如品牌、城市等客观题型,其文 刘培莹,安建业 DOI:10.12677/sa.2023.125150 1467 统计学与应用 Figure 1.Manual coding flowchart 图图 1.人工编码流程图 本答案主题比较清晰,通常可以以主题的方式直接进行编码;针对开放题中
19、诸如满意度、口味等主刘培莹,安建业 DOI:10.12677/sa.2023.125150 1468 统计学与应用 观题型,通常需要在原有基本码表的基础上再应用和制定新的码表24;而针对回忆、心理描述等综合类型的开放题,因其文本答案主题分散、含义复杂等原因,在人工编码中通常以问卷号的方式直接对文本答案进行编码。早在 2012 年,任莉颖28认为国内调查中开放题文本答案编码当时是以人工编码为主,需要编码员具有一定的专业性。文章一方面按照先大类、后细类的原则对 CFPS 数据提出了四级编码,另一方面编码员采用双向独立验证判定的方式对数据集进行了集中编码,并通过对两种编码方式的比较来验证编码的准确性
20、。由于此方法完全由人工编码,耗费时间长,编码效率不高,因此,许多学者的研究逐步转移到如何提高开放题文本答案编码的准确性与编码效率。Popping R 29以荷兰选举中开放题文本答案为依托,从受访者的角度制定了相应的编码规则,并根据受访者类别对开放题文本答案进行了编码30。以提高编码的准确性;Zhoushanyue He 31等人提出了基于双编码的开放题文本答案人工编码方法,提高了编码的可靠性。但是在实际应用中,由于预算成本等原因,大多数开放题文本答案的人工编码还是采用了单编码方式。总之,目前开放题文本答案编码还是以人工编码为主,是在收集完开放题文本答案的基础上,由专业编码人员根据个人理解对答案
21、进行手动编码,其流程如图 1 所示。开放题文本答案编码存在以下两个问题:一是不同领域、不同类型的开放题之间有较大的区别,编码工作耗费的时间较长,成本高;二是由于每个编码人员对同一事物认知有偏差,缺乏统一的标准,编码结果有较强的主观性。为了克服人工编码中的不足,国内外许多学者将机器学习、统计学习应用于开放题文本答案的编码过程中,人工编码逐渐向半自动或自动编码方法过渡。3.半自动编码半自动编码 半自动编码以计算机辅助人工编码的方式对开放题文本答案进行编码,首先由专业的编码人员对部分采集的文本答案人工标注为预先设置的编码,然后将其作为训练集,利用机器学习方法进行模型训练,最终利用训练好的模型对其他所
22、有文本答案进行编码,提高了编码效率。李煜32在爱情观调查问卷中设置了开放题,归纳出 16 类对爱情的表述,之后通过聚类分析聚成爱情观的 9 大类别,从定性与定量统计分析两个维度探索了开放题文本答案的半自动编码。Andrea Esuli 和 Fabrizio Sebastiani 33开发了一种自动逐字编码系统(VCS)。该系统将人工对选项编码为所属类别的记录标记为正例,将人工对选项编码不所属类别的记录标记为反例,基于正反例进行学习,生成一个二进制编码模型,在编码的准确性、训练效率、效率等方面具有很好的效果。Schonlau 和 Couper 34认为半自动编码无法完全替代人工编码,并提出了一种
23、半自动算法对开放题文本答案进行编码,即以 80%的准确度为阈值,当正确分类的概率超过 80%时,采用多项式梯度 boosting算法进行半自动编码;当正确分类概率低于 80%时,采用人工编码。Gweon 和 Schonlau 35等学者针对编码成本高的问题,提出了三种职业半自动编码方法。此类方法是在建立详细职业代码和职业组合代码模型的基础上,将重复方法与统计学习算法相结合,改进了最近邻方法,构建了混合方法。在利用德国综合社会调查(ALLBUS)中开放题文本答案进行的编码实验中,有效地提高了编码的精度。吴琼等人36关于职业的调查问卷中,设置了开放题,在中文职业开放题文本编码时建立了朴素贝叶斯分类
24、器和支持向量机分类器,在大类编码上效果较好,而在细类上有所欠缺,性能上还需进一步提高。Zhoushanyue He 37提出“复制”“消除差异”“多数票表决”和“专家解决”共四种由两位编码人员独立编码的双编码策略,并与单编码在提高自动编码能力方面进行比较。结果表明:在预算分配方刘培莹,安建业 DOI:10.12677/sa.2023.125150 1469 统计学与应用 面得出固定预算下,双编码对机器学习算法有一定的提高;在不存在预算约束且文本已经双编码的情况下,所有双编码策略的性能普遍优于单编码策略;在固定预算下,由专家解决训练文本中的分歧对准确率的提高最大,其次是消除分歧。陈曦18运用 K
25、NN 算法对社情民意调查问卷中的半开放题进行文本分类,最终各类准确率达到 85%以上。说明利用文本挖掘技术在社情民意问卷中处理半开放题有较好的效果,然而文章只对半开放题进行了应用,缺少对纯开放题的实验。刘娅38首次采用四种机器学习分类器对中文职业文本进行编码,同时也是深度学习在中文职业编码上的初次尝试。对中国劳动力动态调查(CLDS)2016 年数据集,分别测试朴素贝叶斯、逻辑回归、随机森林和卷积神经网络在中文职业编码的效果。结果显示,四种方法均在职业大类上表现良好。采用对职 Figure 2.Semi-automatic coding flowchart 图图 2.半自动编码流程图 刘培莹,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 调查 问卷 开放 文本 答案 编码 方法 研究 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。