基于文献计量的数字档案研究趋势分析.pdf
《基于文献计量的数字档案研究趋势分析.pdf》由会员分享,可在线阅读,更多相关《基于文献计量的数字档案研究趋势分析.pdf(10页珍藏版)》请在咨信网上搜索。
1、研究综述RESEARCH REVIEW-179-基于文献计量的数字档案研究趋势分析*周丽霞 孙书剑(黑龙江大学信息管理学院 哈尔滨 150080)摘 要:采用可视化分析方法,对我国数字档案研究成果进行计量分析。从词频统计、文献来源、时间序列、聚类、突现词等多种角度绘制图谱,清晰、准确、完整、系统地展现我国数字档案理论应用研究及实践工作现状,分析热点研究领域及未来发展趋势。我国数字档案研究将向信息化与共享大数据方向迈进。关键词:数字档案;可视化分析;研究趋势中图分类号:G270 文献标识码:A 文章编码:1005-9652(2022)06-0179-010数字技术的产生与应用将档案记忆由传统实体
2、空间带入到数字空间1。数字档案更倾向于电子文件本身的非结构化和结构化数据,即档案的逻辑属性2。近几年,数字档案相关研究领域产生大量研究成果,如在不可信云端和可信客户端间部署可信本地服务器,负责运行档案云上分级存储模型和档案云上分段查询模型3,这些创新研究成果在为开展数字档案研究相关工作带来启示和经验的同时,也极大增加了其准确性评估的操作难度。也有一些研究人员使用可视化检验方式来发现数字档案加密技术、档案袋装质量评价技术等当前热点问题,以定位研究成果的质量及变化规律。1 文献采集与数据处理文献数据标准化采集加工与数据处理自动化发展的最终目的是为了最终实现文献数据的结构化。因为采集获得的原始数据多
3、是非结构化的数据,无法直接用于数据计量或统计分析,需要人工将现有结构化数据重新转换。在图书情报领域,可视化方法越来越受到研究人员的重视,是一个全新的研究方法与发展方向4。1.1 检索词及数据源选取1.1.1 检索词确定对大量“数字档案”概念进行语义分析后得出:数字档案主要是指档案通过微型计算机物理存储载体等数字设备形式进行文档信息数字化存储,与传统的袋装存储纸质档案概念相对应,在计算机其他专业领域里被统称为数字文件。目前进行数字文件信息存储利用的电子介质主要有电子磁盘和光盘5,高速云数据计算技术时代,数字档案大部分可以采用云存储管理方式。再根据中英文比较,将中文检索语词界定为“数字档案”,或者
4、灵活转换检索式,比如在“数字化医疗档案管理技术中的数字电子病例档案”又可分解成“数字健康档案”“数字健康记录”“数字病例”。1.1.2 数据源选取本文分析样本来自中国知网(CNKI)和万方数据,时间设置为近五年即 2017-2022 年。为了提升检索数据的准确性和全面性,两个数据库的检索范围和检索词一致,去重后得到5256条记录(如表1所示),*【基金项目】国家档案局科技项目:总体国家安全观下档案信息安全治理体系研究(项目编号:2021-R-14)研究成果。【作者简介】周丽霞(1972-),女,黑龙江大学信息管理学院教授,博士,研究方向:数据开放与政策法规;孙书剑(1998-),男,黑龙江大学
5、信息管理学院硕士,研究方向:数字档案开放与管理。2022 年第 6 期 总第 266 期-180-SHANXI ARCHIVES包含万方数据类资料 2497 条和中国知网数据 2759 条。表 1 检索结果统计1.2 数据标准化导出数据库原始数据格式大致可分为中国知网原始数据库 EndNote 格式和万方 NoteExpress 格式两种,为尽量避免全文资料的重复,必须要针对导出文章的数据信息进行手工输入或由电脑来自动进行数据库录入的调整与数据自动剔除。为了确保导出数据全文资料内容的准确性及完整性,每篇文章至少要完整保留原始资料题名、作者等相关信息6。1.2.1 数据合并由于数据包含两种文献题
6、录格式,为了更好方便统计,统一合并转换为中国知网全文数据的标准化EndNote 格式,同时使用该转换工具能够执行多文件数据合并7,将多个文本文件批量转换合并为一个Excel 文件,方便后期再进行其他数据操作。本次分析数据仅经过了简单压缩处理,共分析获得了有效的数据信息 56791 行,数据量适中,且对数据进行格式合并、分析统计时未发现有空行或编码错误,但合并后的数据已无法直接进行标准化处理操作,需要数据清洗。1.2.2 数据清洗在数据转换合并过程中发现,主题词库中使用了大量的近义词、同义词,同时,国内不常使用一些国际通用的名词也用作关键词8。为了有效解决主题词名称数据之间可能存在着的各种高度相
7、似性,使用 Excel 工具来实现数据格式统一管理和标准化。本次采集到的数据在经过多次去重与清洗处理后源数据量均没有明显降低,合并处理后的总记录数据量为 34609 条,约占源数据量的 60.94%,所以对数据质量的再次检验分析则就显得尤为必要。同时,在对数据内容的转换与检验操作过程与实践研究中亦可以发现,除了有部分题录内容相似现象出现以外,在实际检验采集相关数据时均可明显发现,在数据转换及验证两环节中,确有小部分数据内容存在题目错误和个别关键词信息缺失,具体操作及采集结果分析方法表 2 所示。表 2 缺失值处理表该检索表中可以看出,Newspaper中的Article类、Conference
8、及Proceedings这三部分文献类目中,发表年、卷号信息均显示缺失,Article 类摘要等文献列表显示缺失的程度也比较较严重,缺失部分文献类型属于数据未处理完全时的信息缺失9。期刊论文 学位论文 会议文献专利标准报纸其他合计万方216823930000602497CNKI24151882500151162759类型地址出版年卷Newspaper Article中国经营报Newspaper Article福建日报Conference Proceedings黑龙江省航道局;2017研究综述RESEARCH REVIEW-181-2 基于可视化的我国数字档案研究热点分析主题词、关键词的对比研究
9、,爆发词分析均可以初步确定相关研究领域词汇频率变化和规律。2.1 词频统计不同作者对关键词的选词标准会有所不同,因此,对文中某些特定关键词的筛选及处理方法将会或多或少出现规范性差和随意性强的现象,这也会直接影响相关研究人员和普通用户对论文内容判断的准确性。2.1.1 高频词统计通过相似词矩阵对论文关键词质量再次筛选并进行二次审核10,常见的学术论文关键词数量一般为 3-8 个,因此我们在保持原有的数据基础上将会进一步清洗,目的是通过计算机快速分析和判断某一个研究主题关键词的时间出现次数的频次高低及变化规律,以此辅助判断当前相关研究主题的热点所在和研究工作发展趋势。本次的分析与研究也正是为了发现
10、关键词出现频率高低的时间规律及变化,采用时间频率序列图式表的快速分析方式来快速进行呈现。为了可以进一步方便对图表文本资料检索或查看,列出表 3。按照出现频次排序,抽取频次大于 30次的关键词,按照对应的时间节点分别进行相关排序标注。表 3 高频关键词统计序号频次中心度时间关键词13970.352017数字档案21870.222017档案管理3950.062017数字化4740.092017大数据5700.122017档案6680.12018数字人文7550.12017档案馆8500.072017信息安全9470.12017信息化10450.092017高校11440.042018档案资源124
11、00.112017策略13400.132017档案工作14350.082017档案信息15350.122017管理16350.062017建设17340.132017电子档案18340.092017电子文件19310.092017档案数据20300.062017问题2022 年第 6 期 总第 266 期-182-SHANXI ARCHIVES表3中可以看出,档案数字化、大数据、信息化、策略等四个高频词均与其他关键词间的相关性较高,对比统计后也发现只有数字档案管理、数字档案计算机、电子档案信息化、数字档案对策分析等五个关键词无法完全与其他词合并11,故未单独作为高频关键词出现。词语可以用于更加
12、深入有效的沟通不同类型档案研究领域主题概念之间微妙复杂的交叉关系12,以数字档案原始性研究分析领域为研究核心和代表该主题概念的数字档案信息资源管理和信息安全的管理的研究分析领域都与数字档案长期和安全有效保存领域的问题密切交叉。中心度差的一般计算方式为由某一点中心点到周围其他各点之间距离和的平方倒数,距离越远则表明在该点中心处于边缘位置。2.1.2 高频词时间序列分析对关键词数据库全面清洗后得到 342 个关键词,其中词频大于 10 的关键词有 54 个。为了便于更好和准确及时地发现数字档案研究热点,进一步准确了解关键词词频度随研究时间序列变化后的规律,使用时间序列分析法,以 1 年为研究周期1
13、3,同时考虑采用分层随机抽词的研究方法,最终筛选与确定207 个词汇,绘制成时间序列图,如图 1 所示。图 1 可以快速展示各阶段数字档案研究热点,分别为档案云计算基础研究建设阶段、管理部门信息化规划建设发展阶段、信息资产安全规范管理实施阶段、信息时代管理创新阶段、共享研究阶段五个部分。图 1 高频关键词时间序列分析图图 1 中光圈颜色越多表明包含该关键词跨度范围越大,文件与归档信息化管理技术研究贯穿应用在涵盖了档案电子化管理研究及管理信息化体系规划建设等各个技术阶段,同时归档信息化管理系统规划建设在每个研究阶段中也是全面覆盖。结合高频词的时间序列分布情况与时空变化规律,可以简单据此来将数字档
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文献 计量 数字 档案 研究 趋势 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。