高校图书馆科研数据管理服务要素研究.pdf
《高校图书馆科研数据管理服务要素研究.pdf》由会员分享,可在线阅读,更多相关《高校图书馆科研数据管理服务要素研究.pdf(13页珍藏版)》请在咨信网上搜索。
1、2 0 2 3.3总第147期DOI:10.13666/ki.jnlc.2023.0304高校图书馆科研数据管理服务要素研究陈媛媛 林安洁 陈志鹏摘 要 厘清高校图书馆科研数据管理服务要素,并分析其具体内容,能够为高校图书馆科研数据管理服务提供参考。本文采用文本分析法和统计分析法,利用 Python 软件提取美国 37 所高校图书馆的科研数据管理服务页面文本,并对文本进行主题分析和聚类分析,进而对高校图书馆科研数据管理服务的要素进行划分和解读,构建高校图书馆科研数据管理服务的要素词典。结合科研项目生命周期和数据生命周期,最终将高校图书馆科研数据管理服务的要素划分为 2 个流程要素、6 个内容要
2、素、4 个支持要素和 3 种形式要素,并结合实际情况对各要素进行了分析。图 2。表 2。参考文献 27。关键词 高校图书馆 科研数据管理 服务要素 美国Research on Elements of Research Data Management Service Provided by University LibrariesChen Yuanyuan Lin Anjie Chen ZhipengAbstract Clarifying the service elements of research data management in university libraries and an
3、alyzing the specific content of service elements can provide references for the future research data management services of university libraries.This paper uses the methods of text analysis and statistical analysis.The Python software is used to obtain the page text of the research data management s
4、ervice of 37 university libraries of the United States and the theme analysis and cluster analysis of the text are carried out so as to divide and interpret the el-ements of the research data management service of university library and build the element dictionary of the re-search data management s
5、ervice of university library.Combining the life cycle of research project and scientific data this paper finally divides the elements of research data management service of university libraries into two process elements six content elements four support elements and three form elements and analyzes
6、each ele-ment according to actual situation.2 figs.2 tabs.27 refs.Keywords University Library Research Data Management Service Elements United States 数据密集型科研环境下,研究人员在科研活动中产生大量数据,如何对这些数据进行选择、分析、存储、共享和再利用,是防止科研数据流失、实现科研数据增值和推动科学研究发展的关键。高校作为科研的主力军,更需要加强科研数据管理(Research Data Management,RDM),通过图书馆等部门开展 RD
7、M 服务来帮助科研人员对科研数据进行管理。但是,我国高校 RDM 服务仍在初步探索阶段,在 147 所“双一流”高校中,仅有北京大学、武汉大学、复旦大学、湖南大学、对外经济贸易大学和上海外国语大学等高校图书馆网站有 RDM 服务相关栏目,并且其中仅北京大学、武汉大学和复旦大学等 3 所高校图书馆的 RDM服务实践比较丰富。大部分国内高校图书馆仍只是提供数据资源导航、案例介绍和机构仓储库等基础服务,并且服务提供较为分散,不足以在科研数据全生命周期对用户的 RDM 进行全面和深入的指导。而国外高校图书馆在与政府、行业组织和机构的通力合作下,已经形成了丰富的 RDM服务实践成果,可以为国内服务提供参
8、考。秦顺63本文系国家社科基金项目“高校图书馆科研数据服务模式与服务系统研究”(项目编号:17CTQ041)、黑龙江大学研究生创新科研项目“政企合作对公共数据利用的影响研究”(项目编号:YJSCX2022-161HLJU)、黑龙江省教育科学“十四五”规划 2022 年重点项目“高等院校大学生数据素养教育实践框架研究”(项目编号:GJB1422014)研究成果。管理与服务选取国内外一流高校图书馆的 RDM 服务进行调查,对 RDM 服务的支持要素、流程和主体等进行分析1;金贞燕等通过对比不同国外机构的 RDM服务构成要素和内容要素,构建 RDM 服务的内容体系2。本文尝试运用计算机领域的自然语言
9、处理方法提取 RDM 服务要素,并对聚类中主题和文本的分布情况进行统计分析,以厘清 RDM服务的构成要素以及要素的具体表现,从而为我国高校图书馆 RDM 服务提供方向上的参考。1 高校图书馆科研数据管理服务核心要素提取本文首先使用 Python 软件爬取美国高校图书馆 RDM 服务相关的网页文本,并利用相关模型和算法进行文本向量化,划分出文本的主题,形成主题聚类。然后通过对所得主题和聚类的进一步统计分析,调整主题聚类的划分维度,将高校 RDM 服务的核心要素更为清晰和准确地呈现出来。1.1 提取方法和过程1.1.1 样本选取美国的高校图书馆在 RDM 服务方面有丰富的实践成果,并且较多高校图书
10、馆网站开设了RDM 服务页面,所以本文以 THE2021 排名前 100位的 37 所美国高校的图书馆为调查对象,浏览这37 所高校的图书馆网站,选取其 RDM 页面为文本提取的对象,通过这些文本分析 RDM 服务的要素和内容构成。网页的选择标准如下:(1)页面设置在图书馆网站之下,可以从图书馆网站栏目点击到达;(2)是关于 RDM 服务的专门页面,页面标题通常为“Data Management Service”“Research Data Support”“Data Management”“Data Curation”“Re-search Data Service”或“Data Servic
11、e”;(3)当一个图书馆网站有多个 RDM 相关页面时,仅选取涵盖该图书馆 RDM 服务内容最广泛的一个。将这 37 所高校图书馆的 RDM 页面链接作为一级链接,RDM 页面所含的链接为二级链接,然后对这两级链接的正文部分进行爬取,时间截止到 2021 年 12 月 6 日。1.1.2 数据爬取和清洗本研究原始数据的获取通过使用 Python 编写爬虫软件完成:首先人工记录 37 所目标高校的图书馆主页地址,使用 BeautifulSoup 模块和 re 正则表达式模块提取高校图书馆主页的内部链接,并记录成 txt 文本文件。同样使用上述模块对 txt文件中的每个内部链接进行网页上文字内容的
12、爬取,将链接地址和对应网页中包含的文字内容清洗降噪除去无关内容后,记录成 csv 格式保存。其中,进行文本爬取的链接共 2715 条(除去重复链接)。网页文本的清洗过程为:保留含有数据、数据管理计划、存储库、元数据、数据出版等相关关键词的句子,剩余文本中去除含有图书借阅、音乐和艺术、问候语等相关关键词的句子,保留其他不含这些关键词的文本。最终得到 RDM 服务相关文本 6421 条,用于后续分析。1.1.3 文本向量化为了获取这 37 所美国高校在进行 RDM 服务时的共同关注点,需要将各高校图书馆相关页面中的文字信息进行主题抽取,而在进行主题抽取时,如果对每个句子都进行一次语义相似性比较会消
13、耗大量算力资源,以含有 n 个句子的集合为例,在其中寻找最为相近的一对需要进行 n(n-1)/2 次计算。而另一种更为简便也更为常用的方法则是将这些句子根据它所包含的语义信息映射到一个向量空间中,并依据向量的空间距离来判断它们之间的语义相似性,从而形成有效的主题聚类。为达成这一目标,首先需要将长度不定的语句文本映射到固定长度且密集的向量空间中。本文的文本向量化任务使用 SBERT(Sen-tence-BERT)模型完成。SBERT 模型是 BERT 预模型的一种孪生网络结构,将两两对应的句子分别经过 BERT 预训练模型、池化层转换为 768 维的句向量后,再计算两者的余弦相似度,并根据计算结
14、果进行 BERT 模型权重网络的微调,从而优化向量表示。732 0 2 3.3总第147期1.1.4 向量降维及聚类SBERT 模型计算得到的是 768 维的高维向量,直接对这些高维句向量进行聚类处理耗时较长、计算复杂度较高,因此,在聚类处理前需要使用 UMAP 进行降维处理。UMAP 是一种基于黎曼几何和代数拓扑理论框架构建的用于降维的流形学习技术,并通过随机梯度下降的方法完成低维向量优化。通过 UMAP 处理,原始文本的语义信息被映射到了低维的句向量空间中,基于这些句向量的空间分布情况进行聚类分析可以形成向量簇,每个向量簇中都包含着语义相近的句向量。因此,从这些向量簇中可以提取出语义相近向
15、量的共同主题信息:通过对向量簇对应的原始文本集进行 TF-IDF 权重计算,提取出前 10 个最能代表该文本集主题的高频主题词,结合人工联想词的方法分析得到各主题的语义含义。然后计算主题向量的余弦矩阵距离,最终形成主题聚类。经过初步实验分析发现,原始文本数量庞大导致分析得到的主题数量过多,从而出现了大量噪声主题和相似性主题。这种情况不仅浪费了计算资源和分析时间,还影响了结果的可靠性。因此,本研究在初步实验的基础上进行了超参数优化的补充实验。本研究设定了一个主题文本阈值,将主题中文本数量少于此阈值的次要主题合并到其他主题中,从而减少主题数量,并提高各主题的可解释性。然而,过高的阈值可能会导致主题
16、粒度过于粗略,无法准确捕捉文本细节。因此,本研究又通过交叉验证实验,最终将主题文本阈值设定为 30(文本数大于等于 30 条)。经过优化后得到了 47 个主题,进一步提高了聚类分析结果的准确度和模型表现效果。1.2 提取结果分析1.2.1 主题文本数量分析通过以上提取,6421 条文本被划分为了文本数分布于 31267 条的 47 个主题,并得到了每个主题的 10 个高频主题词。在本文使用模型中,被编号为-1 主题的文本是指那些无法被归入到任何一个主题的文本,通常这些文本比较少见或者它们的主题与其他文本主题差异较大,因此去掉编号为-1 的主题进行分析能够提高主题分析的准确性和效率,使分析结果更
17、加清晰和明确。去除编号为-1 的主题后,将编号为 045 的 46 个主题,共 3502 条文本纳入研究范围。编号越小的主题,包含的文本数量,即句子数量越多。表 1 列出了 46 个主题的文本数量、文本数量在总文本数量的占比、文本数量累计占比以及权重最高的前三个高频主题词。由表 1 可知,编号020 的主题的文本数量总和超过了总文本数量的 70%,通过这些主题词可知,地理信息系统(GIS)、数据存储、研讨会、数据管理计划、元数据、数据引用、数据存储库、资助机构政策、统计数据资源、图书馆员、数据出版、版权等在高校图书馆 RDM 服务中出现较多,是 RDM 服务的核心内容。文本数量较少的主题主要为
18、不同资源和工具的介绍,这些主题虽然各自的文本数量不多,但整体主题数量较多,有一定的规模,在 RDM 服务的过程中也发挥着重要作用。表表 1 1 主主题题文文本本数数量量及及占占比比主题编号文本数占比累计占比高频主题词02677.62%7.62%gis_geospatial_geographic(地理信息系统、地理空间的、地理的)11995.68%13.31%storage_backup_drive(存储、备份、驱动器)21935.51%18.82%workshop_visualization_workshops(研讨会、可视化)31865.31%24.13%dmp_dmptool_dmps(数
19、据计划、数据管理计划工具)41785.08%29.21%metadata_documentation_standards(元数据、文档、标准)51634.65%33.87%management_plan_will(管理、计划、将实现)61614.60%38.46%citation_citations_citing(引用)71203.43%41.89%orcid_id_register(开放研究者与贡献者身份识别码、身份识别码、注册)83管理与服务续表主题编号文本数占比累计占比高频主题词81143.26%45.15%caltech_caltechdata_github(加州理工学院、加州理工学院
20、科研数据存储库、GitHub 代码托管平台)91103.14%48.29%nih_policy_public(美国国立卫生研究院、政策、公共)101032.94%51.23%statistics_health_statistical(统计数据、健康、统计的)11972.77%54.00%edu_librarian_columbia(教育机构域名、图书馆员、哥伦比亚大学)12852.43%56.42%repositories_repository_registry(存储库、存储库注册表)13842.40%58.82%visiting_academics_reserve(访问、学术、预约)1473
21、2.08%60.91%open_scholarly_publishing(开放、学术的、出版)15661.88%62.79%preservation_your_term(保存、用户的、长期)16641.83%64.62%dataspace_curators_princeton(DataSpace 数据存储库、管理员、普林斯顿大学)17631.80%66.42%dryad_pilot_is(Dryad 数据存储库、试用、介绍)18581.66%68.08%privacy_records_libraries(隐私、记录、图书馆)19581.66%69.73%rdmsg_rds_research(科
22、研数据管理服务团队、科研数据管理、科研)20541.54%71.27%copyright_fair_use(版权、FAIR 原则、使用)21511.46%72.73%smartech_tech_georgia(SMARTech 数据存储库、乔治亚理工学院)22511.46%74.19%libraries_services_library(图书馆、服务)23501.43%75.61%not_or_any(不建议、或、任何)24461.31%76.93%license_licenses_attribution(许可、归属)25461.31%78.24%researchers_their_effor
23、ts(研究人员、研究人员的、努力)26461.31%79.55%api_limitations_register(应用程序编程接口、限制、注册)27451.28%80.84%mit_contact_us(麻省理工学院、联系图书馆服务人员)28431.23%82.07%workstations_lab_nyu(工作站、实验室、纽约大学)29421.20%83.27%notebook_labarchives_read(记录本、LabArchives 电子实验记录本软件、阅读更多内容)30411.17%84.44%appointment_complete_services(接受服务、完成、服务)31
24、401.14%85.58%icpsr_social_irb(政治与社会科学校际数据库联盟、社会的、伦理审查委员会)32401.14%86.72%jhu_archive_dataservices(约翰霍普金斯大学、归档、数据服务)33401.14%87.86%cornell_group_service(康奈尔大学、团队、服务)34401.14%89.01%updates_amp_status(状态更新)35401.14%90.15%updates_amp_status(状态更新)36391.11%91.26%workflow_hosted_add(工作流、托管、附加)37381.09%92.35
25、%sharing_share_data(共享、数据)38381.09%93.43%gis_labs_computer(地理信息系统、实验室、计算机)39371.06%94.49%infrastructure_develop_study(基础设施、开发、研究)40330.94%95.43%databases_books_journals(数据库、图书、杂志)41330.94%96.37%enables_computers_between(实现、计算机、之间)42320.91%97.29%research_watch_curation(研究、观看、管理)43320.91%98.20%object_
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高校 图书馆 科研 数据管理 服务 要素 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。