分销赏收藏举报申诉 / 13

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 高校图书馆科研数据管理服务要素研究.pdf

高校图书馆科研数据管理服务要素研究.pdf

上传人：自信****多点

文档编号：572910

上传时间：2024-01-02

格式：PDF

页数：13

大小：2.75MB

《高校图书馆科研数据管理服务要素研究.pdf》由会员分享，可在线阅读，更多相关《高校图书馆科研数据管理服务要素研究.pdf（13页珍藏版）》请在咨信网上搜索。

1、2 0 2 3.3总第147期DOI:10.13666/ki.jnlc.2023.0304高校图书馆科研数据管理服务要素研究陈媛媛林安洁陈志鹏摘要厘清高校图书馆科研数据管理服务要素,并分析其具体内容,能够为高校图书馆科研数据管理服务提供参考。本文采用文本分析法和统计分析法,利用 Python 软件提取美国 37 所高校图书馆的科研数据管理服务页面文本,并对文本进行主题分析和聚类分析,进而对高校图书馆科研数据管理服务的要素进行划分和解读,构建高校图书馆科研数据管理服务的要素词典。结合科研项目生命周期和数据生命周期,最终将高校图书馆科研数据管理服务的要素划分为 2 个流程要素、6 个内容要

2、素、4 个支持要素和 3 种形式要素,并结合实际情况对各要素进行了分析。图 2。表 2。参考文献 27。关键词高校图书馆科研数据管理服务要素美国Research on Elements of Research Data Management Service Provided by University LibrariesChen Yuanyuan Lin Anjie Chen ZhipengAbstract Clarifying the service elements of research data management in university libraries and an

3、alyzing the specific content of service elements can provide references for the future research data management services of university libraries.This paper uses the methods of text analysis and statistical analysis.The Python software is used to obtain the page text of the research data management s

4、ervice of 37 university libraries of the United States and the theme analysis and cluster analysis of the text are carried out so as to divide and interpret the el-ements of the research data management service of university library and build the element dictionary of the re-search data management s

5、ervice of university library.Combining the life cycle of research project and scientific data this paper finally divides the elements of research data management service of university libraries into two process elements six content elements four support elements and three form elements and analyzes

6、each ele-ment according to actual situation.2 figs.2 tabs.27 refs.Keywords University Library Research Data Management Service Elements United States 数据密集型科研环境下,研究人员在科研活动中产生大量数据,如何对这些数据进行选择、分析、存储、共享和再利用,是防止科研数据流失、实现科研数据增值和推动科学研究发展的关键。高校作为科研的主力军,更需要加强科研数据管理(Research Data Management,RDM),通过图书馆等部门开展 RD

7、M 服务来帮助科研人员对科研数据进行管理。但是,我国高校 RDM 服务仍在初步探索阶段,在 147 所“双一流”高校中,仅有北京大学、武汉大学、复旦大学、湖南大学、对外经济贸易大学和上海外国语大学等高校图书馆网站有 RDM 服务相关栏目,并且其中仅北京大学、武汉大学和复旦大学等 3 所高校图书馆的 RDM服务实践比较丰富。大部分国内高校图书馆仍只是提供数据资源导航、案例介绍和机构仓储库等基础服务,并且服务提供较为分散,不足以在科研数据全生命周期对用户的 RDM 进行全面和深入的指导。而国外高校图书馆在与政府、行业组织和机构的通力合作下,已经形成了丰富的 RDM服务实践成果,可以为国内服务提供参

8、考。秦顺63本文系国家社科基金项目“高校图书馆科研数据服务模式与服务系统研究”(项目编号:17CTQ041)、黑龙江大学研究生创新科研项目“政企合作对公共数据利用的影响研究”(项目编号:YJSCX2022-161HLJU)、黑龙江省教育科学“十四五”规划 2022 年重点项目“高等院校大学生数据素养教育实践框架研究”(项目编号:GJB1422014)研究成果。管理与服务选取国内外一流高校图书馆的 RDM 服务进行调查,对 RDM 服务的支持要素、流程和主体等进行分析1;金贞燕等通过对比不同国外机构的 RDM服务构成要素和内容要素,构建 RDM 服务的内容体系2。本文尝试运用计算机领域的自然语言

9、处理方法提取 RDM 服务要素,并对聚类中主题和文本的分布情况进行统计分析,以厘清 RDM服务的构成要素以及要素的具体表现,从而为我国高校图书馆 RDM 服务提供方向上的参考。1 高校图书馆科研数据管理服务核心要素提取本文首先使用 Python 软件爬取美国高校图书馆 RDM 服务相关的网页文本,并利用相关模型和算法进行文本向量化,划分出文本的主题,形成主题聚类。然后通过对所得主题和聚类的进一步统计分析,调整主题聚类的划分维度,将高校 RDM 服务的核心要素更为清晰和准确地呈现出来。1.1 提取方法和过程1.1.1 样本选取美国的高校图书馆在 RDM 服务方面有丰富的实践成果,并且较多高校图书

10、馆网站开设了RDM 服务页面,所以本文以 THE2021 排名前 100位的 37 所美国高校的图书馆为调查对象,浏览这37 所高校的图书馆网站,选取其 RDM 页面为文本提取的对象,通过这些文本分析 RDM 服务的要素和内容构成。网页的选择标准如下:(1)页面设置在图书馆网站之下,可以从图书馆网站栏目点击到达;(2)是关于 RDM 服务的专门页面,页面标题通常为“Data Management Service”“Research Data Support”“Data Management”“Data Curation”“Re-search Data Service”或“Data Servic

11、e”;(3)当一个图书馆网站有多个 RDM 相关页面时,仅选取涵盖该图书馆 RDM 服务内容最广泛的一个。将这 37 所高校图书馆的 RDM 页面链接作为一级链接,RDM 页面所含的链接为二级链接,然后对这两级链接的正文部分进行爬取,时间截止到 2021 年 12 月 6 日。1.1.2 数据爬取和清洗本研究原始数据的获取通过使用 Python 编写爬虫软件完成:首先人工记录 37 所目标高校的图书馆主页地址,使用 BeautifulSoup 模块和 re 正则表达式模块提取高校图书馆主页的内部链接,并记录成 txt 文本文件。同样使用上述模块对 txt文件中的每个内部链接进行网页上文字内容的

12、爬取,将链接地址和对应网页中包含的文字内容清洗降噪除去无关内容后,记录成 csv 格式保存。其中,进行文本爬取的链接共 2715 条(除去重复链接)。网页文本的清洗过程为:保留含有数据、数据管理计划、存储库、元数据、数据出版等相关关键词的句子,剩余文本中去除含有图书借阅、音乐和艺术、问候语等相关关键词的句子,保留其他不含这些关键词的文本。最终得到 RDM 服务相关文本 6421 条,用于后续分析。1.1.3 文本向量化为了获取这 37 所美国高校在进行 RDM 服务时的共同关注点,需要将各高校图书馆相关页面中的文字信息进行主题抽取,而在进行主题抽取时,如果对每个句子都进行一次语义相似性比较会消

13、耗大量算力资源,以含有 n 个句子的集合为例,在其中寻找最为相近的一对需要进行 n(n-1)/2 次计算。而另一种更为简便也更为常用的方法则是将这些句子根据它所包含的语义信息映射到一个向量空间中,并依据向量的空间距离来判断它们之间的语义相似性,从而形成有效的主题聚类。为达成这一目标,首先需要将长度不定的语句文本映射到固定长度且密集的向量空间中。本文的文本向量化任务使用 SBERT(Sen-tence-BERT)模型完成。SBERT 模型是 BERT 预模型的一种孪生网络结构,将两两对应的句子分别经过 BERT 预训练模型、池化层转换为 768 维的句向量后,再计算两者的余弦相似度,并根据计算结

14、果进行 BERT 模型权重网络的微调,从而优化向量表示。732 0 2 3.3总第147期1.1.4 向量降维及聚类SBERT 模型计算得到的是 768 维的高维向量,直接对这些高维句向量进行聚类处理耗时较长、计算复杂度较高,因此,在聚类处理前需要使用 UMAP 进行降维处理。UMAP 是一种基于黎曼几何和代数拓扑理论框架构建的用于降维的流形学习技术,并通过随机梯度下降的方法完成低维向量优化。通过 UMAP 处理,原始文本的语义信息被映射到了低维的句向量空间中,基于这些句向量的空间分布情况进行聚类分析可以形成向量簇,每个向量簇中都包含着语义相近的句向量。因此,从这些向量簇中可以提取出语义相近向

15、量的共同主题信息:通过对向量簇对应的原始文本集进行 TF-IDF 权重计算,提取出前 10 个最能代表该文本集主题的高频主题词,结合人工联想词的方法分析得到各主题的语义含义。然后计算主题向量的余弦矩阵距离,最终形成主题聚类。经过初步实验分析发现,原始文本数量庞大导致分析得到的主题数量过多,从而出现了大量噪声主题和相似性主题。这种情况不仅浪费了计算资源和分析时间,还影响了结果的可靠性。因此,本研究在初步实验的基础上进行了超参数优化的补充实验。本研究设定了一个主题文本阈值,将主题中文本数量少于此阈值的次要主题合并到其他主题中,从而减少主题数量,并提高各主题的可解释性。然而,过高的阈值可能会导致主题

16、粒度过于粗略,无法准确捕捉文本细节。因此,本研究又通过交叉验证实验,最终将主题文本阈值设定为 30(文本数大于等于 30 条)。经过优化后得到了 47 个主题,进一步提高了聚类分析结果的准确度和模型表现效果。1.2 提取结果分析1.2.1 主题文本数量分析通过以上提取,6421 条文本被划分为了文本数分布于 31267 条的 47 个主题,并得到了每个主题的 10 个高频主题词。在本文使用模型中,被编号为-1 主题的文本是指那些无法被归入到任何一个主题的文本,通常这些文本比较少见或者它们的主题与其他文本主题差异较大,因此去掉编号为-1 的主题进行分析能够提高主题分析的准确性和效率,使分析结果更

17、加清晰和明确。去除编号为-1 的主题后,将编号为 045 的 46 个主题,共 3502 条文本纳入研究范围。编号越小的主题,包含的文本数量,即句子数量越多。表 1 列出了 46 个主题的文本数量、文本数量在总文本数量的占比、文本数量累计占比以及权重最高的前三个高频主题词。由表 1 可知,编号020 的主题的文本数量总和超过了总文本数量的 70%,通过这些主题词可知,地理信息系统(GIS)、数据存储、研讨会、数据管理计划、元数据、数据引用、数据存储库、资助机构政策、统计数据资源、图书馆员、数据出版、版权等在高校图书馆 RDM 服务中出现较多,是 RDM 服务的核心内容。文本数量较少的主题主要为

18、不同资源和工具的介绍,这些主题虽然各自的文本数量不多,但整体主题数量较多,有一定的规模,在 RDM 服务的过程中也发挥着重要作用。表表 1 1 主主题题文文本本数数量量及及占占比比主题编号文本数占比累计占比高频主题词02677.62%7.62%gis_geospatial_geographic(地理信息系统、地理空间的、地理的)11995.68%13.31%storage_backup_drive(存储、备份、驱动器)21935.51%18.82%workshop_visualization_workshops(研讨会、可视化)31865.31%24.13%dmp_dmptool_dmps(数

19、据计划、数据管理计划工具)41785.08%29.21%metadata_documentation_standards(元数据、文档、标准)51634.65%33.87%management_plan_will(管理、计划、将实现)61614.60%38.46%citation_citations_citing(引用)71203.43%41.89%orcid_id_register(开放研究者与贡献者身份识别码、身份识别码、注册)83管理与服务续表主题编号文本数占比累计占比高频主题词81143.26%45.15%caltech_caltechdata_github(加州理工学院、加州理工学院

20、科研数据存储库、GitHub 代码托管平台)91103.14%48.29%nih_policy_public(美国国立卫生研究院、政策、公共)101032.94%51.23%statistics_health_statistical(统计数据、健康、统计的)11972.77%54.00%edu_librarian_columbia(教育机构域名、图书馆员、哥伦比亚大学)12852.43%56.42%repositories_repository_registry(存储库、存储库注册表)13842.40%58.82%visiting_academics_reserve(访问、学术、预约)1473

21、2.08%60.91%open_scholarly_publishing(开放、学术的、出版)15661.88%62.79%preservation_your_term(保存、用户的、长期)16641.83%64.62%dataspace_curators_princeton(DataSpace 数据存储库、管理员、普林斯顿大学)17631.80%66.42%dryad_pilot_is(Dryad 数据存储库、试用、介绍)18581.66%68.08%privacy_records_libraries(隐私、记录、图书馆)19581.66%69.73%rdmsg_rds_research(科

22、研数据管理服务团队、科研数据管理、科研)20541.54%71.27%copyright_fair_use(版权、FAIR 原则、使用)21511.46%72.73%smartech_tech_georgia(SMARTech 数据存储库、乔治亚理工学院)22511.46%74.19%libraries_services_library(图书馆、服务)23501.43%75.61%not_or_any(不建议、或、任何)24461.31%76.93%license_licenses_attribution(许可、归属)25461.31%78.24%researchers_their_effor

23、ts(研究人员、研究人员的、努力)26461.31%79.55%api_limitations_register(应用程序编程接口、限制、注册)27451.28%80.84%mit_contact_us(麻省理工学院、联系图书馆服务人员)28431.23%82.07%workstations_lab_nyu(工作站、实验室、纽约大学)29421.20%83.27%notebook_labarchives_read(记录本、LabArchives 电子实验记录本软件、阅读更多内容)30411.17%84.44%appointment_complete_services(接受服务、完成、服务)31

24、401.14%85.58%icpsr_social_irb(政治与社会科学校际数据库联盟、社会的、伦理审查委员会)32401.14%86.72%jhu_archive_dataservices(约翰霍普金斯大学、归档、数据服务)33401.14%87.86%cornell_group_service(康奈尔大学、团队、服务)34401.14%89.01%updates_amp_status(状态更新)35401.14%90.15%updates_amp_status(状态更新)36391.11%91.26%workflow_hosted_add(工作流、托管、附加)37381.09%92.35

25、%sharing_share_data(共享、数据)38381.09%93.43%gis_labs_computer(地理信息系统、实验室、计算机)39371.06%94.49%infrastructure_develop_study(基础设施、开发、研究)40330.94%95.43%databases_books_journals(数据库、图书、杂志)41330.94%96.37%enables_computers_between(实现、计算机、之间)42320.91%97.29%research_watch_curation(研究、观看、管理)43320.91%98.20%object_

26、persistent_doi(对象、永久的、数字对象标识符)44320.91%99.11%bioinformatics_collaborations_customized(生物信息学、合作、定制的)45310.89%100.00%drum_university_repository(杜伦大学、大学、存储库)总计数3502100.00%932 0 2 3.3总第147期图图 1 1 主主题题聚聚类类1.2.2 聚类分析图 1 为 46 个主题的聚类结果,结合主题文本内容,将 46 个主题划分为 12 个聚类。聚类 1 主要关于图书馆信息更新、高校 RDM 服务团队、服务预约和图书馆服务人员;聚类

27、 2 主要关于期刊、数据库和常用数据集;聚类 3 主要关于图书馆资源和工具、工作站和实验室,以及电子实验记录本;聚类 4 主要关于隐私保护和数据使用权限;聚类 5 主要关于版权、使用许可和开放获取出版;聚类 6 主要关于数据存储相关工具和设施,以及用户协作相关设备和平台;聚类 7 主要关于资助机构和出版商政策;聚类 8 主要关于数据管理计划;聚类 9 主要关于数据存储和共享;聚类 10 主要关于元数据和数据引用格式;聚类 11 主要关于RDM 相关支持、咨询、反馈、研讨会和课程;聚类12 主要关于地理信息系统和数据分析技术。04管理与服务根据 12 个聚类的内容特点,将聚类 3 和聚类6 整合

28、为同一维度,再结合主题内容,将主题 44的所属分类维度进行调整,最后从以下 11 个维度对主题分类进行展示:(1)文献和数据资源;(2)数据管理计划;(3)数据隐私和安全;(4)数据组织和元数据;(5)数据分析和可视化;(6)数据存储和共享;(7)数据出版和重用;(8)基础设施和工具;(9)咨询、课程和研讨会;(10)服务人员和组织;(11)资助机构和出版商政策。11 个主题维度的具体主题构成和文本数量结构见表 2。根据主题数大小,将表 2 中的主题维度划分为三大类进行分析:第一类:主题数为 17 的维度。维度 8“基础设施和工具”的主题数和文本数最多,这在一定程度上反映了这一维度是 RDM

29、服务的重中之重。基础设施和工具是 RDM 开展的重要基础,在 RDM 的各阶段为用户提供支持。维度 8 中关于数据存储、共享和开放获取的工具和设施尤为丰富,体现了数据存储工具在 RDM 中的重要性。第二类:主题数为 38 的维度。维度 6“数据存储和共享”主要是关于数据存储库的选择和数据存储的操作,虽然其文本占比并不高,但维度 8“基础设施和工具”中有大量关于数据存储库的内容,而数据存储和共享正是数据存储库的主要功能,故结合维度 8 来看其重要性不容忽视。维度 7“数据出版和重用”的主题数较多,涉及版权、数据使用原则、数据使用许可和开放获取等内容,主题较为丰富。数据出版和重用在科研项目的前期和

30、后期发挥着不同的作用,是实现数据生命周期循环的关键。维度 9“咨询、课程和研讨会”以及维度 10“服务人员和组织”的主题数和文本数都较多,说明这两个维度的内容和形式较为丰富。咨询、课程和研讨会是重要的服务形式,往往贯穿 RDM 服务全过程。服务人员和组织是RDM 服务的最终实施者,较多高校设置了专门人员和团队开展 RDM 服务,不同的服务也可能会需要不同的服务人员和组织的参与和合作。第三类:主题数为 1 和 2 的维度。维度 1“文献和数据资源”、维度 3“数据隐私和安全”的主题数和文本数都比较少,其原因可能是图书馆网页往往以较为简明的导航和介绍引导用户快速获取文献和数据资源,并以较为简短的语

31、句介绍资源和数据使用的隐私政策。另外,由于数据隐私和安全是数据存储库等服务关注的重点,部分关于数据隐私和安全的内容可能被归入了其他维度,使得维度 3 文本数较少。维度 2“数据管理计划”、维度 4“数据组织和元数据”的主题数相对较少,但文本数却比较多,说明这两个维度的内容在主题上较为集中。这可能是由于这两个维度相关内容受到的关注较多,并且已经形成了一定的核心规范,表表 2 2 主主题题维维度度划划分分序号主题维度包含主题内容描述主题数文本数占比1文献和数据资源40期刊、图书、数据库10常用数据和统计来源(人口数据资源、健康数据资源等)21363.88%2数据管理计划3DMP、DMPTool

32、介绍5数据管理计划要求23499.97%3数据隐私和安全18隐私保护、保密政策;图书馆个人信息保护措施23数据使用和访问权限21083.08%4数据组织和元数据4元数据、自述文件6数据引用格式;引文管理23399.68%5数据分析和可视化0数据分析技术、GIS 软件;地理空间数据协调员(提供GIS 和地理空间数据分析方面的帮助);数据实验室;地理空间数据管理计划;GIS 相关研讨会12677.62%142 0 2 3.3总第147期续表序号主题维度包含主题内容描述主题数文本数占比6数据存储和共享37数据共享和归档15数据长期保存、数据迁移、数据传输12数据存储库提供;数据存储库注册表3189

33、5.40%7数据出版和重用24知识共享(cc)许可20版权法;合理使用、数据引用、FAIR 原则;使用许可;数据出版21、45开放获取政策;开放获取存储库14开放获取出版52557.28%8基础设施和工具13存储库、工具、政策等检索28工作站、实验室机器29电子实验室记录本(软件、培训课程、研讨会、试点项目)38地理信息系统(软件、实验室、研讨会)26API;访问限制7ORCID 注册1存储和备份驱动器、存储空间8数据存储和 DOI 服务;GitHub 存储库16DataSpace 在线存储库43数字对象永久且唯一标识符(DOI)32、31、17约翰霍普金斯大学数据存档(JHU Data Ar

34、chive);ICPSR 数据库;Dryad 科研数据管理和发布平台36开放科学框架(OSF)(一种在线协作工具和工作流平台)41计算机间文件共享和存储27、39服务咨询和软件基础设施17107930.81%9咨询、课程和研讨会25面向研究人员的数据存储与共享支持22RDM 服务咨询、反馈2研讨会、课程;数据可视化技术介绍32908.28%10服务人员和组织44康奈尔生物技术研究所提供的研究支持(生物信息学分析、长期研究合作和数据库开发)34、35图书馆服务(图书馆信息更新、图书馆政策、图书馆指南等)33、19康奈尔大学科研数据管理服务团队(RDMG);普林斯顿科研数据服务(PRDS)42科研

35、数据管理原则、政策、指南、互动30服务预约、请求、反馈11图书馆服务人员(学科馆员、数据馆员、数字存储库经理、元数据馆员、数据分析师等)838010.85%11资助机构和出版商政策9美国国立卫生研究院(NIH)、美国国家科学基金会(NSF)数据管理和共享政策;OSTP 备忘录;期刊政策(PLOS 期刊等)11103.14%24管理与服务如 DMP 的模板和元数据的标准。维度 5“数据分析和可视化”、维度 11“资助机构和出版商政策”都仅有一个主题,且主题的文本数较多,说明其内容多,且在主题上较为集中。数据分析和可视化的大量内容围绕 GIS 软件及相关服务展开。资助机构和出版商政策是各高校 RD

36、M 服务的重要依据,受到了大量关注。这 11 个主题维度反映了高校 RDM 服务的重点关注内容,是服务的核心要素,下文将在这 11个核心要素的基础上进行补充和进一步划分,以形成更为清晰和完整的要素词典。2 高校图书馆科研数据管理服务要素词典构建下文基于美国高校图书馆网站 RDM 服务页面文本的主题分析和聚类分析结果,搭建高校图书馆 RDM 服务的要素框架,并对各要素进行注解,以形成可供高校图书馆 RDM 服务参考的要素词典。图图 2 2 高高校校图图书书馆馆科科研研数数据据管管理理服服务务要要素素框框架架2.1 要素框架参考前人的要素划分,在 11 个主题维度即核心要素的基础上,补充科研项目生

37、命周期、数据生命周期以及服务形式的相关要素,以更好地呈现要素间的关系,最终得到15 个高校图书馆 RDM 服务要素。本文将这15 个要素划分为流程要素、内容要素、支持要素和形式要素四大方面,其中流程要素是用户 RDM 活动和图书馆 RDM 服务发生的阶段,包括科研项目周期和数据生命周期两种阶段划分方式,科研项目周期分为项目的前、中、后期,数据生命周期分为计划、数据收集、数据处理、数据分析、数据存储、数据共享、数据重用 7 个阶段;内容要素是RDM 服务内容的主题,包括数据管理计划、数据隐私和安全、数据组织和元数据、数据分析和可视化、数据存储和共享、数据出版和重用 6 个要素;支持要素是服务内容

38、实现所需的支持,包括文献和数据资源、服务人员和组织、资助机构和出版商政策以及基础设施和工具 4 个要素;形式要素是服务内容提供的方式,包括线上和线下,定制和普适,咨询、课程和研讨会 3 种服务形式划分维度。具体见图 2。342 0 2 3.3总第147期2.2 要素注解2.2.1 流程要素注解(1)科研项目生命周期科研项目生命周期(Research Project Lifecy-cle)是科研项目从计划到结项经历的所有阶段以及相应的管理过程。在大多数情况下,新的研究项目基于从先前项目结果中开发的假设或问题开始其生命周期。科研项目生命周期有前、中、后期三个阶段,前期主要包括项目资金来源选择、项目

39、计划或申报以及项目相关事项调研和准备三方面管理活动,中期主要包括项目实施和监管两方面管理活动,后期主要包括项目成果验收、存储和推广三方面管理活动3。(2)数据生命周期数据生命周期(Data Lifecycle)是从数据第一次被获取或生产开始经历的所有阶段。本要素框架还在数据生命周期 6 个阶段的基础上考虑了获取或生产数据之前的规划阶段,将数据生命周期划分为了计划、数据收集、数据处理、数据分析、数据存储、数据共享以及数据重用等 7 个阶段。其中,数据收集阶段的管理活动可分为两种类型,一是自己通过实验、调查和观察等方式生产和获取一手数据,二是从网站、数据存储库等来源获取可以用于或辅助自身研究的二手

40、数据。数据处理阶段涉及对收集的原始数据进行处理的各种活动,包括数据清理和数据格式转换等活动,数据清理又称数据修改或数据整理,指将数据集进行清理并使其转化为更易于访问和使用的形式,数据格式转换指将数据格式转换为可以更有效地存储或更易于查看或分析的格式。2.2.2 内容要素注解(1)数据管理计划数据管理计划(Data Management Plan,DMP)是一份常与资助申请一起提交的简短书面文件,概述了研究人员在研究项目开展过程中期望获取或生成的数据,他们将如何管理、描述、分析和存储这些数据,以及在项目结束后他们将如何共享和保存他们的数据。(2)数据隐私和安全这里的数据隐私(Data Priva

41、cy)指用户的“个人数据(个人信息)”及其保护。欧盟通用数据保护条例(GDPR)对“个人数据”的定义是“与已识别或可识别的自然人(数据主体)相关的任何信息。可识别的自然人指可以直接或间接识别的人,特别是通过一个标识符如姓名、身份证号、位置数据、在线标识符等,或一个或多个该自然人的相关因素,如物理特征、生理特征、遗传特征、心理特征、经济特征、文化特征或社会特征等识别”4。我国个人信息保护法对“个人信息”的定义是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息5。数据安全(Data Security)是指保护数据免受未经授权的访问、使用、变更、披露和破坏。

42、保护数据隐私和安全的主要措施有数据风险级别评估、数据去标识化和数据匿名化。数据隐私和安全常在数据共享阶段讨论,如许多数据平台在共享数据前会要求对数据进行去标识化;数据共享指南往往包含数据隐私和安全相关的操作规范。数据隐私和安全还常在人类受试者参与时被强调,许多政策和规范要求对人类受试者的个人信息去标识化,以保护研究参与者的隐私。(3)数据组织和元数据数据组织(Data Organization)是对数据进行分类和分级以使其更可用的实践6,元数据是数据组织的重要工具。元数据是结构化信息,用于描述、解释、定位信息资源,或者以其他方式使检索、使用或管理信息资源变得更容易。元数据有3 种类型,一是结构

43、性元数据,表示复合对象是如何组合在一起的,如页面如何排序形成章节;二是描述性元数据,描述要发现和识别的资源的内容,可以包括标题、摘要、作者和关键词等元素;三是管理性元数据,提供帮助管理资源的信息,如资源何时和如何被创建,它的文件类型是什么,以及谁可以访问它7。不同的研究团体已经制定了元数据标准,以帮助他们的团体成员以相同的方式描述他们的数据,并确保至少关于样本以及样本分析和结果的必要描述性信息能够被收集,以将44管理与服务这些信息用于报告。常见的元数据标准有都柏林核心(Dublin Core)和数据文档倡议(Data Docu-mentation Initiative,DDI)等。数字对象标识

44、符(DOI)是分配给在线(期刊)文章、书籍和其他作品的唯一且永不更改的字符串,使检索作品变得更容易,常存在于元数据中8。自述文件(Re-adme File)是通常位于数据集根目录的文本文件,提供有关数据文件的信息,旨在确保研究人员在共享或发布数据时能够正确解释数据。康奈尔大学在“编写自述式元数据指南”中指出,在没有适当元数据标准的情况下,对于内部使用,编写“自述文件”样式的元数据是一种适当的策略9。为了研究人员能更好地选择和使用元数据标准,不同的组织和机构向研究人员提供了关于元数据标准的工具,如 FAIRsharing 门户网站提供了数据标准的检索工具,数字监管中心(Digital Cura-

45、tion Centre,DCC)编制了元数据标准清单。美国许多高校为用户提供了元数据制订服务,并在网站提供这些工具的链接供用户选择和使用。(4)数据分析和可视化数据分析(Data Analysis)是系统地应用统计技术和逻辑技术来描述、说明、概括以及评估数据的过程10。不同学科对数据分析工具的需求程度和需求类型存在不同,高校提供了针对特定学科的数据分析服务,如康奈尔大学提供了定制的生物信息学分析和为生物学家配置的云计算资源11。数据可视化(Data Visualization)指通过图表、图形、地图和其他可视化格式对数据进行描绘,以帮助识别数据中的趋势和关系12。GIS是一个创建、管理、分析和

46、映射所有类型数据的系统13,是重要的地理空间数据(Geospatial Da-ta)管理和分析工具,也是美国高校 RDM 服务的一项重要数据分析和可视化工具。(5)数据存储和共享数据存储(Data Storage)指在存储介质中存储数据14,大部分国外高校都有数据存储库服务。数据存储库是保存数据、使数据可供使用并以逻辑方式组织数据的地方,也为数据共享提供了平台。数据存储库实践涉及数据上传,数据备份和归档,数据删除、撤回和更改,数据迁移,以及数据访问和共享。数据上传指将数据从用户的计算机或原先的存储介质传输到数据存储库。数据备份是将数据从主要位置复制到次要位置,以在发生灾难、事故或恶意行为时保护

47、数据15,云存储是数据备份的一种常用方式。数据归档是将不再主动使用的数据移动到单独的存储设备以进行长期保留16。前者主要是为了保障数据及时的使用,后者主要是为了实现数据长期的保存。数据删除、撤回和更改分别指将数据从存储库中彻底删除、将数据撤出公众视野和对数据进行修改的相关操作。数据迁移指将数据转移到新的格式或新的系统。在数据更改和迁移中,需要注意数据旧版本的保留和备份,必要时还需要建立数据新旧版本间的链接,以便于数据的恢复和其他人了解数据的更新情况。数据访问是用户访问或检索数据的实践,是用户对数据进行获取、删除和修改等操作的前提。数据共享(Data Sharing)是用户将用于学术研究的数据提

48、供给其他研究人员的实践17。另外,数据存储库还要在各相关实践环节考虑数据隐私和安全问题,采取相应的措施对数据进行保护。高校的数据存储库一般提供给本校的学生和教职员工使用,用户可以通过学校账号或 ORCID 等方式登录数据存储库。一些组织和机构还提供了针对不同学科的存储库,以应对不同学科的科研数据存储、组织和管理需求。(6)数据出版和重用数据出版(Data Publishing)是指通过一定的公共机制发布科研数据集(数据的集合),以使公众根据一定规则可以发现、获取、评价和应用这些数据集。相比数据共享,数据出版更强调作者影响力的扩大和数据质量的控制。数据出版主要有独立出版和集成出版两种模式,独立出

49、版指数据以独立学术成果的形式出版,主要包括通过数据存储库直接出版和以数据论文形式出版;集成出版指数据与学术论文集成出版,主要包括两类,一是学术论文出版时正文或附件中含有支撑该论文核心论点的原始数据,二是学术论文引用作者提交至存储库的支撑该论文核心论点的数据后542 0 2 3.3总第147期出版18。数据出版也是开放获取运动的组成部分,开放获取是一种学术信息共享的开放理念和出版机制,也是推动学术成果在互联网上自由地出版、交流与传播、利用等而采取的一系列行动19。数据重用(Data Reuse)指将个人或机构收集的现有定量或定性科研数据用于新的研究活动或目的20。共享和

50、出版数据的一个重要目的就是使数据可被发现和获取,从而促进数据的重用。数据重用主要有两种类型,一是利用数据对原始研究的结果进行验证,二是对数据进行进一步了解和分析,以产生新的见解。数据提供方需要对自己的数据进行授权,让其他人知道如何使用数据,在保护自身知识产权的同时,促进数据在更大范围的使用。数据使用方需要得到授权,并对数据进行规范的引用,避免侵权行为的发生。在数据出版和共享中,研究人员常使用知识共享许可协议(Creative Commons License,又称 CC协议)来详细说明数据使用条款,授予其他人共享、使用和处理其作品的权利,并明确数据引用的规范,以减少数据重用的法律和技术障碍。FA

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 高校图书馆科研数据管理服务要素研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。