![点击分享此内容可以赚币 分享](/master/images/share_but.png)
科学软件共享的FAIR原则——背景、内容与实践_翟军.pdf
《科学软件共享的FAIR原则——背景、内容与实践_翟军.pdf》由会员分享,可在线阅读,更多相关《科学软件共享的FAIR原则——背景、内容与实践_翟军.pdf(9页珍藏版)》请在咨信网上搜索。
1、情报资料工作 2023年3月第44卷第2期“开放科学”引领着科学研究范式的变革,也是加速实施联合国 2030年可持续发展议程 和达成可持续发展目标的重要驱动力量。在大数据与人工智能日益融合的“数智”时代,开放科学的重点正从开放科学数据的“独角戏”逐步转变为数据与软件等新型研究对象的“联袂”开放共享。2021年11月,联合国教科文组织(UNESCO)召开第41届大会,193个国家共同通过第一个关于开放科学的国际框架 UNESCO开放科学建议书(下文简称 建议书),标志着开放科学迈入全球共识的新阶段1。建议书 将“开源软件和源代码”同“研科学软件共享的FAIR原则*背景、内容与实践翟军程义婷王统左
2、李剑锋沈立新(大连海事大学航运经济与管理学院辽宁116026)摘要:目的/意义联合国教科文组织 开放科学建议书 将“FAIR原则”确立为值得推广的基本原则,该原则的适用范围已从“数据”扩展到“软件”,对于开放科学的可持续发展具有重要的推动作用。方法/过程文章采用文献分析和网络调查方法,梳理“FAIR软件原则”的产生背景和开发历程,介绍其主要内容和实践进展情况。结果/结论科学软件的重要性和独特性催生了“FAIR软件原则”,已落实到政策制定、基础设施建设和人员培训等领域,能够保障数据与软件的“携手”开放共享,促进开放科学的全面、均衡、协同和深入发展。关键词:开放科学科学软件科学数据FAIR原则开放
3、共享FAIR Principles of Scientific Software Sharing:Background,Content and PracticeZhai JunCheng YitingWang TongzuoLi JianfengShen Lixin(School of Maritime Economics and Management of Dalian Maritime University,Liaoning,116026)Abstract:Purpose/significance The FAIR principle is established as a basic p
4、rinciple worthy of promotion in theUNESCO Recommendation on Open Science.The scope of application of this principle has been extended from data tosoftware,which plays an important role in promoting the sustainable development of open science.Method/processUsing the methods of literature analysis and
5、 Web investigation,this paper combs the background and development process of FAIR principles for Research Software(FAIR4RS principles),and introduces their main content and practicalprogress.Result/conclusion The importance and uniqueness of scientific software gave birth to the FAIR4RS principles,
6、which have been implemented in the fields of policy,infrastructure and training.As a result,the FAIR4RS principles can ensure the hand in hand open sharing of data and software and promote the comprehensive,balanced,coordinated and in-depth development of open science.Keywords:open sciencescientific
7、 softwarescientific dataFAIR principlesopen and sharingDOI:10.12154/j.qbzlgz.2023.02.010*本文系教育部人文社会科学研究规划基金项目“集装箱多式联运电子 一单制 的智能合约设计方法及应用研究”(项目编号:21YJAZH070)的研究成果之一。实践研究93情报资料工作 2023年3月第44卷第2期究数据”并列,与传统的科学出版物一起成为开放共享大家庭的“一等公民”。与此相呼应,法国高等教育、研究与创新部制定的第二个 国家开放科学计划(20212024)确立的四大支柱分别是:开放获取、开放研究数据、开放研究源代码
8、和使开放科学成为科研转型的默认原则2。“欧盟开放科学云”(EOSC)基础设施建设也将出版物、数据和软件等并列为开放共享的头等对象3。建议书 向各国推荐FAIR原则,即可发现(Findable)、可获取(Accessible)、互操作(Interoperable)和可重用(Reusable),彰显了开放科学的全球化和FAIR化发展趋势。科学数据的FAIR原则(下文简称“FAIR原则”或“FAIR数据原则”)于2016年3月被正式提出4,迅速融入“数据生态系统”的各个层面,对各国的科学数据政策和开放科学实践产生了深刻影响。仅在欧盟,由于使用了FAIR数据,每年可节约成本约102亿欧元5。2020年
9、11月至2021年11月期间,正值FAIR原则提出五周年之际,Springer Nature等组织专家会议和研究社区调查,显示越来越多的研究机构和科研人员开始熟悉和支持FAIR原则,66%的受访者表示知晓这一原则,而2018年的这一数字仅为40%6。FAIR原则在诞生之初就考虑到了一般性和扩展性,对其的修订、完善和扩展持续不断7。其中,在FAIR原则从“数据对象”推广到更广泛的“数字对象”过程中,第一个得到惠顾的是“科学软件”(Scientific Software)。2022年3月15日,在研究数据联盟(Research Data Alliance,RDA)、研究软件联盟(Research
10、Software Alliance,ReSA)和FORCE11(Future Of Research Communications and E-Scholarship)社区的共同努力下,最终形成了“研究软件的FAIR原则”(FAIR Principles for Research Software,FAIR4RS Principles,下文简称“FAIR软件原则”)8,对于促进数据与软件的开放协同、持续提升二者的FAIR化水平具有重要意义。近年来,国内学者对FAIR原则的关注持续升温,包括对FAIR原则的解读9-11,基于FAIR原则的数据融合体系12、数据出版13和本体构建14、FAIR评估
11、模型与框架15等,但还未涉及科学软件。本文系统介绍FAIR软件原则的产生背景、主要内容和实践进展情况,以期为新形势下我国开放科学的理论研究、政策制定和实践发展提供借鉴和参考。1产生背景和开发历程1.1产生背景由于“几乎所有的数据都需要用软件进行某种形式的处理”,在开放科学所关注的新型研究对象中,数据与软件的关系最为密切。随着FAIR数据原则的广泛采纳和深入实施,人们深刻认识到科学软件的重要性和独特性,逐步在“没有软件的FAIR化就没有真正的FAIR数据”上形成共识,成为催生FAIR软件原则的关键因素。1.1.1软件与数据的同等重要性“软件”是以源代码(文本文件)或编译形式(可执行文件)存在的计
12、算机程序,通常还包括相关的文档、算法、用例和数据等。在科学研究领域,在研究过程中出于研究目的被开发出来的软件,主要用于生成、处理或分析研究结果或结论,被称为“科学软件”或“研究软件”8,16。近年来,在各方的不懈努力下,科学软件逐步从“幕后”走向“前台”,取得了与科学数据相当的学术地位,主要体现在:第一,研究成果认定。为鼓励科学家共享和重用软件,避免重复开发和资源浪费,美国、英国和欧盟的一些科学资助机构和学术评价组织已将软件认定为有效的研究成果,也有更多的科学、工程和人文等领域的研究社区将软件看作科研的主要产出之一,而不仅仅是副产品或辅助工具17。“十三五”期间,我国已通过项目资助、版权登记和
13、科研政策等措施保障科研软件的基础地位18。第二,引用原则与实践。新型研究对象价值被认可的首要标志之一是同传统的科学出版物一样,以一致的规范方式被引用。为此,于2014年2月通过的 数据引用原则共同宣言 确立了八项原则,成为指导各界数据引用实践的基本准则。在对“数据引用原则”进行剪裁的基础上,FORCE11社区于2016年4月发布“软件引用原则”,促使一些期刊、存储库和图书馆在提供数据引用服务的同时,也提供软件引用指南和服务19。相应地,支持数据引用的DataCite元数据,在2017年10月以后发布的V4.1至V4.4版本中已支持“软件引用”。第三,新兴学术论文出版。为推动开放科学时代学术出版
14、模式的创新,Elsevier出版集团于2014年推出实践研究94情报资料工作 2023年3月第44卷第2期全新的学术论文出版类型研究要素出版,主要包括数据出版和软件出版等20。在此背景下,新型的数据期刊和软件期刊如雨后春笋般出现,如Elsevier的Data in Brief(2014年创刊)和Software Impacts(2019年创刊),SSI 的 Journal of Open Research Software(JORS)(2013年创刊)和OSI(Open Source Initiative)的Journalof Open Source Software(JOSS)(2016年创
15、刊)等,其上发表的新型论文的数量、规范性和学术影响力在稳步增长。第四,软件存储和归档。为支持数据出版和软件出版过程中相关源代码的长期保存,大型科学仓储中心Zenodo和法国开放科学平台HAL(French Open Archive)在提供数据存储服务的同时,分别于2014年和2018年增加“软件类型”,开始为软件资源分配持久的DOI(Digital Object Identifier)和提供存储服务21。专门支持开放科学软件的“软件仓储中心”也陆续出现,主要有UNESCO和法国国家数字科学研究所共同支持的Software Heritage(www.softwareheritage.org)、N
16、ature 等支持的Code Ocean()和荷兰eScience中心的软件存储库(research-software.nl)等。1.1.2软件有别于数据的独特性从广义上讲,“计算机程序”(即软件)也是一种“数据”可以被计算机处理的任何事物22。但对照严格意义上的“数据”对事实或结果的电子记录,“软件”却有许多独特之处22-24,主要是:(1)软件具有“可执行性”,要完成一定的功能,如数据转换和可视化等,而数据是静态的、是被处理的对象;(2)在科学研究和管理决策中,数据提供证据,软件提供工具;(3)软件是人类创造性工作的成果,富含知识、模型和算法等,受到知识产权的保护,而数据仅仅是人工或自动观
17、测和记录的结果,需要经过分析、提炼后才能上升为信息和知识;(4)软件的“复合性”(Composite Nature)导致软件之间存在错综复杂的依赖关系,软件运行会依赖其他软件、操作系统和硬件环境等,因此软件必须不断地维护和更新才能保持正常运行,而数据的独立性要强得多,这意味着软件的重用要比数据的重用更为复杂;(5)软件的生命周期通常短于数据的生命周期,软件的演化和更新比较频繁,新的版本会取代旧的版本,需要严格的版本控制,而数据在生成之后基本没有被取代的风险,新的数据是历史数据的延续和补充;(6)许多软件在开发过程中就可以通过GitHub等托管平台实现共享,待开发完毕后进入存储库以实现正式出版和
18、归档,而数据直到发布到存储库中才进入开放共享状态。这些软件与数据的差异性是在数据引用原则和FAIR数据原则基础上,考虑软件的类似原则时的主要关注因素22-23。此外,“互操作性”(Interoperability)也是将FAIR原则从数据扩展到软件的最大挑战之一25。不同于数据,软件的互操作表现在两个维度上,分别是工作流程和运行环境,见图1。前者是软件之间交换数据的能力,后者是软件与依赖包、运行库、操作系统和硬件系统协调工作的能力。图1科学软件互操作的两个维度1.2开发历程2017年3月,在荷兰海牙举行第二届可持续软件可持续性研讨会(Workshop on Sustainable Softwa
19、reSustainability,WoSSS),会议主题之一是“将FAIR原则应用到软件”26,拉开了软件领域FAIR原则开发的序幕。接下来的第三届(2019 年)和第四届(2021 年)WoSSS会议延续了这一主题,为FAIR原则的扩展提出了一系列建议。2017年8月,RDA成立“软件源代码兴趣组”(Software Source Code Interest Group,SSCIG),开发支持软件可发现性的元数据方案,并于2020年3月组织召开“研究软件FAIR原则”RDA全体会议,承担起实践研究95情报资料工作 2023年3月第44卷第2期开发FAIR软件原则的任务27。在生命科学和地球物
20、理等专业领域,相继举行学术活动讨论科学软件的FAIR化问题,如DTL(Dutch Techcentre for Life Sciences,荷兰生命科学技术中心)的 CommunitiesWork 会议、AGU(American Geophysical Union,美国地球物理学会)的2018年秋季会议等。以上述学术研讨为基础,在英国SSI等研究机构的支持下,Lamprecht等25于2019年8月提出研究软件FAIR原则的第一个完整方案,作为SSC IG的主要工作成果之一,使得FAIR软件原则的开发工作迈上了一个新台阶。随后,Hasselbring等28从软件工程的角度给出完善FAIR原则的
21、建议,Garcia等23探讨了“软件研究计划”(Software Management Plans,SMP)与FAIR原则的融合问题。2020年9月,在SSC IG研究团队的基础上,RDA联合ReSA和FORCE11成立“研究软件FAIR原则工作组”(FAIR Principles for Research Software Working Group,FAIR4RS WG)29,聚集了来自18个国家110多个组织的300多名成员,分成四个工作小组。经过各领域专家的协同工作和多轮讨论、评审,在推出FAIR软件原则的多个草案后30-31,FAIR4RS WG于2022年3月发布FAIR软件原则V
22、1.0版,将被批准为RDA的正式建议。2FAIR软件原则的主要内容充分考虑软件的可执行性、复合性、持续演化和版本控制等特性,通过对FAIR数据原则的修订和扩展,在广泛共识的基础上形成了FAIR软件原则。软件源代码是适用该原则的首选形式,其他形式的软件(如二进制文件或以服务提供的软件等)也全部或部分适用该原则8。2.1可发现原则可发现原则细分为4个子原则,内容见表1。从子原则F1可见,“可发现性”不仅是一个软件产品的整体可发现性,还包括软件内部的模块、函数和文件等单元的可发现性,即全粒度级别(Granularity Levels,GL)的软件可发现性。软件粒度有十个级别(见图2),分成三类:粗粒
23、度(GL1和GL2)、中等粒度(GL3和GL4)和细粒度(从GL5到GL10)。同科学数据的标识符一样,科学软件的标识符也存在多种方案,尚未出现满足所有用户需求和粒度级别的统一标准。根据RDA/FORCE11“软件源代码标识工作组”(Software Source Code Identification WorkingGroup,SCID WG)的调查,目前应用的主要软件标识符方案分成两类“内生标识符”和“外生标识符”,区分依据是标识符是否依据软件的内在特征计算得出。离开元数据,数据标识符几乎没有价值,软件标识符也是如此。例如,在法国HAL平台上,HAL-ID和SWHIDs两类标识符需要嵌入元
24、数据记录中才能发挥作用。目前使用较广的软件元数据标准规范既有数据和软件共用的(如DataCite、Schema.org等),也有软件专用的(如CodeMeta、Bioschemas等)。为提高软件的可发现性,FAIR软件原则要求软件的元数据也应是FAIR化的(见表1中的条目F4),这已是开放科学元数据建设的新兴趋势之一32。编号FF1F2F3F4内容软件及其元数据易于被人和机器发现。软件被分配一个全球唯一且持久的标识符,包括:(F1.1)同一个软件中,不同粒度的软件组件有不同的标识符;(F1.2)在软件演化时,不同版本的软件有不同的标识符。软件被丰富的元数据所描述。元数据明确包含其描述软件的标
25、识符。元数据符合FAIR数据原则,还是可搜索的和可索引的。图2软件的粒度级别及其标识符方案表1可发现原则的内容实践研究96情报资料工作 2023年3月第44卷第2期2.2可获取原则可获取原则包含2个子原则,其内容与FAIR数据原则基本一致,详见表2。其中,A1子原则规定,用户获取软件及其元数据不应要求专有工具或通信方法,应使用通用的通信协议,如HTTPS等。不同类型的软件有不同的获取方法,既可以手工,也可以通过机器自动执行。典型的情形有:源代码应能够从存储库直接下载后在本地编译运行,托管在服务器上的软件则可以远程运行而不需要获取源代码,“软件即服务”(Software as a Service
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科学 软件 共享 FAIR 原则 背景 内容 实践 翟军
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。