PARIS原则:开放协作环境下科学数据的可用性.pdf
《PARIS原则:开放协作环境下科学数据的可用性.pdf》由会员分享,可在线阅读,更多相关《PARIS原则:开放协作环境下科学数据的可用性.pdf(17页珍藏版)》请在咨信网上搜索。
1、BIG DATA RESEARCH 大数据1722023013-1PARIS原则:开放协作环境下科学数据的可用性摘要科学数据利用的需求日益迫切,且在“第四范式”“融合科学”等新型科研范式带来的开放协作环境下,呈现出跨边界、端到端、动态性和协作化的特征。作为“数据仓储时代”的产物,FAIR、TRUST原则已无法为开放协作环境下科学数据的高效利用提供深入的指导。详细分析了科学数据利用的典型场景,提出开放协作环境下促进科学数据利用的PARIS原则:可处理(processable)、可问答(askable)、可信赖(reliable)、可联合(incorporable)与可供给(suppliable)
2、,并重点分析了PARIS原则对科学数据可用性的促进作用。最后,探讨了实现PARIS原则可参考的技术路径。作为FAIR、TRUST原则的有益扩展,期望PARIS原则能有效提升科学数据的可用性。关键词FAIR原则;TRUST原则;PARIS原则;数据利用;数据可用性中图分类号:TP393 文献标志码:A doi:10.11959/j.issn.2096-0271.2023013PARIS principle:improving the usability of scientific data in the open collaborative environmentAbstractThe dema
3、nd for scientific data utilization is increasingly urgent,and in the open environment brought by the new scientific research paradigms such as“Fourth Paradigm”and“Convergence Science”,the data utilization shows the characteristics of cross-the-boundary,end-to-end,dynamic and collaborative.As product
4、s of the“era of data repository”,the FAIR and TRUST principles can no longer provide in-depth guidance for the efficient use of scientific data in the open environment.This paper analyzed the typical scenarios of scientific data utilization in detail.Then,it presented the SHEN Hongzhi1,ZHANG Xiaolin
5、2,ZHENG Xiaohuan31.Computer Network Information Center,Chinese Academy of Sciences,Beijing 100083,China2.National Science Library,Chinese Academy of Sciences,Beijing 100190,China3.Bureau of Science Communication,Chinese Academy of Sciences,Beijing 100864,China沈志宏1,张晓林2,郑晓欢31.中国科学院计算机网络信息中心,北京 100083
6、;2.中国科学院文献情报中心,北京 100190;3.中国科学院科学传播局,北京 100864173FORUM 论坛2023013-2PARIS principles to promote scientific data utilization:processable,askable,reliable,incorporable,and suppliable.Finally,this paper given a technical practice path that the PARIS principles can refer to.As beneficial extensions of th
7、e FAIR and TRUST principles,it is expected that the PARIS principles can effectively improve the usability of scientific data.Key wordsFAIR principle,TRUST principle,PARIS principle,data utilization,data usability0 引言(1)科学数据与科学数据中心科 学数 据管 理办法指出,科 学数据(scientific data,又称科研数据,research data)主要包括在自然科学、工程
8、技术科学等领域,通过基础研究、应用研究、试验开发等取得的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。国际上,美欧等发达国家和地区已经将科学数据的持续积累和开放利用提高到了国家和地区战略的高度,并将国家科学数据中心建设作为科学数据管理的重要手段1-2。近年来,为促进科学数据的汇交整合和开放共享,我国加强了科学数据中心的建设。2019年6月,科技部、财政部在原有科学数据类国家平台的基础上进一步优化调整,形成了20个国家科学数据中心,涉及地球系统、人口健康、农业、林业、气象、海洋等多个领域 3。同年,中国科学院启动了科学数据中心体系建设,初步建成了由
9、总中心、18个学科中心和13个所级中心组成的院科学数据中心体系 4。多元化科学数据中心生态正在迅速形成 ,包括:大中型科学数据中心,如国家科学数据中心、学科数据中心 、省部级科学数据中心 等 ;小型科学数据中心,如研究所数据中心 、高校数据中心 、企业数据中心、实验室数据中心等;微型科学数据中心,如 团队科学数据中心、个人科学数据中心等。此外,大型科学数据中心往往还按照学科或者区域下设分中心(分部)。这些科学数据中心势必形成复杂的生态,共同推动科学数据的共享,为科技创新发挥更大作用。(2)FAIR、TRUST原则与科学数据共享随 着 数 据 开放 运 动的 不 断 深 入,科 学 数 据的共享
10、 取得了较 大的发 展。2 016 年,FA I R原 则被 正 式 确定 为 科学数 据管 理的指导方针5。FAIR原则规 定了数 据的开放 共 享需要 满足可发现(findable)、可访问(accessible)、可 互 操作(interoperable)、可重用(reusable)4个方面的要求。类似地,TRUST原则从透明性(transparency)、负责任(responsibility)、用户导向(user focus)、可持续性(sustainability)、技术(technology)5个方面定义了数据仓储(data repository)的可信任能力6。欧 盟、荷兰、澳大
11、 利亚等非常 重 视FAIR原则在数据密集型科学数据管理中的作用,在人文社科、环境科学、生命科学等领域开展了应用实践7-8。越来越多的科学数据中心遵循FAIR原则进行数据开放共享,并在TRUST原则的指导下构建可信的数据仓储。比如,国家青藏高原科学数据中心收集并发布了4 600多个青藏高原及周边地区的科学数据集,不断研发新技术实践FAIR原则,采用国际标准提供数BIG DATA RESEARCH 大数据174据引用方式和数据关联文献引用方式,支持数据出版,开发在线大数据分析、模型应用等功能9。截至2022年3月,该中心页面访问量累计超过1.5亿次,月均下载量达到50 TB。同时,国家青藏高原科
12、学数据中心也成为国内首个通过Nature数据期刊Scientific Data认证的数据仓储中心,大大提高了数据中心的影响力和权威性。(3)科学数据从共享到利用数据只有动起来、用起来才能产生价值。咨询公司Frost&Sullivan在2019年发布的2025年世界顶级全球大趋势及其对商业、社会和文化的影响一文中提到,数据支撑着未来,90%的变革性转变严重依赖数据的流通和使用10。在大数据时代,科学发现越来越依赖于对海量数据的集成和分析,科学研究水平不仅取决于科研人员的水平,也越来越多地取决于对数据的积累以及将数据转换为信息和知识的能力2。如,北京正负电子对撞机北京谱仪国际合作组利用国家高能物理
13、科学数据中心存储的北京谱仪(BES)数据完成世界上最精确的正反科西超子衰变不对称性测量。该结果证实了一种新方法,它为研究物质和反物质之间的差异提供了极其灵敏的探针11。再如,国家生态科学数据中心兰州大学分中心利用长期定位土壤呼吸观测数据,在土壤呼吸与土壤温度间滞后性的研究方面取得重要成果12。对科学数据进行处理、分析、挖掘与可视化等操作,将数据转换为信息和知识的过程,就是数据利用(data utilization)的过程。图1所示为科学数据生命周期的核心阶段,包括:数据产生数据处理数据分析数据共享数据保藏数据重用。其中,数据利用分别发生在数据产生之后、数据保藏之前,以及数据重用的阶段。为深入了
14、解科学数据共享与利用的现状,本文选取了20个国家科学数据中心的微信公众号以及科技部主办的微信公众号“锐共享”,对其中的文章内容进行分析,分别统计了2021年7月至2022年12月期间“数据发布”“数据利用”两类文章的发表情况。图2所示为21个公众号发布两类文章的数量对比,图3所示为“锐共享”公众号文章发表数量趋势。统计发现,现有科学数据中心在科学数据的发布共享与数据利用方面都呈现出较好的发展势头。但相比而言,目前各科学数据中心在落实FAIR原则方面,其工作更侧重于数据发布与共享(即F、A和I方面),数据利用方面(即R方面)稍显不足。科学数据中心的数据服务仍然以“数据仓储”服务为核心,以“数据汇
15、聚/汇交”为主要的数据共享模式,发布出来的数据集往往不能满足分析可用(analysis ready)、在线分析可用(online analysis ready)的需求,科学数据的利用环境与仓储环境还图 1科学数据生命周期2023013-3175FORUM 论坛存在着较大脱节,科学数据的利用能力和水平存在亟须改进的地方。(4)开放协作环境下的科学数据利用“第四范式”“融合科学”“关联科学”等新型科研范式对科学数据的共享和利用提出了要求。“第四范式”强调从数据中心保存的海量的、由各种设备收集到的图 221 个公众号发布两类文章的数量统计图 3“锐共享”公众号文章发表数量趋势2023013-4数据中
16、查找所需数据并进行分析研究13;“融合科学”强调所有学科之间的数据开放和共享、科研全流程的数据开放和共享,并强调对与解决重大经济社会问题相关的全景式数据的开放和共享14;“关联科学”则强调科学数据之间的关联性,提出一种实现科学资产互联的方法,以支持BIG DATA RESEARCH 大数据1762023013-5透明的、可重复的和跨学科的研究15。可以看出,随着各种新型科研范式的开展,科学数据的利用被置于一个“多主体、多要素、全景式”的开放协作环境。多主体:多元化科学数据中心已形成日益繁荣的生态,彼此竞争和合作。多要素:除了传统的科学数据资源要素,科学数据软件及服务、科技文献、科学数据团队等要
17、素也参与了科学数据的利用。全景式:科学数据的利用不再局限于独立的视角,而以最终任务为目标,有效整合交叉学科机构各类数据资源与服务。比如,国家天文科学数据中心牛晨辉等16在处理FAST数据的过程中,发现2019年5月20日的数据存在重复的高色散脉冲。基于这一发现,团队通过与美国甚大阵列望远镜合作,在2020年7月完成亚角秒量级的精确定位,并探测到了一颗与之对应的致密的持续射电源(PRS)。随后,通过美国帕洛玛200英寸望远镜和凯克望远镜、加拿大-法国-夏威夷望远镜和日本斯巴鲁近红外光学望远镜,团队进一步确定了FRB20190520B的宿主星系和红移,推导出其宿主星系贡献了总色散值的80%,并结合
18、散射特征提出宿主星系的色散主要来自邻近FRB爆发源的区域。这个例子综合利用了FAST数据、美国甚大阵列望远镜、美国帕洛玛200英寸望远镜和凯克望远镜,以及加拿大-法国-夏威夷望远镜和日本斯巴鲁近红外光学望远镜的数据。为有力应对新型科研范式的应用场景,科学数据中心逐渐形成相互联合的态势。比如,2021年7月,国家高能物理科学数据中心、国家空间科学数据中心、国家天文科学数据中心签订战略合作协议,并发布“高能物理-空间科学-天文学”首批联合主题数据目录,从而满足多信使天文学使用探测电磁波、引力波、中微子、宇宙线等多种技术手段对天体进行观测的需求17。再如,2021年8月,国家农业科学数据中心联合国家
19、地球系统科学数据中心、国家林业和草原科学数据中心、国家气象科学数据中心,建立黄河流域生态保护与高质量发展专题库,为促进黄河流域生态保护与高质量发展国家战略实施、保障黄河长治久安提供全方位科技支撑。不仅如此,科学数据中心内部也存在各分中心“联合”的态势,如国家天文科学数据中心根据中国“虚拟天文台”的思路整合了国家天文台、紫金山天文台、上海天文台、云南天文台、新疆天文台等天文科学数据及其他类型的天文数据,形成了物理上分散、逻辑上统一的覆盖天文科学数据全生命周期的管理与开放共享平台18-19。在“多主体、多要素、全景式”的开放协作环境下,科学数据的利用不再是传统手工的、单点作坊的方式,逐渐呈现出“跨
20、边界、端到端、动态性和协作化”的特征。跨边界:科学数据的利用不再发生在单一数据中心、单一团队内,往往是跨系统、跨中心、跨领域的。端到端:科学数据的利用往往是“端到端”的无人工交互、弱人工交互的自动化、智能化的方式,科学数据需要技术协议层面的高度无缝衔接。动态性:科学数据的利用、流向不再是静态的、预设完好的,而是针对复杂利用场景,在线、按需的、动态执行。协作化:科学数据的利用不再是针对某个单一的数据源、数据中心进行的,而是通过综合调度多个数据中心的资源,完成一个复杂场景的任务。FAIR原则在科学数据的共享和利用过程中起到了较大的指导作用。但应注意到,FAIR、TRUST等原则更多关注的是科学数据
21、的开放与共享,实现了科学数据的“不可见可见可用”,但仍无法有效解决科学数据及其服务目前普遍存在着的分177FORUM 论坛图 4“下载 解释 使用”模式2023013-6布式、孤岛化、差异化、权益约束等问题,无法实现科学数据的“可用可协作”,无法有效满足“第四范式”“融合科学”等新型科研范式提出的“跨边界、端到端、动态性和协作化”的科学数据利用需求。科学数据面临的主要矛盾已转化为分布式孤岛化异构科学数据资源与新型范式对科学数据高质量供给(按需、高效、可信供给)需求之间的矛盾。1 科学数据利用场景跨边界、端到端、动态性和协作化的科学数据利用需求广泛存在,本节梳理出不同环境下几类典型的科学数据利用
22、场景:离线与在线消费、数据即服务、算法找数据/数据找算法、数据管道、数据协同分析。1.1 离线与在线消费在传统的科学数据共享方案中,数据利用通常采用的是“下载解释使用”(download-interpret-load,DIL)的离线方式(如图4所示),即:用户通过浏览数据网站,获取数据集地址,通过HTTP或者FTP等方式下载该数据集,获得一份复制数据;用户结合数据集的描述信息,对下载的数据集结构、内容进行理解和确认;用户启动一个消费程序,如Excel,加载数据并进行进一步分析应用。这种模式的缺点是需要人工干预,效率较低,在复杂动态任务的场景下无法做到及时有效。另外一种模式是在线消费(onlin
23、e consumption,OC)模式,如图5所示。在这种模式下,消费程序按照固定的协议和格式直接接收数据并生成消费结果,消费过程中无须人工干预。近年来,数据出版成为一种新型的科学数据共享方式,数据出版可使数据达到可引用和追溯的状态,核心内容是为数据引用提供标准的数据引用格式和永久访问地址20。数据仓储是一种常见的数据出版方式,它往往以数据文件包的方式提供数据下载服务。这种情况下的数据利用就是DIL模式。1.2 数据即服务图4展现的是一种传 统的“移动 数据”的消费模式,即消费程序不动,将数据从发布端迁移到消费端,其特点可概括为“给程序喂数据”“程序不动数据动”。对于海量规模的科学数据集,由于
24、数据迁移和传输的成本较高,往往需要采用一种数据即服务(data as aservice,DAAS)的形式提供数据服务。在这种形图 5在线消费模式BIG DATA RESEARCH 大数据178图 6在线数据集模式图 7“数据找算法”模式2023013-7式下,“科学数据集”和“数据服务”统一,可被称作在线数据集。在线数据集需要配套程序执行引擎或者容器,接受用户设定或提交消费程序或逻辑,并输出消费结果,这种方式为“移动计算”,特点是“给数据喂程序”“数据不动程序动”,如图6所示。数据即服务的一个典型例子是Google BigQuery21。BigQuery为用户提供了一个在线分析的环境,允许用户
25、选择数据集,提交一个SQL查询语句,从而获取到关心的查询结果。在这里,程序逻辑是SQL结构化查询。另外一种常见的程序逻辑是类似于Map-Reduce的大数据操作,如提交一段脚本,要求返回符合条件的数据的某列的总和,在这种情况下,“移动计算”要比“移动数据”要经济很多。1.3 算法找数据/数据找算法在数据丰富、算法贫乏的时代,数据消费过程中主动权在于消费程序,因此需要根据消费程序(算法)的输入输出格式要求来准备数据,即“算法找数据”,这个过程中数据的预处理往往是一项重要的准备工作。随着机器学习、深度学习、神经网络,以及容器技术、微服务技术的发展,根据数据以及任务来找算法已经成为可能。如针对一幅在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- PARIS 原则 开放 协作 环境 科学 数据 可用性
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。