基于5W模式的生命科学数据库联盟服务研究——以INSDC为例.pdf
《基于5W模式的生命科学数据库联盟服务研究——以INSDC为例.pdf》由会员分享,可在线阅读,更多相关《基于5W模式的生命科学数据库联盟服务研究——以INSDC为例.pdf(5页珍藏版)》请在咨信网上搜索。
1、56Sep.2023InformationResearchNo.9(Serial No.311)2023年9 月第9 期(总31 1 期)情报探索基于5W模式的生命科学数据库联盟服务研究以INSDC为例任巧(上海大学文化遗产与信息管理学院上海200444)摘要:目的/意义 通过探究国外生命科学数据库联盟管理和服务模式,为我国生命科学领域的科学数据管理提供参考。【方法/过程 通过网络调研,以INSDC为例,利用5W传播模式分析生命科学数据库联盟的管理及服务现状,从服务主体、服务对象、服务内容等方面进行了深人剖析。【结果/结论】国外生命科学数据库联盟具有完善的数据管理和服务政策,以及完善的数据管理
2、和服务流程,同时注重联盟成员之间的互动,由此为用户提供可靠的数据支持与服务。关键词:5W模式;科学数据管理;INSDC中图分类号:G258.6文献标识码:Adoi:10.3969/j.issn.1005-8095.2023.09.008Research on Life Science Database Alliance Service Based on 5W mode:Case Study of INSDCRen Qiao(College of Cultural Heritage and Information Management,Shanghai University,Shanghai 2
3、00444)Abstract:Purpose/significance Through exploring the management and service models of foreign life science database alli-ances,the paper provides reference for scientific data management in the field of life sciences in China.Method/process Through on-line survey,taking INSDC as an example,it u
4、ses the the 5W communication model to analyze management and service status of the lifescience database alliance,and conducts a deep analysis from the aspects of service subjects,service objects,service content and so on.Result/conclusion The foreign life science database alliance has comprehensive
5、data management and service policies,as well ascomprehensive data management and service processes.At the same time,it emphasizes the interaction between alliance members,so asto provide reliable data support and services for users.Keywords:5W mode;scientific data management;INSDC0引言在大数据时代,数据成为重要的科研
6、资产,成为驱动创新的重要资源 。科学研究范式在经历了第一范式实验科学、第二范式理论科学和第三范式模拟科学后,正式进人到了以科学数据为核心的数据密集型科学研究范式 2 。生命科学第四研究范式也推动了生物学研究进人到信息生物学的阶段,由此推动基因序列分析的进步,基因大数据已日益成为推动生命科学研究的战略性资源,核酸序列数据的管理及数据库的建设也逐渐成为各个国家关注的重点。面对生命科学领域的海量基因序列数据,如何对其进行有效管理,提供精准的数据服务,实现序列数据高效共享和利用,促进信息生物学的发展尤为重要。当前,国际上存在较为成熟的核酸序列数据库,本文利用传播学中的5W模式,调研和分析国际核酸序列数
7、据库联盟(International Nucleotide Se-quence Database Collaboration,简称 INSDC)的建设和管理模式,旨在为我国核酸序列数据建设及管理提供参考。15W模式美国政治学家、传播学四大奠基人之一的哈罗德拉斯韦尔于2 0 世纪首次提出“5W传播理论框收稿日期:2 0 2 3-0 5-1 8作者简介:任巧(1 9 9 7 一),女,2 0 2 0 级硕士研究生,主要研究方向为科学数据管理。57任巧:基于5W模式的生命科学数据库联盟服务研究2023年9 月第9 期(总311期)架”明确了构成传播过程的关键五要素。5W分别代表英文中以“W”开头的四
8、个疑问词,即Who(谁)、Say What(说了什么)、In Which Channel(通过何种渠道)、ToWhom(面向谁)、With What Effect(产生何种效果)3。5W模式构建了传播框架,在一定程度上揭示了信息与用户之间的主动传播、接受的互动关系。本文在5W模式的基础上,从联盟协作系统的主体、客体、内容、手段、效果等五个方面要素进行分析。根据联盟的实际情况,将上述五个方面的要素细化:主体对应INSDC联盟本身,包括其特点、服务宗旨等;客体则对应的是服务对象一INSDC联盟的用户;内容对应的是联盟的管理和服务内容;手段对应于联盟的关键成功要素;效果对应于联盟的影响、成果等。在I
9、NSDC数据库的联盟服务中,其协同效应体现联盟各个成员在上述要素中的互动性和融合性,当机构成员与要素之间形成良性互动与循环时,联盟的运转和服务可以认为处于一个良好的水平。2基于5W模式的INSDC数据管理和服务2.1INSDC联盟简介INSDC由日本国家遗传学研究所的DDBJ数据库、欧洲分子生物学实验室(EMBL)的ENA数据库和美国国家生物技术信息中心(NCBI)的Genbank数据库组成,共同合作维护基因序列数据。INSDC的三个成员分别隶属生命科学领域的专业机构,主要提供基金项目资助和专业的数据管理,通过联盟协作的方式,实现了三者的互通互联,为生命科学数据管理提供了可靠思路和对策。INS
10、DC是管理和共享生命科学核酸序列数据(NSD)及其附属信息的核心基础设施,通过其三个成员的日常数据交换,维护相同的数据信息,已经成立并运行了三十余年,是科学界公认的唯一可以公开获取NSD的平台 4。三十多年来,INSDC一直致力于收集、保存和提供全面的公共领域核酸序列及相关数据的访问,旨在促进生物医学、生命科学以及生物多样性的发现2.2管理和服务内容分析2.2.1数据来源联盟三大数据库的核酸序列数据来源丰富,同时又相互实行数据交换,极大地丰富了联盟的数据量。Genbank的数据来源主要有两种途径:一是,测序中心、以及从事科学研究的测序工作者所提交的基因表达序列标签(express sequen
11、ce tag,EST)、基因组勘测序列(genome survey sequences,GSS)、高通量数据等;二是,与其他两个联盟成员之间的交换数据。ENA收集和保存了欧洲大部分的核酸序列数据信息,其中既有原始测序数据,也包含了功能注释等信息。测序数据主要来自于基因组测序中心、各地有关的研究人员。不仅如此,ENA的数据还涉及与测序流程相关的信息,包括测序仪器数据、生物信息分析流程中所产生的数据等。DDBJ的数据主要来源于日本基因序列研究者所提供的数据,并且提交的数据均会被赋予唯一标识号,同时该数据库也接受来自其他国家研究者提供的数据。截止2 0 2 1年6月,INSDC中包含了2 8 30
12、32 118 8 个序列和150 9 3100107909个碱基对,DDBJ为其贡献了3.39%的序列和2.2 3%的碱基对 52.2.2数据管理在数据管理方面,INSDC实行严格的数据分类组织方式,旨在为用户提供更好的数据服务。NCBI的分类数据库为INSDC的许多资源提供了一个分类组织标准,该数据库是公共序列数据库中所有生物的精选分类和命名法的集合。INSDC所有的成员数据库都按照分类数据库中的名称对提交的数据进行组织,如果分类数据库中不包含提交的序列名称,那么会根据现有的序列名称更新分类数据库。提交的数据经过质量把控和审核后,按照分类数据库所包含的名称信息匹配完成后,INSDC的成员数据
13、库为每条数据记录分配一个独特的标识符,称为索引号,三者具有相同的索引号格式,并且随着生命科学序列数据的快速增长,INSDC也在不断扩大索引号的范围,以适应数据量的增加。同时,为了便于管理,INSDC的成员数据库采取分级分部门管理的方式,其中GenBank根据源分类法,将数据分配给不同的部门进行管理,包括12 个分类区(BCT、E NV、I NV、MAM、PH G、PL N、PR I、R O D、SY N、U NA、VR L、VR T)和五个高通量区(EST、G SS、H T C、H T G、ST S)6 2.2.3数据利用在数据利用服务方面,INSDC的数据可以供用户免费访问。Genbank、
14、E NA 和DDBJ都为用户提供了检索和分析系列数据的端口,用于数据访问、下载和使用。Genbank为用户提供在线资源检索器(En-trez),用户可以通过该检索器获取所需的核酸序列数据,用户可以通过EntrezHelp详细了解该检索系统,掌握快速检索或获取序列数据的方法;获取和使用ENA的序列数据,用户需要创建一个webin账户582023年9 月情报探索第9 期(总311期)创建账户便于对用户访问和使用数据的情况进行记录,进而更好地追踪数据使用状态 7 ;DDBJ中心提供了不同序列比对(WebBLAST)、多序列比对(C l u s t a l W)、载体序列筛选(VecScreen)和分
15、类学浏览(TXSearch)服务,用以接收来自网络界面的请求 8 ,从多方面满足用户的数据获取和使用需求。尽管联盟每个成员都有其服务端口,但由于三者之间存在数据交换,因而每个站点显示的数据都是相同的。因此,用户无论从哪个端口访问数据,都能获得联盟的数据,进而达到获取所需序列数据的目的。2.3关键成功要素分析2.3.1统一数据开放共享政策INSDC的三个成员都是发展完善且成熟的生命科学组织所管理的数据库,均有相应的管理和服务准则,如何保证独立运行的同时又能服务于联盟就成为一个重要的问题。因此,在联盟合作之中,制定统一的联盟政策就成为影响联盟能否长远发展的关键因素之一。数据开放共享以联盟为基础,由
16、联盟委员会决定数据共享发展方向,委员会成员分别来自日本、美国、欧洲三方,代表了各方的立场,可以通过国际合作会议解决数据共享中存在问题,进而确保数据共享机制的长期平稳运行 9(1)数据使用INSDC的成员每年会定时召开会议,探索、讨论建立和维护序列档案的有关问题,会议中达成的数据库标准和有关政策会发布在INSDC的官方网站上。INSDC有一个统一的政策,即用户可以免费和无限制地访问他们数据库中的所有数据记录。INS-DC不会在记录上附加限制访问数据的声明,限制使用这些记录中的信息,具体来说,任何序列数据记录中都不会包括使用限制或许可要求,也不会对任何利用数据的一方施加使用数据库限制或收取费用等,
17、世界各地的科学家可以访问这些记录来支撑自已的研究,或发表任意分析和评论。此外,为鼓励数据分享,联盟还根据科学家已发表的科学文献的情况,对引用数据的行为给予适当奖励。(2)数据保护数据保护一方面是注重保密数据的开放共享,另一方面是涉及隐私的数据保护。联盟数据库针对部分提交的数据,会要求间隔一段时间以后再将数据公开,但联盟并不会无限期持有数据而不公开;此外,联盟数据库提出要求,研究人员所提交的数据应当保证不涉及任何个人隐私信息,如美国基因数据共享政策(Genomic Data SharingPolicy,GDS)就明确提出了在基因序列数据等开放共享过程中要尊重相关的隐私和专利,充分发挥各个机构审查
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 模式 生命科学 数据库 联盟 服务 研究 INSDC
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。