DNA存储文件系统研究进展.pdf
《DNA存储文件系统研究进展.pdf》由会员分享,可在线阅读,更多相关《DNA存储文件系统研究进展.pdf(10页珍藏版)》请在咨信网上搜索。
1、DNA存储文件系统研究进展昝乡镇姚翔宇许鹏鲍振申李先彬李晓焱刘文斌*(广州大学计算科技研究院广州510006)(榆林学院数学与统计学院榆林719000)摘要:DNA存储因具有密度大、保存时间长及维护成本低等优点,为解决海量数据的存储和应用难题提供了“破局”可能。面对大规模数据应用场景,DNA存储必须要解决如何组织、访问和操作数据文件等问题即文件系统设计问题。该文首先结合计算机文件系统模型,给出了未来DNA存储文件系统模型及具备的特点;然后,系统性综述了DNA存储文件系统研究进展;最后,对未来DNA存储文件系统研究进行了展望。关键词:DNA存储;文件系统;随机访问;纠错中图分类号:TN911文献
2、标识码:A文章编号:1009-5896(2023)06-1911-10DOI:10.11999/JEIT220561A Survey on File Architecture in DNA StorageZANXiangzhenYAOXiangyuXUPengBAOZhenshenLIXianbinLIXiaoyanLIUWenbin(Institution of Computational Science and Technology,Guangzhou University,Guangzhou 510006,China)(School of Mathematics and Statisti
3、cs,Yulin University,Yulin 719000,China)Abstract:DNAstoragetechnologyprovidesanewwaytotackletheproblemsofmassivedatastorageandapplication,duetoitshighdensity,longdurability,andlowmaintenancecost.Tofacemassivedatastoragedemand,DNAstoragehastoovercometheproblemonhowtoorganize,accessandmanipulatedatafil
4、es,thatis,thedesignoffilesystem.Inthispaper,futureDNAstoragefilesystemmodelanditscharacteristicsarestudiedaccordingtocomputerfilesystemmodel.Then,theresearchprogressoffilesystemofDNAstorageissystematicallyreviewed.Finally,theperspectivesonresearchdirectionoffutureDNAstoragefilesystemarediscussed.Key
5、 words:DNAStorage;Filesystem;Randomaccess;Errorcorrections1 引言随着云计算、物联网、大数据等技术的飞速发展,全球数据总量保持指数甚至超指数增长1。预计到2040年,全球数据总量将达到31024bit2。目前以云存储为核心应用的传统存储介质(如磁性存储器、光学存储器、固态存储存储器等),在功耗、体积、可靠性、有效存储时间等方面都面临技术瓶颈3。探索新型存储介质及相应读写技术,已经成为信息技术可持续发展的一个关键基础问题。与传统存储介质相比,DNA分子在数据存储方面有着巨大的优势4:(1)超高的存储密度。DNA分子的存储密度可达到1019
6、bit/cm3,比传统存储介质提高了6个数量级。(2)超长的使用寿命。DNA存储的数据在没有特别人工干预的情况下能保存千年之久。(3)超低的维护成本。DNA存储所需的占地、资源和能源均远远小于传统存储介质,维护成本极低。此外,DNA分子的生化反应及操作本身具有巨大的并行性。尽管目前DNA分子还存在读写成本高、读写速度慢等缺点,但其依然被认为是存储占全球数据总量60%以上冷数据的最佳选择,可以作为目前云存储应用的潜在存储介质5。DNA存储主要分为体内存储(细胞内存储)和体外存储(细胞外寡核苷酸池存储)。2012年哈佛医学院的Church等人6首次在体外存储了0.65MB数据,开启了DNA存储研究
7、的热潮。2018年,微软和华盛顿大学7实现了200MB存储数据的随机访问。2019年,上海交通大学Zhang等人8提出了一种基收稿日期:2022-05-07;改回日期:2022-08-23;网络出版:2022-08-29*通信作者:刘文斌基金项目:国家自然科学基金(62072128,62002079,62102104),榆林市科技局项目(CXY-2020-007)FoundationItems:TheNationalNaturalScienceFoundationofChina(62072128,62002079,62102104),YulinScienceandTechnologyBurea
8、uProject(CXY-2020-007)第45卷第6期电子与信息学报Vol.45No.62023年6月JournalofElectronics&InformationTechnologyJun.2023于DNA折纸的信息加解密方案,实现了文本信息的加密传输。2022年,苏黎世联邦理工学院开发了一个数字微流控平台,支持DNA存储数据的自动化随机读取。DNA存储已成为前沿交叉学科领域的热点研究方向。美欧发达国家已经将DNA存储列入国家发展战略。我国两会公布的第十四个五年规划和2035年远景目标纲要明确指出,要加快布局DNA存储等前沿技术。2020年11月,微软与DNA合成公司(TwistBio
9、science)、DNA测序公司(Illumina)、数据存储公司(WesternDigital)结成DNA数据存储联盟,用于推进DNA存储的发展。DNA存储研究已经引起政府、学术以及企业的高度重视,如图1。与此同时,如何利用DNA分子独特结构,研究一种解决数组织、管理、容错和安全等问题的专用DNA存储文件系统,是一个不可忽视的重要科学问题。相关研究成果陆续发表在各种学术期刊上。本文结合计算机文件系统模型的特点,研究了未来DNA存储文件系统模型及其应该重点解决的问题,并对每一问题相关研究进展做了总结,最后对DNA存储文件系统模型的发展做了展望。2 DNA存储文件系统模型及其特点计算机文件系统模
10、型分为3层(图2):最底层是对象(文件和目录)及其属性层;中间层为对对象进行操纵和管理层,涉及对文件和目录进行存储管理和修改管理等操作;最顶层为文件系统接口层,涉及向终端用户提供操纵第2层和第3层的接口,方便用户对文件进行快速高效的管理。该模型具有如下5个特点:(1)文件访问便捷。系统通过目录对象、磁盘文件分配表以及逻辑地址与物理地址映射机制,为用户提供快捷的文件管理和随机访问方式。(2)文件维护简单易扩展。系统利用目录对象,图1DNA存储政府战略规划与重要研究进展图2计算机文件系统与DNA存储文件系统模型1912电子与信息学报第45卷方便对文件元信息进行维护,以及对文件对象进行增、删、改等操
11、作。(3)存储容量高。云计算、大数据等技术的快速发展涌现出了众多不同类型的网络存储系统,极大地提升了数据存储空间和规模。(4)数据存储可靠。当因自然或系统因素导致磁盘上的数据损坏时,磁盘容错技术及备份技术可以对损坏的数据进行修复,确保数据可靠存储。(5)数据存储安全。系统通过数据备份和磁盘加密等技术确保存储数据满足机密性、完整性和可用性。DNA存储的实质是二进制信息经编码合成DNA分子后的独特呈现,体现的是数字信息与生命信息的融合。生命系统本身独特的信息组织形式(冗余和串扰),注定了其与电子信息系统信息组织形式的不同。而电子信息系统数据组织的特点则为未来DNA存储文件系统的发展指明了方向。未来
12、DNA存储文件系统模型可能如图2(b)所示,也分3个层次:最底层为文件对象层,表现为体内或体外游离DNA分子;中间层为文件操作层,表现为对存储信息的DNA分子进行修改、删除、检索、复制、保护、容错等操作技术的集合;最上层为文件系统接口层数字信息与DNA分子连接的桥梁,表现为负责数字信息与DNA分子相互转换的DNA合成技术和DNA测序技术的集合。3 DNA存储文件系统研究进展本文从存储容量、文件操作、数据纠错及数据保护4个方面总结DNA存储文件系统研究进展。3.1 存储容量存储容量主要与地址序列个数有关。地址序列既包括标识DNA链顺序的索引序列,也包括用于标识文件的引物序列(或分子探针序列)。为
13、了描述方便,本文将用于标识文件的引物序列统称为地址n序列。假定地址序列可标识文件的数量为,存储容量有如下两种定义方式。ifipC定义19假定存储第 个文件DNA链的个数为,每个DNA链携带有效数据 Byte,则存储容量定义为C=ni=1fi p(1)fC定义210假定每个文件的大小均为 Byte,则存储容量定义为C=n f(2)其中,定义1是合成池存储容量的标准计算方法;定义2是合成池存储容量的近似估计,是式(1)的简化计算方式。在DNA存储研究中常用式(2)估计存储容量。地址序列表示文件的方法主要有5种,且这些方法主要应用在特异性PCR(聚合酶链反应)访问目标文件的用途中(图3(a)。第1种
14、7,1113是在DNA链两端添加1个正向引物和1个反向引物。第2种14是在DNA链两端添加1个前向引物和1个通用引物,其中前向引物唯一标识1个文件。由于必须精心设计大量正交引物保证检索效率,这2种方法代表的寻址机制是不可扩展的。后3种方法主要通过减少正交引物数量来提升存储容量。第3种11是在DNA链的两端分别添加1个正向引物和1个反向引物,通过正向引物和反向引物的组合标识不同的文件。第4种方法10在DNA链两端添加2(或3)个正向引物和1个通用引物,通过正向引物的组合标识不同的文件。第5种方法9是在DNA链两端添加2个正向引物和2个反向引物,通过正反引物的组合来标识不同的文件。第4和第5两种方
15、法获取目标文件需要借助巢氏PCR或半巢氏PCR技术。上述5种方法在给定引物序列数量的情况下,可表示的文件数量依次递增(注:图3(b)根据表1中所列公式绘制)。图3引物数量与文件数量的关系第6期昝乡镇等:DNA存储文件系统研究进展1913基于28 000个可用引物(长度为20nt)的当前最佳估计7,假定每个文件的大小为3GB,上述5种方法可表示的最大存储容量依次为41TB,84TB,588TB,65.84ZB以及2.4YB。然而,这仅是理论上的最大存储容量,实际存储中还达不到这些容量。这是因为高存储容量意味着DNA数据库变得越来越多样化、拥挤和无序,无法以几乎同样高的保真度检索目标链(表1,注:
16、表中“N/A”表示不适用或论文未提供)。因此,实际存储需要在存储容量与文件访问效率之间折中。此外,尽管后2种方法可以存储海量文件,但是这两种方法均存在2个缺点:(1)获取目标文件需要进行2次PCR反应,检索方法复杂,需要额外的检索时间和试剂,读取成本高;(2)由于每个DNA链需要3个以上的地址序列,寡核苷酸链上有效载荷的长度将会缩短,降低了DNA存储池的总体编码密度,并带来额外的写入成本。鉴于地址序列数量与文件访问效率的关系,有些研究者尝试用“物理支架”排列DNA分子,类似于传统磁带机处理数据的方式,在保障文件访问效率的同时,提升DNA存储容量,如表2所示。Newman等人15借助DNA脱水技
17、术和数字微流控设备,实现了脱水DNA斑点物理分割但共享地址系统(同一套引物序列集合)的文件随机读取操作(图4),理论容量为1TB/斑点,但该方法的目标文件检索率较低。Antkowiak等人16将脱水DNA斑点存储在二氧化硅颗粒中,在实现常温持久保存的同时,理论容量提升到23.5TB/斑点。天津大学陈为刚等人14借助PCR特异性扩增技术,将数据文件物理分割成相同大小的数据块并存储在不同的合成池中,实现了小文本文件以及跨引物池大文件的读取。Banal等人17将文件DNA数据封装在表面用单链DNA条形码标记的不透水硅胶胶囊中,支持文件跨硅胶胶囊存储,但是该方法的目标文件检索率不稳定,介于60%到95
18、%之间。需要指出的是,采用“物理支架”分割DNA分子的方式,会在一定程度上降低DNA存储的密度。3.2 文件操作文件操作包括文件访问、文件修改、文件复制和文件删除等4个操作。在DNA存储中,文件操作是指对存储数据的DNA分子进行查找、修改、复制和删除等操作。3.2.1 文件访问DNA存储中的文件访问(检索),是指通过技术手段获取目标文件DNA链。目前DNA存储研究中,目标文件读取技术主要有特异性聚合酶链扩增(PolymeraseChainReaction,PCR)技术和分子杂交技术。在特异性PCR读取目标文件的研究中,引物设计一般遵循如下原则:(1)GC均匀分布;(2)引物序列无均聚物;(3)
19、引物序列不含有二级结构;表 1 5种特异性PCR扩增引物设计方法性能比较引物设计方法方法记号文件数量(m个引物)扩增技术目标文件检索率(%)1正向,1反向7,11-13M1m/2传统PCR991正向,1通用14M2m 1传统PCR991正向,1反向(组合)11M3(m/2)2传统PCR992正向,1通用10M4-1m2 3m+2巢氏PCR813正向,1通用10M4-2m3 6m2+11m 6巢氏PCR,磁珠分离,生物素972正向,2反向9M5(m/4)4巢氏PCRN/A表 2 物理排列DNA分子存储方法比较参考文献技术特点存储容量目标文件检索率(%)Newman等人15脱水斑点+数字微流控1T
20、B/斑点66Antkowiak等人16二氧化硅包裹脱水斑点+数字微流控23.5TB/斑点99陈为刚等人14基于数据块的多个合成池存储3MB99Banal等人17单链DNA条形码标记的硅胶胶囊0.1kB/胶囊6095图4脱水DNA斑点共享地址系统1914电子与信息学报第45卷(4)引物序列间保持一定汉明距离;(5)引物序列与目标文件序列不存在相似性子序列;(6)引物序列自身不存在相似性子序列。大部分研究者7,12,13在目标文件DNA链两端添加1对引物序列,读取时只需要往合成池添加目标文件对应的引物即可。也有研究者9,10,18在目标文件序列两端添加多对引物序列,扩增目标文件时借助巢氏PCR或半
21、巢氏PCR技术,读取方式更灵活。随着数据库存储文件数量增多,基于特异性PCR扩增目标文件方法的弊端也逐渐显现,主要表现在2个方面:(1)目标文件扩增效率(文件保真度)会下降;(2)并行读取时扩增效率不均衡。Tomek等人10在引物序列端添加生物素等化学材料,特异性读取时通过磁珠分离提取目标文件DNA链,保障了目标文件扩增效率。但该方法价格高昂,目前难以大规模应用。Winston等人11提出了一种组合PCR引物特异性扩增方法,即通过更加严格筛选条件生成指定长度引物集合,目标文件DNA链两端添加两个特定引物组合。该方法提高了目标文件扩增效率(文件保真率大于99%),降低了文件读取成本。特异性PCR
22、检索目标文件方法的扩增效率如表1所示。在分子杂交读取目标文件的研究中,分子探针设计一般遵循如下原则:(1)长度介于10nt(单核苷酸)和50nt(单核苷酸);(2)GC含量介于40%到60%;(3)避免互补子序列;(4)无均聚物;(5)避免使用与非靶序列有70%以上同源或连续8个以上碱基序列相同的探针序列。如表3所示,Lin等人19开发了一个由T7启动子和单链悬垂结构组成的DNA存储读写体系。其中,单链悬垂结构用于访问目标DNA链,实现目标文件的特异性读取;T7启动子可实现文件重复访问。Banal等人17通过将存储文件数据的DNA链封装在表面用单链DNA条形码标记的不透水硅胶胶囊中,开发了一个
23、基于封装的DNA存储随机读取系统。Bee等人20通过深度学习模型对图像特征进行DNA编码,然后将要查询图片特征对应在模型中的DNA序列作为探针,实现了相似性内容图片搜索。上述基于PCR特异反应和分子杂交实现文件随机读取,均存在一个显著问题:相似文件具有相似文件元信息,文件精准访问困难。Tomek等人21通过切换不同的环境条件(DNA引物浓度和温度),提出了一种低分辨率图像(文件预览)和完整数据选择性访问的方法,提高了文件检索速度,降低了文件读取成本。3.2.2 文件复制DNA存储文件的复制是指文件DNA分子的扩增。与传统存储不同,DNA存储文件的复制支持并行复制且成本较低,不占据网络带宽。体内
24、存储通过借助细菌的增殖过程实现数据的拷贝2225,而体外存储通过对DNA链进行PCR扩增反应实现数据的拷贝。由于PCR反应本身具有偏置性26,27,不同DNA链的扩增效率不均衡。近年来有研究者使用乳液PCR技术(emulsionPCR,ePCR)7和恒温PCR技术28来实现数据DNA链的拷贝存储。与体外存储相比,体内存储依靠活细胞的基因组维持机制确保DNA分子高保真复制,具有更高的稳定性和DNA复制率,更适合长期存储,且复制成本更为低廉。2020年,Hao等人22提出了一种使用细菌装载寡核苷酸池DNA链并进行混合培养的数据存储方法。该方法培养的寡核苷酸库在连续5次传代中保持稳定(数据恢复率达到
25、98%以上)。同年,Chen等人29合成了一条长度达254kB(存储数据占比95.27%)人工染色体,支持数据在酵母体内稳定复制,实现了“酵母光盘存储”。然而,与体外存储相比,体内存储的存储密度偏低,且体内存储的数据信息稳定性依然缺乏明确的文献报道30。3.2.3 文件修改DNA存储中文件的修改是指对存储文件元信息或文件内容的DNA链部分片段进行的删除、替换等操作。DNA分子片段修改技术主要有DNA编辑技术,也有少量研究使用核酸分子杂交技术。目前用于DNA存储的主流DNA编辑技术有CRISPR-cas9基因组编辑技术31和重叠延伸PCR技术32,如图5所示。前者效率较高但价格昂贵,而后者价格则
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DNA 存储 文件系统 研究进展
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。