基于区域内读数段分类的插入_缺失基因组变异检测方法.pdf
《基于区域内读数段分类的插入_缺失基因组变异检测方法.pdf》由会员分享,可在线阅读,更多相关《基于区域内读数段分类的插入_缺失基因组变异检测方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第7期总第335期文章编号:1006-2475(2023)07-0013-07收稿日期:2022-11-22;修回日期:2023-01-10基金项目:国家自然科学基金资助项目(61902094);黑龙江省自然科学基金资助项目(QC2018082);黑龙江省普通本科高等学校青年创新人才培养计划项目(UNPYSCT-2018183)作者简介:李兰兰(1998),女,江苏徐州人,硕士研究生,研究方向,智能软件技术,变异检测,E-mail:lilanlan_;高建龙(1996),男,江苏泗阳人,硕士研究生,研究方向,生物信息学,E-m
2、ail:;通信作者:朱晓(1984),男,山东日照人,讲师,博士,研究方向:智能软件技术,生物信息,E-mail:;穆培政(1998),男,山东泰安人,硕士研究生,研究方向,变异检测,E-mailL:。0引言阐明基因组变异与物种内表型差异的关系一直是基因组学的重要目标。基因组变异包括单核苷酸变异(SNV)、小插入/缺失(indels,长度 0 then6SRCalculateScoreRatio(qi,pj);7if SR (E2-S2),所以选择a1作为A的读数段代表。接着,q从B中选择一条读数段代表。此时,b1与q的跨度区间交集为 S2,E3,跨度长度为E3-S2;b2与q的跨度区间交集为
3、 S2,E1,跨度长度为E1-S2,由于(E3-S2)(E1-S2),所以选择b1作为B的读数段代表。图2区域内读数段示例提取q和a1的跨度交集 S2,E3 内各读数段上的变异特征序列进行读数段比对,计算q与a1的得分比率 SR_a;提取 q和 b1的跨度交集 S2,E3 内各读数段上的变异特征序列进行读数段比对,计算q与b1的得分比率SR_b。根据得分比率的大小关系决定q加入哪个集合。q 与 a1的匹配向量 M=(0,0),得分比率SR_a为0。q与b1的匹配向量M=(1),得分比率SR_b为1。由于SR_bSR_a,所以q最终加入B。除了图2中待分类的读数段与A和B的读数段都存在跨度交集且
4、得分比率不相等的情况,还有另外3种可能的情况:1)当得分比率相等时的情况;2)当待分类的读数段与A或B都没有交集的情况;3)待分类的读数段只与A或B的其中一个集合中的读数段有跨度交集,与另一个集合中的所有读数段都无跨度交集时的情况。区域内读数段分类算法如算法2所示。算法2区域内读数段分类算法Algorithm 2:CIssifyReadSegmentsInRegion(R,A,B)Input:读数段集合R=q1,q2,qn,读数段集合A和BOutput:分类后的读数段集合A和B1(A,B)InitializeAandB(R,A,B);2if Bnull then3foreach qiR,i1
5、to n do4if qiAqiB then5aFindRepresentative(A,qi);6b-FindRepresentative(B,qi);7if SpanIntersection(qi,a)0 then8SR_aCalculateScoreRatio(qi,a);9if SpanIntersection(qi,b)0 then10SR_bCalculateScore Ratio(qi,b);11if SR_a SR_b then A.push_back(qi);12else if SR_a SR_b then B.push_back(qi);13else C:push_back
6、(qi);14else15if SR_a 0 then19SR_bCalculateScoreRatio(qi,b);20if SR_b SR_b then A.push_back(pj);30if SR_a SR_b then B.push_back(pj);31end32return(A,B)当区域内包含复杂杂合变异时,该算法可以综合考虑区域内读数段上变异特征的不同,将来自不同单倍体序列的读数段分离出来,从而减少不同单倍型读数段上变异特征的干扰。2插入/缺失变异检测在区域内的读数段分类后,对分组内的读数段进一步进行处理,即可从中检测出准确的插入/缺失变异信息。2.1读数段平滑文献 24 提
7、出了读数平滑,并指出读数平滑可以降低长读数的错误率,提高变异检测的精确度。本方法不需要对整条读数进行平滑,只需对区域内截取的读数段中的SNP以及不需要检测的小的indel进行平滑,可以减少IO操作的时间消耗。即对照参考基因组和BAM文件中每条读数的CIGAR信息,若CIGAR操作数为“M”,则直接将该序列替换为参考基因组的相应序列;若CIGAR操作数为“I”或“D”即该位置指示为插入或删除。对于插入,从读数段中删除该插入序列。对于删除,则需要对照参考基因组,从参考基因组中复制被删除的序列插入到读数段中。2.2读数段集合偏序比对和变异检测abPOA32对偏序比对算法进行了改进,使得比对速度有了大
8、幅提升。使用abPOA将平滑后的单个或2个读数段集合中的读数段分别进行偏序多序列比对以计算共识序列。获得共识序列后,使用 minimap233将这些共识序列比对到对应区域的参考基因组序列,获得比对结果(PAF)文件。通过分析PAF文件中的比对信息,获得插入/缺失变异的类型、大小和位置。获得这些变异特征后,需要进一步判断其准确性,以避免这些变异特征是由比对偏差带来的错误信息。具体方法是根据变异的类型、大小、位置,在该变异所在分类的读数段集合中重新搜索该变异。若能搜索到该变异,且支持该变异的读数段数量大于用户设定的数目,则认为该变异信息是准确的。RefLong readsRegion50D50D6
9、0I60I60IqS1E3a1E1E2ABS2a2b1b2S3S450D162023年第7期3实验及结果分析3.1数据选取将本文的插入/缺失变异检测方法命名为IDCall。为了验证本插入/缺失检测方法的有效性,本文在2组模拟数据集和1组真实数据集上对IDCall和另外5种基 于 长 读 数 的 变 异 检 测 方 法 Sniffles(v1.1.10)、SVIM(v1.4.2)、pbsv(v2.8.0)、Debreak(v1.0.2)和SVDSS(v1.0.4)的插入/缺失变异检测结果进行比较。3.1.1模拟数据集第1组模拟数据集使用SURVIVOR34工具集在人类参考基因组(hs37d5)的
10、1号染色体上以二倍体模式共模拟了 3199 个长度范围为 30 bp200 bp 的插入缺失变异,纯合变异与杂合变异的比率设置为0.4。使用长读数模拟器PBSIM35分别在模拟的2个1号染色体上生成CCS测序数据,测序深度为15 X。生成2组模拟测序数据后,分别使用ngmlr20将测序数据比对到参考基因组的1号染色体,生成比对结果SAM文件。使用samtools36将SAM文件转换为BAM格式,并对其进行排序。最后再使用samtools将2个测序深度为15 X的模拟的BAM文件进行合并。合并后的BAM文件的测序深度为30 X。为了进一步增大区域内杂合变异的复杂度,第2组模拟数据集在 1号染色体
11、的前 50 kb范围内共模拟了 100 个长度范围为 30 bp200 bp 的杂合插入/缺失变异。首先使用SURVIVOR以单倍体模式在1号染色体前50 kb范围内模拟了包含50个长度范围为30 bp100 bp的插入/缺失变异。同样,再模拟一个前 50 kb内包含 50个长度范围为 101 bp200 bp的插入/缺失变异的1号染色体。使用PBSIM分别在2 个模拟 1 号染色体上,生成测序深度为 15 X 的CCS测序数据。比对到参考基因组后,使用samtools将 2 组比对结果文件合并为测序深度为 30 X 的BAM文件。由于pbsv推荐使用pbmm237的比对结果作为输入,因此对2
12、组数据集的模拟测序数据,再分别使用比对工具pbmm2生成BAM比对文件,用于pbsv的输入。其他检测方法均同IDCall一样使用ngmlr的比对结果作为输入。此外,本文以 SURVIVOR 提供的模拟数据集变异检测结果VCF文件作为基准集。3.1.2真实数据集本文选取了使用PacBio HiFi测序技术的、测序深度约为30 X的、HG002人类二倍体基因组的1号染色体作为真实数据集。该基因组测序数据来自瓶中基因组(GIAB)联盟38,并使用DeepConsensus39进行校正。使用 ngmlr将测序数据比对到参考基因组(hs37d5)获得的比对结果文件作为 IDCall和除 pbsv外的其他
13、4种方法的输入。使用pbmm2将测序数据比对到参考基因组获得的比对结果文件作为pbsv的输入。此外,使用GIAB提供的v0.6 Tier 1基准集作为评估的基准集。3.2实验结果分析各检测方法运行在 6 核的 Intel Core i7-7800X3.50 GHz CPU 上。使用变异检测结果评估工具Truvari40将 SVIM、Sniffles、pbsv、Debreak、SVDSS、IDCall的插入/缺失变异检测结果与基准集进行比较,得到3个评价指标的评价结果。用TP_base表示基准VCF中匹配的变异数目,TP_call表示变异检测方法VCF中匹配的变异数目;FP表示检测方法VCF中不
14、匹配的变异数目,FN表示基准VCF中不匹配的变异数目,则 Truvari的 3个评价指标 Precision、Recall、F1的表达式如表2所示。此外,为了进一步评估IDCall的性能效率,增加运行时间(RT)和内存峰值(PM)作为评价指标。表1评价指标指标PrecisionRecallF1RTPM描述Precision=TP_call/(TP_call+FP)Recall=TP_base/(TP_base+FP)F1=2(RecallPrecision)/(Recall+Precision)运行时间,以分钟(min)为单位内存峰值,以吉字节(GB)为单位3.2.1模拟数据集评价结果在2组模
15、拟数据集上使用的Truvari命令为:truvari bench-b BASE-c COMP-o OUTPUT-fREFERENCE-r 100-p 0.00-s 30-S 21-sizemax 200。使用表1中的评价指标在第1组模拟数据集上对几种插入/缺失变异检测方法进行评价,评价结果如表2所示。表2第1组模拟数据集的评价结果方法SVIMSnifflespbsvDebreakSVDSSIDCallPrecision0.99081.00000.99870.99870.78170.9858Recall0.97280.90250.96370.97940.92780.9950F10.98170.9
16、4870.98090.98900.84850.9904RT1.462.372.5241.3935.691.70PM0.160.100.862.424.892.73从表 2 可以看到,Sniffles 的准确率是最高的,SVDSS 的准确率最低;IDCall 的召回率是最高的,Sniffles的召回率最低;IDCall的综合评价指标 F1值是最高的,SVDSS的 F1值最低。这表明 IDCall可以提高插入/缺失变异的敏感度,并且综合检测效果较好。在性能效率上,SVIM的运行时间最短,Debreak的运行时间最长;Sniffles占用的内存最小,SVDSS占用的内存最大;IDCall虽然占用了较
17、大的内存,但运行速度较快,具有较好的性能效率。使用表1中的评价指标在第2组模拟数据集上对几种插入/缺失变异检测方法进行评价,评价结果如表3所示。从表3可以看到,SVDSS、IDCall在准确率上都是最高的,SVIM的准确率最低;IDCall在召回率上是最高的,SVIM的召回率最低;IDCall的综合评价指标F1值是最高的,SVIM的F1值最低。这表明IDCall对于李兰兰,等:基于区域内读数段分类的插入/缺失基因组变异检测方法17计算机与现代化2023年第7期复杂杂合插入/缺失变异的检测效果较好。在效率性能上,IDCall的运行时间最短,SVDSS的运行时间最长;Sniffles占用的内存最小
18、,SVDSS占用的内存最大;IDCall保持了较好的性能效率。表3第2组数据集的评价结果方法SVIMSnifflespbsvDebreakSVDSSIDCallPrecision0.68890.98410.98840.88711.00001.0000Recall0.31000.62000.85000.55000.92000.9500F10.42760.76070.91400.67900.95830.9744RT1.162.292.144.4934.100.98PM0.130.070.862.204.932.773.2.2真实数据集评价结果插入/缺失变异基准集为v0.6 Tier 1基准集中的3
19、32个长度从 50 bp200 bp的插入/缺失结构变异。由于真实数据集中可能包含多种类型的结构变异,因此,对于可以检测多种类型的结构变异的变异检测方法,提取其变异检测结果VCF中的插入缺失变异,生成只包含插入缺失变异的VCF,用以与基准集进行比较。使用的Truvari命令为:truvari bench-b BASE-includebed INCLUDEBED-c COMP-o OUTPUT-fREFERENCE-r 1000-p 0.00-s 50-S 35-sizemax 200-passonly-giabreport。使用表1中的评价指标在真实数据集上,对几种方法的插入/缺失结构变异检测
20、结果进行评价,评价结果如表4所示。表4真实数据集的评价结果方法SVIMSnifflespbsvDebreakSVDSSIDCallPrecision0.81910.93860.92220.92170.92940.9381Recall0.95480.82830.96390.95780.95180.9578F10.88180.88000.94260.93940.94050.9478RT1.131.973.1912.9419.5211.88PM0.170.097.2750.972.942.81从表 4 可以看到,Sniffles 的准确率是最高的,SVIM的准确率最低;pbsv的召回率是最高的,Sn
21、iffles的召回率最低;IDCall的综合评价指标 F1值是最高的,Sniffles的F1值最低。这表明IDCall在真实数据集上的综合检测效果较好。在性能效率上,SVIM 的运行时间最短,SVDSS的运行时间最长;Sniffles占用的内存最小,Debreak 占用的内存最大;IDCall的内存消耗比较稳定,并且保持了较好的性能效率。3.2.3实验分析2组模拟数据集和1组真实数据集的实验结果表明,IDCall可以提高复杂杂合插入/缺失变异检测的准确度,具有较高的插入/缺失变异检测的敏感度和精确度,这表明本方法具有较好的插入/缺失变异检测效果。在性能效率上,IDCall 虽然占用了较多的内存
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 区域内 读数 分类 插入 缺失 基因组 变异 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。