DNA压缩及模式匹配研究平台.doc
《DNA压缩及模式匹配研究平台.doc》由会员分享,可在线阅读,更多相关《DNA压缩及模式匹配研究平台.doc(21页珍藏版)》请在咨信网上搜索。
1、序号: 编码: 第十届“挑战杯”广东大学生课外学术科技作品竞赛作品申报书 作品名称: DNA压缩及模式匹配研究平台 学校全称: 华南农业大学 申报者姓名 (集体名称): 刘少鹏 类别:自然科学类学术论文 哲学社会科学类社会调查报告和学术论文 科技发明制作A类 科技发明制作B类 说 明1申报者应在认真阅读此说明各项内容后按要求详细填写。2申报者在填写申报作品情况时只需根据个人项目或集体项目填写A1或A2表,根据作品类别(自然科学类学术论文、哲学社会科学类社会调查报告和学术论文、科技发明制作)分别填写B1、B2或B3表。所有申报者可根据情况填写C表。3表内项目填写时一律用钢笔或打印,字迹要端正、清
2、楚,此申报书可复制。4序号、编码由第十届“挑战杯”广东大学生课外学术科技作品竞赛组委会填写。5学术论文、社会调查报告及所附的有关材料必须是中文(若是外文,请附中文本),请以4号楷体打印在A4纸上(文章版面尺寸14.522cm),附于申报书后,论文不超8000字,调查报告不超15000字。6作品申报书须按要求由各校竞赛组织协调机构统一寄送。7其他参赛事宜请向本校竞赛组织协调机构咨询。A1申报者情况(个人项目)说明:1必须由申报者本人按要求填写,申报者情况栏内必须填写个人作品的第一作者(承担申报作品60%以上的工作者);2本表中的学籍管理部门签章视为对申报者情况的确认。姓 名刘少鹏性别男出生年月1
3、984年9月申报者情况学校全称华南农业大学专 业计算机应用现学历硕士生年级二年级学制 3年入学时间2007年9月作品全称DNA压缩及模式匹配研究平台毕业论文题目基于多核技术的DNA序列模式匹配研究通讯地址华南农业大学研究生宿舍6栋904邮政编码510642单位电话13450363335常住地通讯地址广东省潮州市潮安县磷溪镇溪口四村邮政编码521000住宅电话07686705793合作者情况姓 名性别年龄学历所在单位资 格 认定学校学籍管理部门意见 是否为2009年7月1日前正式注册在校的全日制非成人教育、非在职的各类高等院校中国学生(含专科生、本科生和研究生)。是 否若是,其学号为:20072
4、42019(部门盖章) 年 月 日院系负责人或导师意见 本作品是否为课外学术科技或社会实践活动成果 是 否 负责人签名: 年 月 日B3申报作品情况(科技发明制作)说明:1必须由申报者本人填写;2本部分中的科研管理部门签章视为对申报者所填内容的确认;3本表必须附有研究报告,并提供图表、曲线、试验数据、原理结构图、外观图(照片),也可附鉴定证书和应用证书;4作品分类请按照作品发明点或创新点所在类别填报。作品全称DNA压缩及模式匹配研究平台作品分类( B )A机械与控制(包括机械、仪器仪表、自动化控 制、工程、交通、建筑等) B信息技术(包括计算机、电信、通讯、电子等) C数理(包括数学、物理、地
5、球与空间科学等) D生命科学(包括生物、农学、药学、医学、健 康、卫生、食品等) E能源化工(包括能源、材料、石油、化学、化 工、生态、环保等)作品设计、发明的目的和基本思路,创新点,技术关键和主要技术指标一、目的生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,其实质就是利用计算机科学和网络技术来解决生物学问题。二十世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,包括NCBI, EMBL, GDB等DNA数据库的数据量,每年以两到三倍的数量增加。存储DNA数据需要耗费巨大的空间。因此,如何对DNA数
6、据进行压缩,以减少存储空间将是生物学家和计算机专家面临的挑战。通常DNA序列长度可达到上千万个碱基对,并且具有特殊性,仅由A、C、G、T四个字母组成,这导致传统的数据压缩算法在DNA序列压缩效果不理想。于是,必须研究专门针对DNA序列数据的压缩算法:DNA压缩算法。在生物学家对DNA序列数据的使用中,序列比对是生物信息学中最基本、最重要的操作之一。从实现的理论和技术上讲,DNA序列比对的实质是一种特殊的模式匹配,而直接在压缩后的DNA数据上进行序列比对其实质则是一种特殊的压缩模式匹配,即DNA压缩模式匹配。为了更好地研究DNA压缩算法和DNA压缩模式匹配算法,需要建立一个相关的研究平台,即DN
7、A压缩及模式匹配研究平台。该平台主要用于管理和增加DNA压缩算法和DNA压缩模式匹配算法,存储DNA序列数据、DNA压缩数据,能实现各算法效果的比较试验,验证算法有效性,从而为生物信息学研究人员提供方便。二、基本思路采用Java面向对象编程技术,建立一个不依赖具体操作系统的DNA压缩和DNA压缩模式匹配研究的专用平台;并利用该平台,结合DNA序列数据的特点,研究DNA序列数据压缩现有算法和提出新的算法,以有效减少DNA数据所占用的存储空间;研究出专门针对DNA压缩数据的压缩模式匹配算法,以解决在不对DNA序列压缩数据解压缩或最小解压缩的情况下实现序列比对功能。该平台主要由DNA序列获取、DNA
8、序列压缩、DNA压缩模式匹配三大模块组成。在实现中遵循模块化的系统开发原则,使得平台构建符合高内聚、低耦合特点。三、创新点1、可扩展利用面向对象的Java技术而建立的专业的生物信息学研究平台,可持续地开展DNA压缩算法和DNA压缩模式匹配算法的研究。具体地说,平台的可扩展性体现在以下两方面:一是有意义明确的包,尤其是包matching和compress,分别管理匹配和压缩算法,平台使用人员能够自己开发新算法,并加入到其中。二是GUI界面都是用Swing组件写成的,每个面板的功能都是相当明确,其中负责压缩信息处理的CompressPanel和负责模式匹配的MatchingPanel就是很好的体现
9、,它们分别调用包matching和compress里面管理的算法,若平台使用人员需要研究自己开发的新算法,在相应的面板调用即可。举例说明,如果平台需要增加一个新的压缩算法,那么我们要把这个压缩算法设计为一个类,接着把它放到包compress中,再在树状选择压缩算法面板CompressPanel中,为用户增加一个新的选项,即可完成扩展。如果平台需要增加一个新的匹配算法,那么我们要把这个匹配算法设计为一个类,把它放到包matching中,再为用户在树状选择匹配算法面板MatchingPanel增加一个新的选项,即可完成扩展。2、减少DNA序列存储空间参考文本压缩算法思想,根据DNA序列数据特点,研
10、究专门用于压缩DNA序列数据的DNA压缩算法。DNA压缩算法可以高效地压缩DNA序列数据,极大地减少DNA序列数据所占用的存储空间。3、DNA序列比对研究利用压缩模式匹配的思想,根据DNA序列数据的特点,专门研究在对DNA序列压缩数据不解压缩或最小解压缩的情况下,直接在DNA压缩数据中实现DNA的模式匹配,能有效缩短匹配搜索时间,为DNA序列比对研究提供高效率的帮助。目前我们采用多线程技术,设计了基于BM匹配的MTd-BM及MTd-Hosrpool压缩模式匹配等算法,并已将它们集成到平台。4、直接使用压缩DNA数据研究不是把DNA序列数据压缩减小存储空间作为唯一目标,而是把直接有效地利用DNA
11、序列压缩数据作为更重要的目标。四、技术关键1、面向对象的Java技术使得该平台不依赖操作系统和具体机型,因此可运行在小型机、高级服务器、PC台式机、笔记本电脑和Unix、Solaris、Windows和Linux等环境。2、多线程技术在Java中,程序通过流控制来执行程序流,程序中单个顺序的流控制称为线程,多线程则指的是在单个程序中可以同时运行多个不同的线程,执行不同的任务。多线程意味着一个程序的多行语句可以看上去几乎在同一时间内同时运行。3、Swing技术Swing组件被称为轻量级组件,是由纯Java code开发的,它不需要那些关于各种平台的复杂的GUI功能,解决了Java因为窗口类而无法
12、跨平台的问题,并且不会占有太多的系统资源。Swing组件对比AWT组件具有更大强度的可移植性和灵活性。4、Log4j写日志技术Log4j是Apache的一个开放源代码项目,通过使用Log4j,可以对日志信息的级别、输送目的地和输出格式进行控制。具备详细的日志记录功能,才能更好地保证平台的正常运行。五、主要技术指标1、软件平台用户界面友好、可扩展性、可维护性以及健壮性。2、DNA序列数据压缩算法压缩比,该值越小,算法的压缩效果越明显。其计算方法为:DNA序列数据压缩前后的字符总数的百分比值。3、DNA序列压缩模式匹配算法算法运行效率(越快越好)、搜索比较字符操作次数(越少越好)。作品的科学性先进
13、性(必须说明与现有技术相比、该作品是否具有突出的实质性技术特点和显著进步。请提供技术性分析说明和参考文献资料)作品的科学先进性体现在下面四点:1、研究DNA压缩算法和DNA压缩模式匹配算法具有重要意义,该平台为生物信息学相关研究人员的工作提供便捷。开发新算法,再通过平台集成,验证,比较分析一系列处理,研究人员将从中获益。该作品的实质性技术特点和显著进步体现在自己开发的DNA压缩模式匹配算法,已集成在平台上。作者通过平台的使用,能够对开发的新算法与传统算法进行比较分析,并取得一定成果,已分别在中文核心期刊和国际会议发表学术论文两篇。(1) 刘少鹏, 林丕源, 张丽霞, 刘吉平基于多线程技术的d-
14、BM改进算法计算机应用研究, 2008, 25(11): 3299-3301 (中文核心期刊)(2) Lin Piyuan; Liu Shaopeng; Zhang Lixia. Compressed Pattern Matching in DNA Sequences using Multithreaded Technology. The 3rd International Conference on Bioinformatics and Biomedical Engineering (iCBBE 2009), June 11-13th, 2009, Beijing, China. (将被EI
15、检索)2、采用java面向对象编程技术,具有良好的平台无关性及功能可扩展性。3、目前国内外针对DNA压缩算法和DNA压缩模式匹配算法的平台不多。4、参考文献如下,主要有DNA压缩算法和DNA压缩模式匹配算法等国内国外论文,请查阅。1 Don Adjeroh, Yong Zhang, Amar Mukherjee, Matt Powell, Tim Bell, “DNA Sequence Compression Using the Burrows-Wheeler Transform, ” csb, pp.303, IEEE Computer Society Bioinformatics Conf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DNA压缩及模式匹配研究平台 DNA 压缩 模式 匹配 研究 平台
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Fis****915】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Fis****915】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。