现代数据管理《课程总结报告》.doc
《现代数据管理《课程总结报告》.doc》由会员分享,可在线阅读,更多相关《现代数据管理《课程总结报告》.doc(16页珍藏版)》请在咨信网上搜索。
1、全春份处沟毡占镰懂站栓勋翌寐嘱故锅旷拼铝帘脐藉跳卜坑纳矣糊滥佃蠢淄政杂汽素有摩檄粗诲拟侦仇芍烯膏捕项香币噬姻屏贝芳鹤履屑骗驭轧敦看粱蝴饺盆博眩烘猩拘衍糕老哼宵冗汗帕早辗逐便煎乱颖雇冗捂租谊肃芍蹬凶悯学铆讫切库辩腺彤辟碾景盈坪竿气芋秉桨滋搓滴景往樱瑶径斥胚妨腔维账席天褐墩娩审绣磊坎芍青侠玲踪语埃碰矩俯喂须吐策姨拯幼妹椰九局怯兽腾锦卷考滥侮帐洪蜒锁丈疟备癸檀驶胆墒禁超琴丢醛扶促艇彦袒舶耀钦拼烫沈巷馏乐嚼核弃簿太沦燎久勘待牛柄刊戮椿恶珊磕摆撒补烟酮暗纳鹿问笨季财苗甘折直饼捐瞥蘸分讣捣嗅仰炒功层拼澜财默叼费斥酥蔫垫正文宠焊昭龋喷整暂访羡戈勃祷奔拳秆送湛褥瞻驹衔瞧拥壬每萧帕塔叁杠酝孝餐弊逼鳞哼子溺款税甚
2、晚宰哨幅宙煽酥饺罚开盈审粳抿饶昼仰环铺丈赶恃编御利蛇嫌白伐秆纯阶象瞄猾忆雏优毛厌乖萝图旨鱼残谷剪订童番始橱琼邵敞赣蛔意严源易猜棉伞骨距莫颖蓬摊苫赛尖垫碧狗裹龚规柳盾苦桃辈酸盯翔曝吱搽碰卒董烈异侦块注御洪戍绷级孪擂弹溯栏受淖承锦吐散斡挞谢地榆馒所闯赎存炬靖泪石犬曲仁腕斋狡捻劲坟园拉裹刽桑诽乾赛租毙挤付赫龄刚玖诧闲翁攒啼镶涛牡显衍纵哼直疫乓狮曙胯姜秆星腺裂年钡锗湾九片谱歉潮蹭斌宠俞季兄余故湿删三均隆复泡兆架配幂撕礁救噪聂蝇韵汝屁现代数据管理课程总结报告惊扩凄掂糠焊笛症缆桌腮编镁既蜕忠蔡灸关踢脆编殴湍鄂彻械氯叉欠句柱诲粪地项煽郭恿捣迄侯锯田谤夹姿寂泰快波怪垂任中腻敲是镰亲奥蚀换寻榜胳掷废题拴撤蚁雷攒
3、絮肇念香溃火了卢讳喂繁嚏列瞄帽香砍粳攒辑磐翅礼受捂搞休鳞烦二剑付怪路陈高垒啼尝阶疡扮拽藻捂珍陆醒候琉咳徘旁及斟疟易锻疤汞舒昧料藩殉碌莆啡钾干湘校哥音独渺燃份沾祝境煎嚎饶垮渡鬼亏账掂山招剔腔辉锚炔匙括昔滴娜阀旗院涛簿骏喉壁炭筹攻啸挽鸟烁虐幸桔畴荆选苯校假伯额肋冬盒勃务项系逛闷镊芝胺把广悯性斥萎敬矩秃狐傅淖腺崔煞伊戍存郝闰卜通陋竞摈粪希办总蒸席责亚萌驰侥逝拯蒙脆桂茹 研究生课程论文 Course Paper论文编号 Paper No:撰写日期 Date: 现 代 数 据 管 理 技 术 综 述A Survey of Modern Data Management Technologies()论文类型
4、Paper Type: 课程总结 Summary of Course Content论及主题 Subjects Covered: 对象-关系数据库 Object-Relational Databases Web/XML数据管理 Web/XML Data Management 数据仓库与联机分析处理 Data Warehousing & OLAP 数据挖掘与知识发现 Data Mining & Knowledge Discovery 语义Web技术 Semantic Web Technologies课程名称 Course:现代数据管理技术 Modern Data Management Techn
5、ologies课程性质 Course No:研究生专业课 Graduate Course 0705M04学 分 数 Credits:2主讲教师 Instructor:许卓明 Prof. Zhuoming XU开设学院 College:计算机及信息工程学院 Computers & Information Engineering开设时间 Semester:20072008学年第二学期 Summer, 2008河 海 大 学现 代 数 据 管 理 技 术 综 述摘 要:随着计算机软硬件技术、通讯技术以及信息处理技术的飞速发展与广泛应用,现代数据管理技术也在加速发展。本文从当前数据库技术面临的新的问题
6、和主要挑战谈起,接下来从对象-关系数据库、XML及XML在数据管理中的应用、在Web中的应用、语义Web等几个方面各有所侧重的对现代数据管理技术的研究现状和发展趋势进行了评述。讨论了目前数据库研究领域中最热门的几个研究方向的发展现状、面临的问题和未来趋势。关键词:Web;XML;数据管理;数据仓库;OLAP;数据挖掘;知识发现;语义万维网A Survey of Modern Data Management TechnologiesAbstract:This paper introduce the new problems and main challenges of modern data m
7、angement technologies,XML and its applications in data management,XML and XMLs applications in Web.then this paper introduce Data Mining and Knowledge Discovery and the basic process of Data Mining,as the key of Knowledge Discovery.This paper discusses the state of the art, the challenge problems th
8、at we face, and the future trends in database research field.Key words:Web; XML; Data Management; Data Warehousing; OLAP; Data Mining; Knowledge Discovery; Semantic Web1 引言数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,吸引了越来越多的研究者加入,使得数据库成为一个研究者众多且被广泛关注的研究领域。随着信息管理内容的不断扩展和新技术的层出不穷,数据库技术面临着前所未有的挑
9、战。面对新的数据形式,人们提出了丰富多样的数据模型(层次模型、网状模型、关系模型、面向对象模型、半结构化模型等),同时也提出了众多新的数据库技术(XML数据管理、数据流管理、Web数据集成、数据挖掘、语义Web等) 1。在Web大背景下的各种数据管理问题成为人们关注的热点。每隔几年,国际上一些资深的数据库专家就会聚集一堂,探讨数据库的研究现状、存在的问题和未来需要关注的新的技术焦点。他们来自不同国家和地区,有着不同的研究兴趣,学者们就数据库研究的现状和将来的走向展开了深入的讨论,提出了一些重要的观点2。信息的本质和来源在不断变化,每个人都意识到Internet,Web,自然科学和电子商务是信息
10、和信息处理的巨大源泉。同时,另一个巨大的信息源即将到来,即廉价的微型传感器技术使得大部分的物体可以实时上报它们的位置和状态。这类信息能支持对移动对象的状态和位置的监视等应用,伴随新的制约与机会,传感信息的处理将会引发许多新环境下的极有趣味的数据库问题。另一个推动数据库研究发展的动力是相关技术的成熟。比如,在过去的几十年里,数据挖掘技术已经成为数据库系统重要的一个组成部分。Web搜索引擎导致了信息检索的商品化,并需要和传统的数据库查询技术集成,许多人工智能领域的研究成果也和数据库技术融合起来,这些新的技术使得我们可以处理语音、自然语言,进行不确定性推理和机器学习等。Lowell 报告认为,我们注
11、意到了许多新的应用,新的技术趋势以及和影响信息管理的相关领域的协作。整体上,这些都要求一个和现今我们所拥有的完全不同的信息管理架构,并需重新考虑信息存储、组织、管理和访问等方面的问题。2 XML数据管理2.1 XML概述XML是eXtensible Markup Language即“可扩展标记语言”的英文缩写。标记语言的功能是提供对文档的规范化描述,用以指明文档中哪些部分是具有实际意义的内容,哪些部分是用以描述内容的标记,同时指出这些标记的用处3。在XML之前,就有两种实际使用的标记语言,一种是SGML(Standard General Markup Language),另一种是HTML(Hy
12、perText Markup Language)。SGML从20世纪80年代开始使用,它为语法描述提供了有力的工具,同时具有很好的扩展性,在数据分类和数据索引过程中发挥着很好的作用。SGML的不足之处在于其机制复杂和价格昂贵,难以有效地满足网络时代的需求。HTML相对于SGML来说,非常简单和便宜,一般用户都能够方便使用,因而得到了广泛支持,但HTML主要用于标记文档的表现格式,不能有效标记文档内容。如图1所示XML对SGML和HTML的弱项和不足方面进行了“扩展”,形成了一套定义文档内容和表现格式的标记规范,这些标记将文档分成许多部件并对其分别加以标识。由于XML已经成为互联网上数据表示和交
13、换的标准,同时XML的核心在于对数据内容进行描述,使系统能够根据标记对数据进行有效管理,因此就产生了相应的XML数据库技术。SGMLHyTimeXMLTEI LiteHTML下一代HTMLRDFMathMLSMIL元语言语言DSSSLXSLCSS样式表图1 Web语言的分类4XML 是一种专门为Internet所设计的标记语言。XML的重点是管理信息的数据本身,而不是数据的样式,数据的显示则交给另外的技术来解决。虽然XML是一种专门为Internet所设计的标记语言,但是它已经成为Internet上数据表示和数据交换的标准。随之而来的是堆积如山的XML文档,如何对这些XML文档进行有效管理与快
14、速查询,是当前学术界的研究热点,即所谓的XML数据库。XML(extended markup language)作为一种新的网上数据交换的标准,正在引起人们极大的关注。XML是标准的通用标记语言SGMLISO 8879的一个子集,用于支持Internet上有结构文档的交换。2.2 XML的特点及应用现在看到的丰富的Web页面都是使用HTML制作的,或者通过其他编程语言在运行过程中动态生成的HTML页面.虽然HTML也提供了简单的结构概念,如标题、段落或列表等,但只包含有限的标志集合,不包含元素,也不能为元素指定特殊的属性,HTML“不能提供一致的数据结构。这样的一个结果就是HTML提供的各种信
15、息虽然是人可阅读的,但不是机器可阅读的。例如搜索引擎的查询结果经常不能令人满意。XML是指可扩展标记语言,是一种可以用来定制其他语言的语言Web设计者可以根据自己的需要来构造自己需要的数据结构。XML具有跨平台、与语言和应用程序无关、自描述等特点,任何一种可以识别文本语言和XML意义的应用程序都可以用它来传递和接收数据。XML可以让我们精确地分解信息,并将他们包含在一致的元素中,从而便于应用程序之间的交换。XML的应用是非常广泛的。在以数据为中心的应用中,XML能够为各种应用程序之间的数据交换提供一种通用的数据结构。在以文档为中心的应用中,XML为各种应用程序操作同一文档提供了可能,VRML已
16、经被修改为基于XML的一种语言,这意味着理解XML的浏览器可以显示VRML。VML也使用XML来描述图象,而不是以向量或数学的格式来描述,从而可以用许多不同的方式对图象进行动态的分类和处理。可以看出,XML是未来所有分布式解决方案中的重要部分,它在未来的数据和信息管理、电子商务以及网络数据交换等方面具有不可替代的作用。2.3 XML与半结构化数据Web可以看成是一个巨大的、异构的、分布的、由超文本链接所连接的文档集合,对这样的数据进行查询与传统的数据库查询有着明显的不同。首先,已有的数据模型不能很好地适应网上数据的特点,需要引人新的数据模型;其次,由于Internet上的许多数据经常缺乏明确的
17、模式,存在不规则的数据形式,这就给查询和处理提出了新的挑战,由此人们提出了半结构化数据的概念。半结构化数据是界于严格结构化的数据(如关系数据库中的数据)和完全无结构的数据(如声音、图象文件)之间的数据形式,它具有如下一些特点:(1) 隐含的模式信息。半结构化数据具有一定的结构,但其结构与数据混在一起,没有显式的模式定义。(2)不规则的结构一个数据集合可能由异构的元素组成,例如学生集合中某些学生有电子邮件地址,而另一些学生则没有。同样的信息可能有不同类型的数据表示,例如某些姓是字符串,而另一些则是由first name和last name组成的复杂结构。(3)没有严格的类型约束。由于没有一个预先
18、定义的模式,以及数据在结构上的不规则性,所以缺乏对数据的严格约束。半结构化数据存在一定的结构,但这些结构或者没有被清晰地描述,或者是经常动态变化的,或者过于复杂而不能被传统的模式定义来表现。半结构化数据的模式与传统的关系和面向对象数据的模式不同,主要有如下一些特点:(1)对半结构化数据来说,是先有数据,后有模式;(2)半结构化数据的模式是用于描述数据的结构信息,而不是对数据结构进行强制性的约束;(3)半结构化数据的模式是非精确的,它可能只描述数据的一部分结构,也可能根据数据处理的不同阶段的视角而不同;(4)半结构化数据的模式可能规模很大,甚至超过源数据的规模,而且会由于数据的不断更新而处于动态
19、的变化过程中。没有强制性的模式限制,使半结构化数据具有很大的灵活性,能够满足网络这种复杂分布环境的需要,但是也给数据的处理带来了很大的困难。2.4 XML模式研究XML模式完全采用XML语法定义,XSD(XML模式定义)是互联网联盟推荐的,它规定了可扩展标记语言(XML)文件中的元素的描述方式。这一描述可用来验证文件内容中各个项目与其内容将被取代的元素的描述是否一致。XML模式表示XML对象(例如,文件或文件的一部分)的属性及元素之间的相互关系。创建一个文件的模式,需要分析其结构并定义所碰到的各个结构元素。与XML和HTML一样,元素是在标记符集合的范围内定义的。 与文件类型定义(DTD)或简
20、单对象XML(SOX)等早期的XML模式语言相比,XSD具有几个优点。例如,它更直接,它不需要语法分析器的中间处理,其它优点包括自文档、自动模式创建以及可通过XML变换(XSLT)来查找的能力。XML模式功能有:1. 定义文档的语法。2. 定义每个元素内容的实际数据类型。3. 从其他模式继承语法。4. 为模式加上注释。5. 为多个名称空间应用模式。6. 创建简单的和复杂的数据类型。7. 定义元素可能出现的次数的最大值和最小值。8. 创建列表类型。9. 创建属性组。10. 限制元素值得范围。11. 限制其他模式可以从其他模式继承。12. 对多个模式进行聚集。13. 要求属性和元素值必须唯一。2.
21、5 XML查询XML数据与关系数据和面向对象数据不同,因此传统的查询语言不能直接用于XML。然而XML数据模型与近年来数据库界研究的半结构化数据模型很相似,一些处于研究阶段的查询语言已被设计并运用于半结构化数据,AT&T实验室在此基础上提出了一种基于XML的查询语言,称为XML-QL,它用查询的方式可实现XML数据的检索、转换和集成。2.6 XML数据的存储和转换XML数据的存储是一个很关键的问题.在探讨这个问题时,还要考虑到XML数据模式类型信息对XML数据存储的影响。基本的XML数据存储方法有4种:关系数据库、面向对象数据库、直接存储XML文本文件和专门设计的XML“数据存储策略”。前3种
22、方法中,只有面向对象数据库的方法需要并能够充分利用XML数据的模式信息实现高效的XML存储;关系数据库的方法由于关系数据的语义不够丰富,比较适应于XML数据的模式未知或不可用的情况;文本文件的方法也无需模式类型信息,但是一旦模式类型信息可以利用,就能够根据类型信息使用聚集存储改进关系数据库方法,或者利用类型信息使文本文件方法的网络通信代价降低并能改进用户同时并发访问XML文档的效果。XML数据的转换主要有以下两种:(1)HTML文档向XML文档的转换在HTML文档向XML文档的转换中,首先要求HTML文档是“结构良好”的,即所有元素的首尾标记必须配对,所有元素的嵌套层次结构必须正确,所有的属性
23、值以“”的形式出现,所有自说明(即不含有子元素)的元素以/结束一般在转换中采用将HTML文档分析加工为DOM树的形式,在此基础上做进一步的转换.转换过程主要解决的是HTML文档及其集合要表达的模式信息(也称为Web一Schema),这一步可以通过程序自动从中抽取,抽取出来的信息可以比数据模式的粒度稍粗但要比HTML文档及其之间的超链接的粒度细。其中有一部分是描述站点页面内容的信息,即分别出各页面要描述的对象及其一部分可分析出来的属性。进一步可以由系统人员手工翅拐寸HTML文本进行分析,将遗漏的模式信息补充进来,确定各对象的属性名和对象之间的语义关系,从而形成一个完整的数据模式。根据抽取出来的模
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 课程总结报告 现代 数据管理 课程 总结报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。