基于RDB-RDF模式映射的数据转换方法研究.pdf
《基于RDB-RDF模式映射的数据转换方法研究.pdf》由会员分享,可在线阅读,更多相关《基于RDB-RDF模式映射的数据转换方法研究.pdf(17页珍藏版)》请在咨信网上搜索。
1、Hans Journal of Data Mining 数据挖掘数据挖掘,2023,13(4),335-351 Published Online October 2023 in Hans.https:/www.hanspub.org/journal/hjdm https:/doi.org/10.12677/hjdm.2023.134033 文章引用文章引用:高金,李征宇,孙平.基于 RDB-RDF 模式映射的数据转换方法研究J.数据挖掘,2023,13(4):335-351.DOI:10.12677/hjdm.2023.134033 基于基于RDB-RDF模式映射的数据转换方法研究模式映射的数
2、据转换方法研究 高高 金金,李征宇,孙李征宇,孙 平平 沈阳建筑大学计算机科学与工程学院,辽宁 沈阳 收稿日期:2023年9月3日;录用日期:2023年10月3日;发布日期:2023年10月11日 摘摘 要要 随着语义随着语义web的发展,现代的发展,现代web希望数据能够采用资源描述框架希望数据能够采用资源描述框架(RDF)的格式,这是一种机器可读的形的格式,这是一种机器可读的形式,能够在无需人工干预的情况下共享和重用数据。但是目前大多数数据仍然存储在关系数据库中,现式,能够在无需人工干预的情况下共享和重用数据。但是目前大多数数据仍然存储在关系数据库中,现有的将关系数据转换为资源描述框架的方
3、法由于映射不佳,未能产生预期的结果,因此,本文提出了一有的将关系数据转换为资源描述框架的方法由于映射不佳,未能产生预期的结果,因此,本文提出了一种基于种基于RDB-RDF模式映射的数据转换方法,从形式化定义出发,使用模式映射,借助于映射描述,结合模式映射的数据转换方法,从形式化定义出发,使用模式映射,借助于映射描述,结合数据物化和按需映射,避免数据全部转储的方法,使数据物化和按需映射,避免数据全部转储的方法,使SPARQL查询转换为查询转换为SQL查询时简单便捷,提高转换查询时简单便捷,提高转换效率和数据检索时间。此外本方法还对关系数据库进行了扩充,能够实现对象关系数据库转换为资源描效率和数据
4、检索时间。此外本方法还对关系数据库进行了扩充,能够实现对象关系数据库转换为资源描述框架。最后给出方法述框架。最后给出方法的整体思路,各项结果表明,新的方法既能够保持语义,又能够提高速度,实现的整体思路,各项结果表明,新的方法既能够保持语义,又能够提高速度,实现了比传统方法更加易于理解的映射方法。了比传统方法更加易于理解的映射方法。关键词关键词 按需映射,映射描述,按需映射,映射描述,RDB-RDF,SPARQL-SQL Research on Data Transformation Method Based on RDB-RDF Schema Mapping Jin Gao,Zhengyu L
5、i,Ping Sun School of Computer Science and Engineering,Shenyang Jianzhu University,Shenyang Liaoning Received:Sep.3rd,2023;accepted:Oct.3rd,2023;published:Oct.11th,2023 Abstract With the development of semantic web,modern web expects data to be in Resource Description Framework(RDF)format,which is a
6、machine-readable form that enables sharing and reusing data without human intervention.However,most of the data are still stored in relational data-bases,and existing methods for converting relational data to Resource Description Framework fail to produce the desired results due to poor mapping,ther
7、efore,in this paper,we propose a 高金 等 DOI:10.12677/hjdm.2023.134033 336 数据挖掘 data conversion method based on RDB-RDF schema mapping,using from formal definitions,schema mapping with the help of mapping descriptions,and combining data materialization and on-demand mapping,to avoid all data dumping,th
8、e method makes the conversion of SPARQL query to SQL query simple and convenient and improves the conversion efficiency and data re-trieval time.In addition,this method also extends the relational database,which can realize the conversion of object-relational database to resource description framewo
9、rk.Finally,the overall idea of the method is given,and the results show that the new method is able to maintain the semantics and improve the speed,and realize the mapping method which is easier to under-stand than the traditional method.Keywords On-Demand Mapping,Mapping Description,RDB-RDF,SPARQL-
10、SQL Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 近年来,语义 web 1成为了目前主要的学术研究之一,在语义 web 的基础之上许多关键技术都能更进一步发展,语义 web 的目的不仅仅是简单的提取原始数据,而是将数据连接在一起,利用添加元数据的方法来使
11、机器理解数据概念和不同数据间的逻辑关系2 3。同时将现实世界中的各种概念和实体以结构化的形式进行表达,让机器也明白数据的语义以及数据之间的关系。关系数据库是当前使用的最为广泛的一种数据库,各方面都具有很好的优势,但因为数据欠缺一定的语义能力,所以要把关系数据库转换为具有语义的资源描述框架,因此研究将关系数据库转换为资源描述框架有很好的研究价值。目前对于将关系数据库转换为资源描述框架的研究有很多,比较多采用的方法是W3C提供的DM 4(直接映射)和 R2RML 映射语言,其中 R2RML 是推荐标准,但这个方法需要手工编辑映射过程5,并掌握和使用各种映射工具和映射语言,还需对本体模型和数据库结构
12、等特别熟悉6 7 8 9。目前的传统方案所使用的映射方式实现的效率并不佳,甚至未能达到预期效果10 11 12 13,此外很多的转换方法是将整个关系数据库直接转换为 RDF 格式14 15 16,这样会造成占据存储空间大,转换效率低的问题,还需要对关系数据库间的模式信息进行进一步的分析并提取,来保证转换的数据的语义保持能力17,所以本文提出了新的方法基于 RDB-RDF 模式映射的数据转换方法从而实现关系数据库到资源描述框架的转换。本文避免了数据的全部转储,采用对用户的每个 SPARQL 查询转换为 SQL 查询的方式查询关系数据库并提取 RDB 数据的方法。此外,在转换时将实例和模式的关注点
13、分离开来,先利用二者形式化定义来完成基础的模式映射,并在映射过程中引入映射描述,从而简化转换过程。数据物化和按需映射相结合,逐步完成数据物化。2.相关概念相关概念 关系数据库(Relational database):实体和实体之间的联系的集合能够构成一个关系数据库,用行和列组成的二维表去管理数据,执行具体操作时使用 SQL 来实现。Open AccessOpen Access高金 等 DOI:10.12677/hjdm.2023.134033 337 数据挖掘 RDF(S):即元数据模型RDF(Resource Description Framework)和RDF模式(RDF Schema,
14、简称RDFS),能够在 Web 中描述任何有用信息,并且能够为这些信息赋予确定的语义。数据物化:数据物化是将静态源数据库转换为 RDF 表示的过程。描述了如何通过属于映射和三重映射将关系数据库转换为 RDF。生成的 RDF 知识库可以在三重存储中物化,然后用 SPARQL 进行查询18。按需映射:按需是动态的,只需要考虑当前的 SPARQL 19 20查询,只涉及 SPARQL 查询中指定的三元组的数据21。3.基于基于 RDB-RDF 模式映射的数据转换方法模式映射的数据转换方法 为了更好的保留数据的完整语义信息,更好的完成整个映射过程,本节通过关系数据库以及 RDF(S)的显著特点,提出二
15、者对应的形式化定义。3.1.形式化定义形式化定义 3.1.1.关系数据库的形式化定义关系数据库的形式化定义 关系数据库模式由关系模式(表的结构)和完整性约束两部分组成。在关系数据库模式这个内容中,实体和实体间的联系都是用关系来表示,关系模式定义了关系(表)的结构、属性(字段)及其数据类型等完整性约束的定义。定义 1:关系数据库模型可以用一个四元组来表示(),RDBMB C Inh Ins=。B 表示关系数据库中的基本概念的有限集。BTabColD=,Tab 表示的是关系数据库中的所有数据表有限集。Col 代表数据表中字段的有限集。D 表示数据类型的有限集。C 表示关系数据库中约束关系的集合。C
16、PconsFconsUconsNcons=,Pcons 表示所有主键约束的集合,Fcons 表示外键约束的有限集,Ucons 表示所有唯一约束的有限集,Ncons 表示所有非空约束的有限集。Inh 表示关系数据库中继承关系的有限集,InhSingleIMultiI=,其中 SingleI 表示所有单继承关系的集合,MultiI 表示所有多继承关系的集合。Ins 表示数据库中所有数据表存储实例数据的集合。3.1.2.RDF(S)模型的形式化定义模型的形式化定义 RDF 语句由 RDF 声明构成,每个声明由主语、谓语和宾语这样的三元组的形式表示。RDF Schema是一种轻量级的本体语言,能够提供
17、具有固定含义的建模语言,包括类和子类、属性和子属性、定义域和值域等约束情况。RDF(S)的形式化定义如下。定义 2:资源描述框架模型可以用一个三元组(),RMRB RA RI=来表示。RB 表示的是 RDF(S)所有基本属性的有限集,RBRCRDRP=。RC 表示了 RDF(S)中的所有类,RD 表示所有基本数据类型,RP 表示所有属性的集合。RA 表示 RDF(S)中的公理集合,是由两两不相交的集合来组成的。RACAxiomPAxiom=,类公理CAxiom 集中包含了本体中定义的所有类公理;属性公理 PAxiom 集中包含本体中定义的所有属性公理。RI 表示所有实例的有限集。全篇的关系数据
18、库以房地产对象关系数据库为依据,关系数据库中存储的数据表结构如图 1 所示。builds 表为建筑物盘,包含建筑物盘号 Id、开发商 builderCom 和项目名称 projectName;build 表为楼栋,包含楼栋号 Id、盘号 buildsId;project 表为项目表,包含项目号 Id、开发商 builderCom、项目名称 name 和项目日期 date;builder 表为开发商表,包含开发商 Company 和开发商所在地址 town;state 表为房屋状态表,包含房屋号 Id 和房屋状态 roomstate;takebuilds 表为关联关系表,buildsId 和 b
19、uilderCom 是该表的主高金 等 DOI:10.12677/hjdm.2023.134033 338 数据挖掘 键也是外键,作为外键分别指向表 builds 的主键和表 builder 的主键;house 表为房屋表,包含房屋号 Id,房屋地址 addr 和房屋楼层 floor;图中虚线框中的内容为 house 表的继承关系,分别为 commercial_house、residential_house 和 public_rental_house。Commercial_house 表代表商业房,包含房屋号 Id,房屋收益 earnings和房屋用途 use;residential_hous
20、e 代表住宅房,包含房屋号 Id 和房屋产权 property_right;public_rental_house为公租房,包含房屋号 Id,房屋居住权 residence 和房屋补贴 subsidy。Figure 1.Structure of relational database 图图 1.关系数据库的结构图 3.2.模式映射模式映射 整个系统的映射过程分为模式层面和实例层面进行转换,首先介绍模式层面的映射情况。3.2.1.RDF Schema 的构建规则的构建规则 根据关系数据库和 RDF(S)的形式化定义以及提取到的语义信息,提出构建 RDF Schema 的详细规则。在本节中 RDF
21、(S)模型利用提出的三元组(),RMRB RA RI=表示,关系数据库模型用(),RDBMB C Inh Ins=表示,表示映射过程。规则 1(基本实体表映射):()tbaseTabletRC 对于数据库中任意一个基本实体表可以直接映射成为 RDF Schema 中类。如图 1 中的 builder 表可以直接映射成为 RDF Schema 中的类,映射结果为:规则 2(继承关系映射):1 tSingleITableMultiITable AND()()211tparent ttRC AND()2tRC AND()()()12iCAxiomtt=对于任一包含单继承或者多继承关系的实体表,映射时
22、需要保留数据表包含的继承语义。以图 1 中commercial_house 表为例,该表是 house 表的子表。则保留继承语义时先按照规则 1 创建父表,再创建子表,并将子表与父表按照继承关系进行连接,映射结果为:高金 等 DOI:10.12677/hjdm.2023.134033 339 数据挖掘 规则 3(基础数据类型映射):cCol AND()()type cDcRP 如果数据表中的字段类型是基础的数据类型,那么这个字段就映射成为 RDF(S)中的数值属性,这个字段映射后的定义域为字段所在的数据表映射成为的类,值域为字段的数据类型。以 builder 表中包含的Company 属性为例
23、,该属性的数据类型是基础数据类型。映射结果可以表示为:规则 4(引用关系表映射):tReferenceTable AND)()(,FK t ctRC AND()cRP 引用表中包含外键约束的字段,可以看作是两个实体间的聚合关系。映射时可以将外键约束所在字段映射成为对象属性。例如 builds 表中的 builderCom 字段是该表的外键,指向表 builder 的主键,这时就将 builder 作为 builderCom 属性的属性类型,映射结果如下:规则 5(关联关系表映射):()()tRelationTableCol tRP 关联关系表达两个实体之间的关系,没有单独拥有的字段,所以直接映
24、射成为对象属性。如 takebuilds表,该表将不被映射成为 RDF Schema 类,而是将其映射成为 RDF Schema 中的对象属性,表达两个实体间的联系。外键引用的表即为该属性的定义域和值域,映射结果如下:3.2.2.RDF Schema 图的构建图的构建 接下来提出将关系数据库模式转换为 RDF 图的形式。RDF 图是以三元组的形式显现出来的,所以在高金 等 DOI:10.12677/hjdm.2023.134033 340 数据挖掘 关系数据库映射为 RDF 图的过程中,将满足以下映射规则(图 2 为映射规则的图式情况):1)数据库名称映射到命名空间。数据库的名称映射到 RDF
25、 名称空间;2)表名映射为主体。RDB 表的名称映射到 RDF 主体;3)列映射为谓词。RDB 表中的列映射到 RDF 图中的谓词;4)列值作为对象。Table.column 的单元格映射到 RDF 图的对象;5)行作为实例。RDB 表中的每一行都映射到其相应的 RDF 三元组。Figure 2.RDB-RDF mapping rules 图图 2.RDB-RDF 映射规则 谓词类型:要建立表之间的关系,需要同时使用主键和外键,有些情况下,表之间的关系没有明确指定,而是隐含为概念模式。根据谓词的功能,他们被分为属性谓词和链接谓词两种。整个关系数据库中的部分数据信息如表 1(a)(i)所示。1)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 RDB RDF 模式 映射 数据 转换 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。