数据空间基础设施的技术挑战及数联网解决方案_罗超然.pdf
《数据空间基础设施的技术挑战及数联网解决方案_罗超然.pdf》由会员分享,可在线阅读,更多相关《数据空间基础设施的技术挑战及数联网解决方案_罗超然.pdf(12页珍藏版)》请在咨信网上搜索。
1、BIG DATA RESEARCH 大数据110数据空间基础设施的技术挑战及数联网解决方案罗超然1,2,马郓1,2,3,景翔1,2,4,黄罡1,2,51.数据空间技术与系统全国重点实验室,北京 100091;2.北京大数据先进技术研究院,北京 100091;3.北京大学人工智能研究院,北京 100871;4.北京大学软件与微电子学院,北京 102627;5.北京大学计算机学院,北京 100871摘要数据空间是网络空间从“以计算为中心”向“以数据为中心”转型的一种新形态,蕴含着变革性重大科技问题和换道超车创新机遇。类似互联网是网络空间的主要基础设施,数据空间也需要“以数据为中心”的新型基础设施,
2、其核心功能是实现数据的一阶实体化。从数据空间的视角出发,分析总结互联网、万维网和数字对象架构等主流技术体系对数据一阶实体化的支持和不足,给出数据空间基础设施的基本内涵与技术挑战。提出基于数据语用原理的数据一阶实体化方法,通过融合数字对象架构、分布式账本和智能合约等技术形成数联网解决方案,支撑互联网规模的数据空间基础设施构造和运行。关键词数据空间基础设施;数联网;数字对象架构;数据语用中图分类号:TP311 文献标志码:A doi:10.11959/j.issn.2096-0271.2023024Internet of data:a solution for dataspace infrastr
3、ucture and its technical challengesAbstractDataspace is the transformation of cyberspace from computing centric to data centric,which contains great technological issues and innovative opportunities.Similar to the internet,which is the main infrastructure of cyberspace,dataspace also needs a new dat
4、a-centric infrastructure,whose core function is to realize the first-class entity of data.From the perspective of dataspace,the supports and shortcomings of mainstream technologies such as the internet,the World Wide Web,and the LUO Chaoran1,2,MA Yun1,2,3,JING Xiang1,2,4,HUANG Gang1,2,51.National Ke
5、y Laboratory of Dataspace Technology and System,Beijing 100091,China2.Advanced Institute of Big Data Technology,Beijing 100091,China3.Institute of Artificial Intelligence,Peking University,Beijing 100871,China4.School of Software and Microelectronics,Peking University,Beijing 102627,China5.School of
6、 Computer Science,Peking University,Beijing 100871,China2023024-1111STUDY 研究2023024-2digital object architecture for the first-class entity of data were analyzed and summarized,and then the basic connotations and technical challenges of dataspace infrastructure were given.Finally,a first-class data
7、substantialization method based on data pragmatics was proposed.Based on this method,a solution called the internet of data by integrating digital object architecture,distributed ledger,smart contract,and other technologies was proposed to support the construction and operation of internet-scale dat
8、aspace infrastructure.Key wordsinfrastructure of dataspace,internet of data,DOA,data pragmatic0 引言互联网以开放式体系结构和标准化协议在物理网络之上构建了一个由主机(host)组成的虚拟数据传输网络,从而屏蔽了下层物理网络的通信细节,在异构的物理网络之上形成了全球一体化的网络空间。随着互联网的发展和大数据时代的到来,数据成了互联网中最具价值的资源,高效地发现、访问、使用互联网中的数据也成了用户对互联网的主要诉求。然而,互联网数据的分散性及互联网环境本身开放、动态、异构的特点,使得访问和使用互联网数据
9、面临协调成本高、责权利难保障,以及低效、易错、难复盘等挑战1。当前互联网“以计算为中心”的技术体系将计算资源视为一阶实体,围绕某个数据计算任务,以计算资源为中心调用所需数据,并临时性地赋予其身份标识,使其成为一个局部实体。在这个过程中,数据作为计算资源的附属,对外是不可见的,且其生命周期也会随着计算任务的结束而消亡,数据的价值通常被限定在一个个既定的计算任务之中2。随着大数据时代的到来,数据成了与计算资源同等甚至更重要的战略资源,大数据技术的发展将会在互联网和其他网络之上催生出一个虚拟的数据空间。数据空间是网络空间从“以计算为中心”向“以数据为中心”转型的一种新形态。数据空间以数据为一阶实体,
10、基于数据的自然属性构建数据的逻辑模型,并将其抽象为直接可见、可用的独立实体。一方面不依赖下层软硬件,软硬件环境的改变不会导致数据实体的变化;另一方面独立于上层应用,应用场景的变化不会导致数据自然属性的改变。数据空间“以数据为中心”的特征势必需要一套“以数据为中心”的新型基础设施将网络空间中资源的表征和组织从计算架构转变为数据架构,支撑数据的一阶实体化表达。万维网(World Wide Web,WWW)和 数 字 对 象 架 构(d i g i t a l o b j e c t architecture,DOA)是互联网环境下“以数据为中心”的两大主流技术体系。二者从各自的数据应用场景出发,以
11、超文本和数字对象的模型表示数据,赋予数据唯一的标识使其可直接访问,基于开放式软件体系结构组织数据,并通过标准协议规范数据的交互行为。经过数十年的发展,WWW和DOA已经在网络空间中形成了互联网规模的网页空间和数字出版物空间,支撑了大量的数据融合应用。本文从WWW和DOA切入,分析其需求动机和技术发展脉络,归纳总结数据空间基础设施的技术特征和关键挑战,进而提出一种数据空间基础设施解决方案数联网。BIG DATA RESEARCH 大数据1121 数据空间视角下的互联网、万维网和数字对象架构互联网面向计算机之间的数据传输场景,将计算机抽象为主机,以IP地址作为主机的识别符和地址,以传输控制协议(t
12、ransmission control protocol,TCP)建立起主机之间的虚拟通信链路,进而在链路中传输数据。在互联网的数据传输场景下,数据被抽象为计算机之间传输的数据包(packet),通过计算机之间的虚拟通道顺序传输。这种对数据的抽象并未将数据视为一阶实体,数据包依附于机器之间建立的传输通道,其生命周期也会随着TCP连接的释放而结束。数据的一阶实体化是数据空间的核心理念:一阶代表数据的直接性,即数据是直接可见、可用的,应用直接通过数据的标识访问数据而非通过接口调用等间接方式获取数据;实体代表数据的独立性,即数据是自然存在的,不依附于其他任何实体。“以数据为中心”的数据空间势必需要一
13、套“以数据为中心”的新型基础设施,构建一阶数据实体的资源模型和访问架构,将分散在网络空间中的数据资源有效组织起来,从而高效地发现、访问和使用数据。从数据空间的角度来看,WWW和DOA是目前互联网上两个主流的“以数据为中心”的技术体系,二者从各自最初的数据使用场景出发,逐渐泛化对目标数据资源的定义、扩展数据模型、演进系统架构,最终实现了互联网规模的数据发现、访问和使用。1.1 万维网:从网页到资源表征WWW诞生于1989年,当时就职于欧洲粒子物理研究所的 Berners-Lee T设计WWW的初衷是使实验组里各国的高能物理学家能通过计算机网络方便地传递、共享科研信息3。WWW将数据抽象为HTML
14、文档(网页),不仅包含了数据本身的内容,还包含视觉展示内容的语义标签。将浏览器/服务器架构作为系统实现的模型,并制定了用于二者间传输网页的HTTP 1.0协议,以可见、可读的文本作为HTML文档的序列化方式。在这个场景下,WWW解决的是人与人之间信息共享的问题,因此WWW的设计也主要侧重于如何便捷地公开数据及如何方便地浏览信息。对于数据提供方而言,仅需一台连接互联网的机器,将数据封装为HTML文档,并提供一个HTTP访问端口,即可公开数据。而对于数据使用方而言,仅需知道数据的统一资源定位器(uniform resource locator,URL),即可通过浏览器访问、使用目标数据。访问WWW
15、数据的前提是知道目标数据的URL。尽管可以通过网页之间的超链接跳转来发现新的网页,但随着WWW上信息规模的爆发式增长,如何高效地发现所需信息成为WWW面临的关键挑战。人与人之间信息的开放与共享是WWW的核心理念,因此WWW上绝大部分数据是公开可访问的文本数据。搜索引擎基于爬虫技术,通过网页之间的超链接爬取大量网页、建立文本索引并提供搜索服务,基本解决了WWW公开数据搜索、发现的难题。在WWW最初的基础设施系统架构中,并没有搜索引擎这一角色,然而随着WWW规模的增长,受高效发现数据的需求驱动,目前搜索引擎已经成了WWW不可或缺的一部分。随着WWW的进一步发展,人与人之间的信息共享已不是WWW的唯
16、一用途。如何使机器也可以利用WWW基础设施、2023024-3113STUDY 研究使用WWW数据,构建跨互联网的分布式应用,成为WWW的另一大数据使用场景。面向这一使用场景,WWW出现了两个技术发展方向:Berners-Lee T提出的语义网4(semantic web)及Fielding R T提出的表述性状态转移5(representational state transfer,REST)。语义网的思路是通过为网页添加机器可解释的语义标签,使网页的数据可以被机器解释、使用。REST则不再使用网页来表示数据,而是将WWW上的数据都抽象为资源,通过交换资源的表征(representation
17、)访问资源的内容、修改资源的状态。从实际发展的角度来看,REST无疑是更成功的技术方案,并且其设计理念也在HTTP1.1中得到了体现和标准化。REST是一种软件体系结构风格,其架构的核心约束包括以下几点:所有资源需要被资源描述符标识;所有访问资源的操作语义需要统一;对资源的操作通过交换其表征来实现;交换资源表征的消息需要是自描述的,包含所有本次交互所需的信息。Fielding R T在参与HTTP1.1协议制订和Apache服务器软件开发的过程中将REST风格应用其中:采用统一资源标识符(uniform resource identifier,URI)标识资源;基于HTTP1.1中定义的8种方
18、法统一表示对资源的操作语义;以XML或JSON这类机器可解释的格式交换资源表征。REST简洁、可扩展的设计理念及Apache软件的成功使REST成为目前Web上最主流的应用程序接口(application programming interface,API)标准。REST的成功得益于其与WWW的深度融合,但也受到了WWW技术体系的限制,具体如下。REST采用URI来唯一标识数据资源,然而URI扩展自DNS,本质上是对互联网机器的标识,当数据位置发生移动或机器域名失效时,URI对应的数据便无法访问。REST缺乏有效的数据发现机制,这一问题源自WWW的最初设计。搜索引擎为WWW解决了此问题。然而,
19、WWW中的数据是公开的、可索引的网页文本,REST中的数据则是抽象的资源,且REST缺乏网页超链接这种可以互相发现的机制,虽然有类似Programmable Web这类REST API注册平台,但该平台上注册的API数量也仅有24 000个左右,远远达不到应有的规模,并且该平台已于2022年10月31日停止运营。REST缺乏对数据提供方的权益保障机制,这一问题同样源自WWW的最初设计。WWW设计之初的目标是人与人之间的数据共享,其网页数据大部分是公开可访问的,因此并未有相应的机制保障数据提供方的权益。1.2 数字对象架构:从数字出版物到数字对象DOA起源于互联网发明人Kahn R E在1988
20、年主持的由美国国防高级研究计划局(Defense Advanced Research Projects Agency,DARPA)资助的数字图书馆项目6。该项目的主要目标是为美国大学的计算机院系搭建数字图书馆系统,以将其现有的技术报告电子化、接入互联网,并保证数字图书馆系统之间的互联互通。在该项目中,Kahn R E提出了一种信息基础设施的开放式体系架构,基于此架构实现的系统称为数字图书馆系统(digital library system,DLS)。DLS将数字化的文献视为数字出版物,如何保障出版物的知识产权是DLS设计主要考虑的问题之一。DLS中的数据管理核心子系统包括:为数字出202302
21、4-4BIG DATA RESEARCH 大数据114版物分配标识的注册系统、存储出版物实体的数据库系统、全局的出版物索引目录系统等。在DLS的设计中,数字出版物实体存储于所有者本地的数据库服务器,通过全网唯一的标识和全局的编目、索引服务,使用者可以发现、寻址并访问所需的数字出版物。此外,为了保证对数据的使用都在所有者的控制范围内,DLS提出了智能代理“Knowbot”的概念。智能代理是一个可以在不同DLS之间移动、执行的活动程序,DLS通过智能代理发现、使用数据。智能代理以数字出版物的标识为数据输入,在执行过程中根据所需出版物的标识移动至目标所在的数据库服务器,从本地访问目标数据,从而保证数
22、据的使用在其所有者的控制范围内。扩展数字出版物这一使用场景,将数字图书馆泛化为信息系统,将技术报告泛化为任意数据资源,Kahn R E在2006年提出了DOA的概念7。彼时DOA仅完成了数字对象全局标识解析系统的设计和实现,搭建了数字对象标识基础设施Handle系统,却遗留了大部分开放性问题有待解决。经过十余年的发展,DOA最终形成了包括1个模型、3个构件、2个标准协议在内的架构模型,具体如下。数据模型方面。DOA以数字对象为其体系结构中的基本元素抽象数据资源。一个完整的数字对象可以分为3个部分:标识、元数据、实体。系统构件方面。针对数字对象模型的3个组成部分,DOA提出了3个构件:数字对象标
23、识系统、数字对象注册表及数字对象仓库,分别用于管理数据的标识、元数据及数字对象实体。标准协议方面。DOA制订了两个标准协议,分别是:用于数字对象搜索和访问的协议DOIP8(digital object interface protocol)和分配、解析标识的数字对象标识解析协议DO-IRP9(digital object identifier resolution protocol)。起源于DLS的DOA,继承了对数据安全、权益相关方面的考量。首先,数字对象实体存储于由数据提供方控制的数字对象仓库中,对数字对象实体的访问均发生在数据提供方控制的环境下;其次,数字对象的标识可视作对数字对象实体的
24、引用,应用程序可以使用数字对象标识声明其所使用的数字对象,在执行时通过标识寻址到所需数字对象实体;最后,元数据和数字对象实体分离的结构使得即使在数字对象实体不可访问的前提下,也可通过元数据发现所需目标数字对象。目前,数字对象标识解析系统和DO-IRP已有较大规模应用,支撑了覆盖全球的Handle系统的建设与运行,催生了如数字出版DOI系统10、中国工业互联网标识解析系统等多个大规模标识解析应用11。但数字对象仓库系统、注册表系统及DOIP由于推出时间较晚,暂时还未得到非常广泛的应用。作为目前互联网环境下主流的数据空间基础设施,WWW和DOA由于各自的起源不同,二者技术和协议的侧重点也有所不同,
25、信息的开放、共享是WWW的主要目标,而如何保障数据所有者的权益则是DOA主要关注的问题。2 数据空间基础设施的基本内涵与技术挑战数据空间是网络空间从“以计算为中心”向“以数据为中心”转变的新形态,是构建在互联网及其他网络之上的一体化虚拟空间,其基础设施的首要目标是能在互联网规模上以一阶实体的形式有效组织并2023024-5115STUDY 研究高效使用分散在网络空间中的数据资源。然而,互联网开放、复杂、动态、难控的特征给数据空间基础设施带来了巨大的挑战。作为目前能够在互联网规模上实现数据发现、访问的主流技术体系,本文通过对WWW和DOA的分析,归纳总结了两条技术路线的共同技术特征,为数据空间基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 空间 基础设施 技术 挑战 联网 解决方案 超然
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。