全国服务热线 4001334566
语言
关于我们

Company Profile

[行业动态]数据基础设施关键技术发展现状与挑战

01-29

2006年,三位图灵奖得主不约而同提出了面向第四范式的数据基础设施的相关工作。图灵奖得主、数据库先驱吉姆•格雷总结提出了实验、理论、计算模拟和数据密集等四种科学研究范式,指出数据密集型第四范式科研需要支持所有科学文献和数据均可在线访问和互操作的使能工具和设施。图灵奖得主、TCP/IP联合发明人罗伯特•卡恩在其牵头的美国数字图书馆项目基础上提出了实现互联网上各种数据资源互操作与管理的数字对象架构,并给出了以数据标识互联网络为代表的参考实现。图灵奖得主、万维网发明人蒂姆•伯纳斯-李提出了将万维网从文档互联演进为数据互联的链接数据架构设计。2009年,高性能和并行计算领域先驱戈登•贝尔在第四范式首部专著的序言中指出应该大力建设面向第四范式的数据基础设施。

随着以大数据和人工智能为代表的数据密集型第四范式从科学研究拓展到各行各业并成为数据应用的主流模式,数据成为继土地、劳动力、资本、技术之后的第五大生产要素,数字经济甚至数据经济正在成为新的经济形态,数据基础设施也随之成为产学研用各界关注的焦点和热点。数据基础设施目前尚无共识定义,但参考以互联网为代表的信息基础设施,应具备三种关键技术能力:数据互联(Interconnection of Data),即不同系统之间建立数据连接以发现和定位数据的能力;数据互通(Interexchange of Data),即不同系统基于数据互联以交换和调度数据的能力;数据互操作(Interoperation of Data),即不同系统基于数据互联互通以使用数据的能力。

为了更加系统化地调研和思考数据基础设施的关键技术和挑战,本文采用国家数据局2023年11月给出的数据基础设施的定义:从数据要素价值释放的角度出发,在网络、算力等设施的支持下,面向社会提供一体化数据汇聚、处理、流通、应用、运营、安全保障服务的一类新型基础设施,是覆盖硬件、软件、开源协议、标准规范、机制设计等在内的有机整体。如图1所示,一方面,以万维网为代表、面向计算模拟型第三范式的数据基础设施难以表征和有效支撑第四范式的数据价值释放模式。另一方面,数字对象架构、链接数据、区块链、国际数据空间等新型数据互联、互通、互操作技术经过长期研究与实践,特别是近期在众多具体场景的集成应用,逐渐形成面向第四范式的数据基础设施新形态——可称之为数联网(Internet of Data),进而推动基于互联网和万维网的网络空间(Cyberspace)从“计算为中心”向“数据为中心”转型,并衍生出基于互联网和数联网的数据空间(Data Space)。数据空间可认为是多个主体的数据及其关系的集合,这些主体遵循共同的规则和约束,通过对数据的运算,完成预期的目标,实现数据的价值。

图片

面向计算模拟型第三范式的数据基础设施关键技术

科学研究第三范式是指基于计算模拟的科学探索,研究者通过编写、运行计算程序来模拟、仿真真实世界中的复杂现象,从而开展科学探索和科学验证。科学研究第三范式具有两个典型特征:一是“人在回路中”,从程序编写、数据准备到计算验证、结果整理,研究者需要频繁的与计算机交互并完整的参与到科学研究的全流程;二是“计算为中心”,计算程序是科学探索的核心,数据、存储、计算、网络等资源均围绕着计算任务进行组织、调度,数据仅是计算程序的输入。在第三范式阶段,不仅科研领域,互联网及网络空间上的大多数应用模式也都具备相似的特征,涌现出了CORBA、J2EE、SOAP等面向第三范式的数据互联互通互操作技术,并最终形成了以万维网为主的第三范式数据基础设施。

万维网诞生于1989年,其发明人蒂姆•伯纳斯-李的初衷是为了使欧洲粒子物理实验室(CERN)在世界各地的高能物理学家通过互联网方便地共享、浏览科研信息。万维网将数据抽象为网页,基于URL标识并定位网页并支持网页之间基于URL的超链引用,实现了网页数据的互联;在此基础上,将浏览器/服务器架构作为系统实现的模型,并制定了用于二者间传输网页的HTTP协议,实现网页数据的互通;最后,基于人类可见、可读、可交互的HTML描述网页,以人机交互的形式实现了网页数据的互操作,整体上构成了一张由上万亿网页组成的共享信息网,形成了互联网上最主要的应用生态,而以相关技术为核心的网站服务器、搜索引擎、DNS服务器等也共同构成了如今互联网上最主要的数据基础设施。

面向数据密集型第四范式的数据基础设施关键技术

与第三范式相比,第四范式科学研究具有两个明显差异:一是“人在回路旁”,海量的原始数据会先由软件程序进行处理形成有效信息,再由研究者对信息进行研究形成知识,整个过程中研究者的参与度大幅降低,程序对数据的处理几乎不需要研究者的过多投入,特别是随着机器学习技术的发展,程序本身已经逐渐具备自主产生知识和智能的能力,研究者只需在旁观测并进行必要的干预即可完成科学探索;二是“数据为中心”,数据取代算法成为科学研究最关键的要素,算法的设计、软件的运行、资源的调度都围绕着研究者所拥有的数据资源进行,数据的规模、内容和质量也将直接影响到研究进程及成果质量。

上述两个差异导致第四范式的数据互联、互通、互操作技术面临新的挑战并产生了众多理论和技术创新,如表1所示。

图片

数据互联技术:数据发现与定位

第四范式数据互联技术主要关注如何准确地发现和定位海量的数据资源。

(1)互联网发明人罗伯特•卡恩提出的数字对象架构,将数据资源封装为数字对象并分配唯一标识,由层次化的标识解析系统管理数字对象标识信息,基于IRP协议解析标识对应数字对象的权限、位置等状态信息。

(2)万维网发明人蒂姆•伯纳斯•李提出的链接数据基于统一资源标识符URI标识数据,支持基于URI的模式字段来选择DNS或其他标识服务解析URI对应数据所在位置。

(3)北京大学融合数据语用机理和数字对象架构提出了数字对象语用网,基于数据场景化的目的和效用来表征和利用第四范式下数据的价值。在数据定位方面,数字对象语用网以数据地址编码数字对象,同时基于分散式的地址系统寻址、定位数字对象;在数据发现方面,数字对象语用网基于场景化的数据语用关系建立数字对象之间的语用链接,并构建一张数字对象相互连接的语用网络,以支持面向场景的数据发现与探索。

数据互通技术:数据交换与调度

第四范式数据互通技术主要关注数据在交换、调度过程中的数据权益、数据安全及监管等问题。

(1)数字对象架构基于数字对象接口协议(DOIP)来实现泛在环境下的数据调度,DOIP协议规定了多个基本的数据调度接口,并内置了数据可靠、安全、隐私保障机制,支撑数据在泛在、异构网络上的统一调度。

(2)欧盟国际数据空间(IDS)协会提出的IDS是一套标准的数据共享交换架构,基于中心化的身份认证中心保证参与主体的身份可信,基于标准化的连接器实现异构系统之间的数据交换,基于数据使用策略来管理数据访问权限,保障数据主权。

(3)中国信通院提出的可信数据空间(TDM)是对IDS架构的扩展与增强,在IDS架构的基础上增加了服务方、监管方等参与主体,同时将隐私计算、区块链等技术集成在IDS架构中,保障数据交换过程中的安全与可信。

(4)起源于比特币的区块链技术可以用于实现数据交换、流通过程中的监管。区块链所采用的哈希链数据结构能够保证数据交换记录的不被篡改,从而实现数据交换的事后审计和监管。

(5)中国移动提出的数联网(DSSN)是一种基于隐私计算和区块链的数据要素服务专业网络,以“连接+算力+能力”的一整套基础设施提供低成本、高效率、可信赖的数据流通环境。

数据互操作技术:数据访问与使用

第四范式数据互操作技术一方面关注数据使用过程中的隐私、安全等问题,同时也在试图让机器能够更好地理解、使用数据。

(1)语义网是链接数据技术体系中的一部分,针对计算机使用数据的需求,以机器易于解释的RDF文档描述数据并为数据内容增加标准化的语义标签,从而使得机器也能理解数据内容。

(2)数据混搭针对多源数据的融合使用问题,面向一个具体的应用场景,基于简单的开发工具将已有的多个数据API进行糅合并形成一个新应用,从而产生新的价值。

(3)起源于以太坊的区块链智能合约技术大多用于解决数据使用过程中的可信问题。智能合约以明文的方式描述数据使用方式,以多主体共识的方式执行数据使用过程,从而保障数据的使用符合预期。

(4)隐私计算是指以实现对数据的“可用、不可见”为目的,在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合。隐私计算通常包括多方安全计算、可信计算环境、数据沙箱、联邦学习等技术,能够保证数据在使用过程中的隐私和安全。

数联网:第四范式数据基础设施的新趋势、新形态

归纳、总结现有数据基础设施技术可以发现,其技术路线大致可分为两种:一是对以万维网为代表的第三范式数据基础设施技术的缺陷“打补丁”,针对性地解决其在数据互联、互通、互操作上的安全隐私和管控合规等问题,如可信数据空间、隐私计算、区块链等技术;二是构造新的第四范式数据基础设施技术体系,原生支持数据密集型科学探索与数据应用,如数字对象架构、链接数据等,并在此基础上融合区块链、隐私计算等安全可信技术。

当前,面向第四范式的数据基础设施技术尚处于百花齐放的混沌期,不同的技术路线、技术方案各有优势也各有不足,尚未形成像第三范式万维网一样的代表性技术体系。回顾历史,万维网也并非一直是第三范式数据基础设施技术的唯一选择,SOAP、FTP、BT等技术都发挥过各自在数据发现、流通、使用上的价值,第三范式数据基础设施技术也曾经历过从混沌到共识的转变。我们认为,随着大数据、人工智能、数字经济和数字社会的发展,数据基础设施的不同技术路线、技术方案会相互竞争、相互融合,最终会形成第四范式数据基础设施技术体系的共识,将在互联网上形成像万维网一样的数据基础设施主要形态——可以称之为“数联网”,推动“计算为中心”的网络空间向“数据为中心”的数据空间发展演进。数联网的形成与发展需要“政产学研用金”各界的共同探索与实践。

本文刊登于IEEE Spectrum中文版《科技纵览》2023年12月刊。

Copyright © 2011-2023  北京天华中威科技有限公司 版权所有 京ICP备2023011416号-1 All Rights Reserved