[技术前沿]协作边缘计算:一种人工智能计算新范式
人工智能因其对工业和社会数字化、智能化的变革作用而受到全球范围内的广泛关注。过去十年,云计算已成为人工智能应用的通用计算范式。未来,人工智能计算范式将从集中式的云走向协作式的边缘计算。
计算范式的迁移:从云到边
云计算是一种计算范式,它把物联网(IoT)设备(手机、可穿戴设备、智能家电、智能汽车等)产生的数据收集到远程云数据中心,并通过相关算法(例如人工智能模型)来分析数据并提供服务。过去十年,云计算已成为人工智能应用的关键使能技术,为智能医疗、智能家居,智能交通等诸多应用赋能。然而,由于大量数据传输到远程云端,云计算存在响应延迟长、带宽成本高等问题。除此以外,部分数据私密程度较高,如医院、银行、个人手机数据等。传输这些数据到云计算中心容易造成隐私泄露风险。
为了解决以上问题,边缘计算(Edge Computing)的概念在近几年被提出。它是一种将计算和资源放在网络的边缘,在更靠近数据源的边缘节点(例如智能手机、边缘网关、边缘服务器、基站等)上处理数据的一种计算范式,能够为新时代的多种人工智能应用提供更低时延和更安全的服务。服务从云平台到边缘节点的这次迁移,也代表了计算模式的新一次蜕变。
20世纪70年代,大型机(Mainframe Computing)是主流的计算设备。其体积巨大,甚至能占据整栋办公楼。到了80年代,个人电脑(PC)开始出现,我们用个人电脑处理日常数据。新世纪后,以亚马逊2005年发布云服务为标志,我们进入到了云计算时代。云计算代表着一种以算力为核心的新的生产力,深刻改变了我们的生产生活。但是云计算难以支持时延和隐私要求高的应用,因此就有了边缘计算,它最早的雏形可以追溯到内容分发网络(CDN),即将数据缓存在靠近用户的地方以提供更快的响应速度。
边缘计算前景广阔,它是使能万物互联的核心技术,许多政府和机构都将其视为新型数字基础设施的重要部分。思科预测,到2025年,75%的物联网数据将在边缘设备和节点上生成和处理。高德纳咨询公司(Gartner)也预计边缘计算将成为技术革新和产业升级的重要驱动力。
在过去几年里,边缘计算领域有很多的研究和应用。比如说,在智慧家居场景中利用边缘控制器(边缘网关、微程序控制器等)智能地控制台灯和电视的开关、调节冰箱的温度和工作模式等。智能视频监控也受益于边缘计算。传统的基于云的解决方案需要将视频上传到云服务器,利用人工智能模型分析这些数据,然后发回响应。它会导致长时间的响应延迟和隐私问题。通过边缘计算,原始视频数据可以由部署在边缘节点上的人工智能模型进行处理,从而节省带宽成本并实现实时响应。
然而,现有的边缘计算依然不足以支撑一些高级的人工智能应用。这些应用对服务质量有一些新的要求。一是超低时延,比如自动驾驶场景下时延要低于5毫秒;二是大规模的应用部署,用于连接大量的物联网设备,比如智能制造下大量工业元器件的监测和控制、虚拟现实/增强现实(VR/AR)和元宇宙场景下在不同区域的海量用户同时在线互动;三是移动场景下的动态接入,比如智能车和智能手机;四是可靠的服务供应。
现有的工作侧重于单个边缘节点的功能及其与云和终端设备的协作。主要有以下两方面的不足:
(1)边缘节点之间缺乏协作。现有的工作忽视了分布在不同区域的边缘节点之间的横向协作,导致边缘资源的利用未得到优化、服务区域的覆盖范围受到限制以及可扩展性有限,使得性能不均匀。
(2)缺乏对人工智能应用程序的支持。不同边缘节点提供商的异构执行环境使应用程序开发和部署变得复杂,导致服务质量和应用程序性能较差。目前缺乏统一的应用执行环境和应用接口。此外,边缘资源是受限的、异构的,资源感知的人工智能模型训练和推理机制需要进一步研究。
新范式:协作边缘计算
针对目前存在的问题,我们提出了一种新范式以支持新型的高级人工智能应用——协作边缘计算(CEC)。如图1所示,来自不同利益相关者(参与方)的边缘节点和云服务器等计算节点通过Wi-Fi、基站、边缘网关等通信设备相互连接,共同构建跨边缘网络的联邦资源池,协同执行计算任务,从而为应用提供服务。协作边缘计算致力于实现计算节点和设备之间的广泛协作,不仅包括云、边、端设备之间的纵向协作,也包括边缘节点之间的横向合作。协作边缘计算是一种新的计算基础设施, 用户可以接入边缘网络并即时访问计算能力、数据处理和人工智能服务。
相比于传统的边缘计算,协作边缘计算具有以下优点:
(1)扩大的资源池。人工智能应用通常需要大量的计算资源,但受到设备体积和功耗的限制,边缘节点的计算能力通常有限,难以处理大量的人工智能应用计算需求,从而影响服务体验。在协作边缘计算中,大量的边缘计算节点和云服务器相互连接,共享资源,从而使得资源池变大,更好地处理资源贪婪和计算密集型的人工智能应用。
(2)扩展的服务区域。受到通信能力和距离的限制,单个边缘节点的服务范围通常有限。在协作边缘计算中,分布在不同区域的计算节点连接起来共同提供计算服务,使得应用的服务范围变大,更适合需要大规模部署的应用。
(3)统一的服务标准。在传统边缘计算中,边缘节点通常来自不同的参与方,比如中国移动、电信等运营商,华为云、阿里云等云厂商。不同的参与方通常有自己的一套服务标准,部署在一方计算节点的应用很难在线迁移到另一方。协作边缘计算致力于连接这些由不同参与方拥有的计算节点,提供统一的服务,使得用户和开发者专注于应用的核心功能和业务逻辑,而不必担心应用的部署问题。
(4)高效的人工智能服务。边缘计算节点经常是资源受限的、异构的,并且分布在不同的区域。这给人工智能模型的训练和推理造成了困难。协作边缘计算致力于为人工智能应用提供高效的训练和推理支持,简化人工智能模型的开发和部署。
协作边缘计算的挑战
要想实现协作边缘计算的愿景,需要解决许多科学挑战,包括可扩展的资源管理方案、准确高效的网络测量和算力度量、大规模高性能的任务调度,以及用户友好的人工智能运行时支持。
(1)可扩展的资源管理。如何在地理分布区域的众多边缘节点上管理资源并部署应用程序?现有方法通常使用集中式资源管理,如业界广泛采用的Kubernetes、华为开发的KubeEdge、阿里云开发的OpenYurt等。集中式的资源管理采用一个中心化的控制器去感知分布式的资源并作出管理决策,但是其可扩展性有限,难以管理大规模的分布式边缘节点。此外,边缘节点可能属于不同的利益相关者, 集中管理会导致可信度和隐私问题。
(2)网络测量和算力度量。如何高效准确地测量网络和算力资源以支持智能的计算任务调度?网络测量(如带宽、网络拓扑、丢包率等)和算力度量(如计算能力强弱、资源多寡、资源使用率等)是在不同计算点间分配计算任务的基础。但是边缘节点是资源异构的,且经常位于异构网络中,这给准确高效的网络测量和算力度量带来了困难。
(3)大规模高性能任务调度。边缘节点需要共享资源来执行协同计算任务。如何智能调度边缘资源来满足应用的性能需求?现有的集中式任务调度导致大规模边缘节点的任务调度算法开销较高。当前也有一些去中心化的方法,但是去中心化的方法只能感知局部网络资源,导致调度性能较差。设计高效、高性能的任务调度解决方案至关重要。
(4)人工智能应用的通用编程和运行时支持。协作边缘计算旨在支持各种人工智能赋能的应用程序。然而,边缘资源异构,人工智能模型训练和推理范式多种多样。如何设计通用的编程模型并提供资源感知的运行时支持以实现高效的人工智能模型训练和推理是一个新的挑战。
协作边缘计算是一种新型的计算范式,它通过整合云端边计算节点的计算能力,来协作处理计算任务,以更好地支持新型人工智能应用。协作边缘计算前景广阔,发展潜力巨大。当前,许多政府和机构都在推进新型计算基础设施的建设,主张通过整合无处不在的计算能力来构建城市规模的算力网络。算力网络(CPN)已被列入国家“十四五”规划,协作边缘计算为算力网络提供了一种系统可行的方法。
致谢:感谢香港研究资助局主题研究计划项目“高性能协作边缘计算框架、方法及其在智慧城市中的应用”(项目编号:T43-513/23-N)的支持。
本文刊登于IEEE Spectrum中文版《科技纵览》2024年2月刊。