天华中威科技微波小课堂_什么是智算网络
数据中心网络的发展历程见证了信息技术的飞速进步,从最初的互联网服务驱动到如今的算力驱动,每一步都标志着网络架构的重大变革。第一代数据中心网络主要由互联网服务驱动,其设计初衷是为了满足日益增长的网页浏览、文件传输等互联网基础服务需求,确保数据的高效传输和稳定性。
随着云计算技术的兴起,数据中心网络迎来了第二代的发展——云服务驱动。云服务不仅要求数据中心能够支持海量的数据存储和传输,更强调资源的动态分配、灵活扩展和高效利用。这一时期,数据中心网络架构更加注重虚拟化、自动化和智能化,以支撑云计算业务的蓬勃发展。
如今,我们正处于迈向第三代的算力驱动数据中心网络的阶段。算力,尤其是人工智能(AI)算力,已成为推动数据中心发展的核心动力。第三代AI智算中心不仅要求网络具备超大规模、超低延迟和高带宽的特性,还需要具备智能调度、自主优化和持续进化的能力。这样的数据中心网络能够支持复杂的AI计算任务,满足日益增长的数据分析和处理需求,推动人工智能技术的广泛应用和深度发展。
智算网络的核心特征
随着大模型的持续爆发,其对算力的需求也在迅猛增长,这促使算力集群不断向万卡以上的规模演进。这一趋势不仅代表着计算能力的飞跃,也对网络提出了前所未有的超高要求。
大模型的训练和推理任务需要海量的计算资源和高效的网络连接。万卡级别的算力集群意味着将有数以万计的高性能计算节点协同工作,它们之间的数据传输和同步必须达到毫秒级甚至微秒级的延迟,以确保模型训练的高效性和准确性。
为了满足这一需求,智算网络需要实现更高级别的网络带宽、更低的延迟和更高的可靠性。此外,网络架构也需要更加灵活和智能,能够动态地分配和调整网络资源,以适应不同规模的大模型训练和推理任务。
超大规模组网挑战
随着AI模型参数量的爆炸式增长,训练这些巨量化模型对算力集群的需求已经达到了前所未有的高度。这些大规模的组网不仅需要极高的计算能力和显存支持,还面临着诸多技术挑战,如RDMA网络中的链路头阻、PFC死锁风暴、高效的拥塞控制和负载均衡等问题。这些问题不仅影响网络性能,还直接关系到AI大模型训练的效率和准确性。
超高带宽需求
在AI大模型训练的场景下,无论是机内GPU间的通信还是机间GPU的通信,都产生了大量的通信数据量。这些通信数据量对网络的带宽和传输速度提出了极高的要求。特别是在模型并行和数据并行等模式下,通信数据量更是达到了百GB级别。因此,网络必须支持高速互联协议,并且能够提供足够的单端口带宽和总带宽。
超低时延及抖动需求
在AI大模型训练中,网络时延和抖动对训练效率有着重要影响。动态时延和丢包会导致GPU有效计算时间降低,以1750亿参数规模的GPT-3模型训练为例,当动态时延从10μs提升至1000μs时,GPU有效计算时间占比将降低接近10%。而网络抖动则可能引发集合通信效率的降低。因此,如何降低计算通信时延、提升网络吞吐并减少抖动,成为了AI大模型智算中心能够充分释放算力的关键。
超高稳定性需求
网络系统的稳定性对整个集群的计算稳定性产生了决定性的影响。网络故障可能导致计算节点间的连通性中断,从而降低系统算力的完整性。网络性能波动也可能影响所有计算资源的利用率。因此,在AI大模型训练任务周期中,维持网络的稳定高效运行是极其重要的。
网络自动化部署需求
智能无损网络的构建往往基于RDMA协议及拥塞控制机制,但这背后涉及一系列复杂且多样化的配置。配置错误可能会导致业务性能下降,甚至引发不符合预期的问题。为了应对这一挑战,实现高效或自动化部署配置成为了提升大模型集群系统可靠性和效率的关键。这要求系统能够自动选择拥塞控制机制,并实现多台设备的并行部署配置。
新型智算网络架构
智算网络对极致性能的追求意味着网络需进行革新,新架构呼之欲出。
中国移动:在网计算技术架构
中国移动提出在网计算NACA技术架构,围绕拓扑映射、编程范式、计算实现、资源管理形成”四个统一”,全面提升在网计算通用性,为并行计算应用加速赋能在网计算NACA架构。
四个统一包括:1)逻辑物理统一。NACA物理实现比传统计算实现方式更加亲和业务逻辑拓扑;2)通信原语统一。以统一的网络设备原语实现在网计算通信库,提升通用性;3)编程范式统一。为应用程序开发提供统一编程语言及编译部署模式;4)网内资源统一。基于RDMA/等高性能互联协议构建统一网内资源池。
中国联通智算互联网组网架构:广域网+数据中心网络+算网大脑
中国联通智算互联网组网架构通过高通量广域网实现智算中心的互联。底层underlay需要 IP层及光层能力多层次协同。在光层通过无损OTN技术来确保数据的高效传输。IP 层通过应用感知(APN6)、网络状态感知(IFIT)来确保广域无损数据传输。在overlay传输层通过广域 RDMA 进行协议优化。上层高智能算网大脑涵盖算网协同调度系统、网络数字孪生系统和 AI 智能决策三大系统,为算网的协同调度和优化提供智能支持。
结尾
智算网络正处于一个划时代的变革中,以太网技术的崛起预示着它将逐步取代InfiniBand,成为支撑AI技术服务千行百业的主流选择。与此同时,AI大模型的发展正推动整个行业从封闭走向更加开放、包容的生态,解耦成为这一变革中的必然趋势。
*本文整理自2024智算网络技术与应用创新峰会演讲,部分素材如下:
《在网计算加速赋能智算网络》--移动研究院姚柯翰
《面向算网一体的新型数字信息基础设施——高通量智算互联网关键技术研究》--联通研究院韩博文
《AI智算时代,数据中心网络发展》--中兴通讯段威