中国移动研究院秦凤伟：网络成为AI算力瓶颈以网强算更加重要

2024-11-22 发布

C114讯3月24日消息（赵婷婷）人工智能正处于快速发展阶段，其应用深入到各个行业和领域，将逐步改变着我们的生活和工作方式。智能时代，通信及网络重要性在不断提升，产品迭代速度明显加速，对数据、算力、网络持续演进提出了新的要求。

日前，在思博伦举办的“创新驱动智能未来”的SpirentDay2024峰会上，中国移动通信有限公司研究院项目经理秦凤伟在主题演讲中表示，AI大模型以算力集群分布式训练为基础，带来大量节点间通信消耗，组网规模、网络性能和可靠性决定集群有效算力，网络成为AI算力“瓶颈”，以网强算成为提升大模型训练效率的关键。

智算中心与通算中心流量模型与网络存在差异性

秦凤伟指出，智算中心网络用于连接CPU、GPU、内存等池化异构算力资源，贯穿数据计算、存储全流程，网络性能增强对提升智算中心整体算力水平具有关键意义。相较于通用云计算网络，智算中心网络对AI参数面网络提出更为严苛的要求。

具体而言，在流量模型差异性方面，通用算力以CPU芯片为主，业务种类多流量小，业务间相互独立；智能算力以GPU、AI芯片等人工智能芯片为主通信关系固定，流数量少流量大，分布式训练带来大量节点的同步突发，木桶效应明显。

在网络差异性方面，目前业界主流通算中心与智算中心虽然均采用spine-leaf架构，但两者端口速率、组网方式、网络协议均存在差异性。

例如，通算中心组网方案服务器端口10GE/25GE并存，汇聚层从40GE向100GE演进；而智算中心组网方案服务器端口200GE/400GE，汇聚层更是达到了400GE/800GE。

打造新型智算中心网络技术体系CSE

面对AI大模型训练对网络提出的全新挑战，传统的数据中心以太网已经难以维系，业界正在致力于对传统以太网进行革新。

秦凤伟举例表示，现有以太网协议基于流的负载分担及拥塞控制机制，在AI模型训练场景存在天然缺陷，导致网络有效带宽和时延受限。InfiniBand和ROCE存在各自问题，因此，构建基于新型以太网开放、标准的生态，成为智算中心网络技术演进方向。

她介绍，GSE（全调度以太网）创新以太网转发机制，基于三大核心机制转变，实现高精度负载均衡、网络层原生无损及低延迟。从而由“流”分发转向“报文”分发，从盲发+被动控制转向感知+主动控制，从“局部”决策转向“全局”调度。

GSE技术体系能最大限度兼容以太网生态，从物理层、链路层、网络层、传输层“四层”，以及管理和运维体系“一体”等层级优化和增强。创新基于报文容器（PKTC）的转发及调度机制，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展。

在部署方面，GSE协议可根据网络设备和网卡能力适应多种组网场景。尤其在部署国产芯片时，GSE由于采用逐包分发技术降低了对leaf上行带宽的需求，使得同等芯片容量下组网规模更大，负载均衡能力更强，更适配国产芯片大规模组网需求。

秦凤伟表示，中国移动已携手中国信通院，并联合国内外三十余家主流互联网，设备商、芯片商、高校院所联合发起GSE推进计划，推动智算中心网络技术创新、标准完善和产业应用，打造高速无损、开放兼容的新型智算中心网络技术体系。