3 月 12 日消息,中科曙光今日宣布实现国产高端原生 RDMA 技术重大突破,正式发布首款全栈自研 400G 无损高速网络 ——scaleFabric。
该产品基于原生 RDMA 架构,从底层的 112G SerDes IP、硬件设备到上层的管理软件实现 100% 自主研发,填补了国内数据中心高速网络领域的空白,以比肩国际顶尖同类产品的性能表现。
随着 AI 大模型训练与高通量推理计算需求持续扩大,万卡级乃至更大规模的算力集群正成为主流形态。在大规模智算集群领域,RDMA(远程直接内存访问)网络已成为算力中心的基本需求,凭借零丢包、高带宽、低延迟等特征,可极大提升通信效率。其中,InfiniBand 凭借低时延与原生无损传输能力,在全球顶级超算与 AI 集群中被广泛采用。
长期以来,从高速 SerDes IP、核心芯片到 IB 网卡、IB 交换机等设备,InfiniBand 相关产业链基本被海外厂商垄断。
scaleFabric 是国内首款原生无损 RDMA 高速网络,面向超大规模智算集群设计,从核心关键 IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系。
此次发布的 scaleFabric400 系列网络产品技术规格全面对标英伟达 NDR,部分指标实现赶超。性能方面,scaleFabric400 网卡基于 PCIe5.0 接口,端口带宽达 400Gbps,端到端通信时延低至 0.9 微秒;scaleFabric400 交换机单端口带宽达 800Gbps,整机交换容量可达双向 64Tbps,交换时延约 260 纳秒,支持 800G×40 或 400G×80 端口扩展。
稳定性与扩展能力上,产品采用基于信用的无损流控机制,从根源规避拥塞丢包风险,链路故障恢复时间小于 1 毫秒,已支撑近万卡集群持续稳定运行验证超 10 个月。与英伟达 NDR 相比,交换机端口密度提升 25%,网卡最大 QP 数支持提升 100%,单子网互连规模是传统 IB 的 2.33 倍,可支持最大 11.4 万卡集群部署,同时网络总成本可降低 30%。
从中科曙光官方公告获悉,在实际应用层面,scaleFabric 目前已部署于国家超算互联网郑州核心节点,支撑三套万卡级 scaleX 智算集群上线运行,总规模达 3 万卡。