项目目标:致力于解决AI大规模互联的网络通信瓶颈,将GPU互联规模从万卡扩展到十万卡、百万卡,打造智能时代数据流动的“高速公路”,为国产算力信创生态实现自主可控、兼容互通奠定互联基石。
一、项目内容:
已有RDMA网卡产品,如英伟达、华为、云豹、云脉等存在两大问题,无法高效满足超大规模集群互联需求。一是它们普遍采用DCQCN或DCQCN变体的拥塞控制算法,严重依赖调参以及交换机PFC协同配置,容易引发拥塞扩散,难以突破数据包堵在交换机里的困境;二是它们仅能支持256条并发连接的数据传输,超过后吞吐下降50%,难以突破数据包堵在主机里的困境。针对以上问题,“凌波”智能网卡结合自研高性能以太网RDMA协议HP4,分两步走打造高性能RDMA网卡。首先采用FPGA方案实现RDMA网卡功能,对标英伟达Mellanox CX-5网卡,实现同水平的国产化替代。目前该方案已完成1.0版本,支持100G带宽、3微秒时延通信,单卡10K并发连接支持、Go-Back-N重传、优先级控制等基本指标,已获国产服务器龙头企业中科曙光、中国电信旗下中国通信建设集团关注、肯定及合作。在未来,拟基于FPGA完成自研拥塞控制协议、高并发Rocev2 IP核等卸载,突破200G带宽,为客户提供200Gbps RDMA网卡整卡或IP核。FPGA方案成型后,进一步转换为ASIC方案,可降低单张网卡成本,并增添端网协同负载均衡传输策略、主被动协同传输控制协议、多租户微架构资源隔离设计等功能,赶超英伟达CX-5网卡水平,实现200G带宽、500纳秒时延、单卡百K并发连接和万卡规模集群通信四大指标的领先。项目目前已获第六届海棠杯天津大学校友创新创业大赛全国总决赛一等奖。
项目来源:自主研发。
所属行业:新一代信息技术
学院:智能与计算学部
负责人介绍:李文信,智能与计算学部教授,海外优青,主要研究院领域为数据中心网络与云计算研究方向:面向数据中心的高性能网络,可编程网络,智能化网络,及容器虚拟网络等。
团队情况:硕博研发团队9人,已招募运营1人;拟招募RDMA网卡架构师1人,驱动开发架构师1人
二、技术情况
技术简介:“凌波”智能网卡:集网卡芯片、算法、协议栈一体的新一代数据处理引擎。在拥塞控制算法方面,相比DCQCN算法,不依赖PFC以及交换机,带宽利用率提升88%,流完成时间降低90%;在网络协议栈支持并发规模上,实现了2M片上存储空间下,单卡10K高并发连接,相比英伟达CX5网卡提升了两个数量级。在网卡硬件方面,支持RDMA标准API、优先级控制、ECN、100Gbps带宽通信等基本功能,实现全栈自主可控。成果获国家重点研发/重点基金等项目支持、授权发明专利10余件,并以天津大学为第一单位突破 领域内最顶级会议 SIGCOMM、NSDI。
技术优势:
1)自研以太网RDMA协议HP4。国际领先的大规模网络传输控制、流控技术,支持万卡集群规模网络的高吞吐、低时延,相较于已有的基准方案,小流尾时延降低88%,平均尾时延降低22%,整体尾时延降低23%。
2)自研单卡100K高并发连接技术。国际首创的支持单卡超高并发连接技术,基于软硬协同的自研方案突破网卡片上存储限制。相较于英伟达Mellanox CX系列智能网卡(单卡仅支持256条高并发连接),将单卡可支持的并发连接数提升近400倍。
3)自研双端口百G智能网卡。国内少有的完全实现百G网卡原型自研的团队,(国内可实现百G网卡完全自研的公司,目前仅有华为、字节等少数大公司,但各自为营,不对外出售)。
基于完全掌握自主知识产权等百G网卡原型,团队将逐步完成HP4网络协议、高并发连接等国际领先网络技术的卸载,对标英伟达Mellanox CX-5系列,实现领先自主可控、支持万卡集群互联的高性能智能网卡。
专利数量:专利、软件著作权60余项。
技术成熟度:样品、实验阶段。
三、产业化前景
应用场景:
1)国有智算中心:凌波智能网卡可应用于如政务大数据中心、金融云、军工云、能源云、医疗大数据中心等数据规模大的国有服务器集群,通过内核旁路、网络协议栈卸载等来减轻CPU开销,加快数据处理及传输速度,解决大模型训练、部署推理的网络传输瓶颈。
2)算力调度/租赁。基于智能网卡,自研算力监测平台。通过智能网卡结合网络将资源集中管理起来,实行任务和资源的结合分配;在上层搭建算力调度平台,为客户提供简单轻松部署任务的环境,并且方便客户直观的监控服务器运行状态,充分调度利用集群闲散算力资源,提高算力利用率。
3)智能网联/自动驾驶。自动驾驶过程需要大量的传感器进行通信传输,并伴有大量数据处理、转发、交换存储。一台智能网联汽车每天产生数据4TB,通信时延低于3ms,伴随着不定量的高并发连接。为降低车载终端在无线侧的传输时延,每辆智能驾驶汽车需要配备至少1-2块车载级网卡。车载级网卡芯片功能可根据降低无线侧时延、传送网时延、核心网UPF和业务处理时延等方面进行实现,帮助自动驾驶处理高频、突发、大量的数据传输。
输出产品:“凌波”智能网卡芯片、网络IP核
商业模式:商业模式有三种。第一种是NRE一次性工程费用,主要指拥塞控制IP适配定制开发。第二种是License费用,主要指合作客户每卖出一张带有我们IP的网卡,我们根据网卡售价按一定比例进行分成。第三种是直接售卖网卡芯片。客户群体,包括有IP需求的高校、研究院、网卡厂商;以及有网卡芯片需求的服务器厂商、运营商、BBAT互联网厂商、地方算力以及三油两网国央企。
发展前景:据赛迪斯顾问、贝哲思咨询等多家公司报告,中国智能网卡市场从2020年开始发展,在2025年有望达到600亿元,5年市场规模总值增长近13倍。(目前中国的智能网卡市场,主要以英伟达Mellanox CX系列为主,国产使用较少)。此外,以24年数据为例,我国通算中心服务器采购量533万台,按照每台服务器配备1-2张RDMA网卡满足高效存储、模型推理转型需求;智算中心服务器采购量约7.7万台,每台服务器需配备8-10张RDMA网卡以满足大模型训练、推理需求;综合测算,我国每年对RDMA网卡总需求空间900万张,按照每张RDMA网卡5000元价格计算,RDMA网卡市场规模近500亿。且往后几年,随着deepseek进一步降低模型训练及推理门槛,各企事业单位陆续私有化部署、训练,我国对服务器及RDMA网卡的需求将进一步增长,预期保持每年50亿的增幅持续增长。
潜在合作方:
目前已经和中科曙光、中国通信建设集团等服务器厂商和运营商初步合作,与中国地质大学、大连理工大学已有100万NRE意向合同。在未来,将陆续接触各高校、浪潮、紫光云、中国联通、中国通信建设集团、中科曙光、先进数通、三油两网等公司。
四、实施需求
(资金、场地、人员、投资等)
拟需资金:800万元;
场地:200平米;
一阶段人员:
驱动设计研发:4人
硬件设计研发:4人
硬件仿真研发:4人