引言 为适配PD分离式推理部署架构的需求,百度智能云从物理网络、流量管理到通信组件与算子层面展开全栈优化:通过优化HPN集群解决网络基础设施瓶颈,针对性优化Alltoall与KV Cache流量管理,再结合通信组件与算子的深度调优,显著提升了上层推理服务的整体性能。这一实践不仅展现了技术创新,更凸显了网络基础设施、通信组件与上层业务特征深度融合的核心价值——既是对技术难点的突破,也是对实际业务需求的精准响应。

  1. PD分离式推理服务的网络需求挑战 传统推理服务多为集中式部署(单机或小规模多机),对网络带宽与时延的需求较低。而大规模PD分离式推理系统的出现,使网络通信需求发生根本性变化,主要体现在两个维度:
  • 大规模EP专家并行带来的通信域扩张 随着EP(专家)从单机/双机小规模扩展至大规模部署,EP间的Alltoall通信域呈指数级增长。这对网络基础设施的传输效率、Alltoall算子性能提出极高要求,直接影响OTPS、TPOT等核心指标与用户体验。
  • PD分离场景下的KV Cache传输时延敏感 在PD分离式部署中,Prefill与Decode阶段存在KV Cache流量传输,其通信时延直接决定推理服务的整体性能上限。 2. 全栈优化方案与实践 针对上述需求,百度智能云从网络设施、流量管理、通信组件三个层面构建协同优化体系,形成可落地的最佳实践: 2.1 适配Alltoall流量特征的HPN网络设施 百度智能云在训练场景的HPN网络架构已积累丰富经验(如AIPod采用多导轨架构,GPU服务器配备8张网卡并分别连接至汇聚组不同LEAF,LEAF与Spine通过Full Mesh互联)。基于此,针对推理场景的Alltoall流量特征,进一步优化HPN网络设计。 2.1.1 训练与推理任务的流量特征差异 不同任务的流量特征对网络架构设计具有决定性影响,需针对性适配: 非MoE训练任务 在跨机通信中,以同号卡流量为主,例如梯度同步中的AllReduce、ReduceScatter、AllGather以及PP间的SendRecv等。理想情况下,同号卡通信可以实现一跳可达,如在64台服务器规模内,流量通过LEAF交换机直接转发;而在超大规模时,则需要通过SPINE或SUPER SPINE进行转发。百度百舸通过任务调度的服务器亲和性优化,减少了流量上送SPINE的需求,从而降低了时延。 推理任务:EP间的Alltoall通信会产生大量的跨导轨流量。尽管Prefill阶段可以通过软件优化来规避部分跨导轨传输,但在Decode阶段仍无法避免,导致流量需要经过SPINE或SUPER SPINE转发,增加了时延风险。 训练任务:融合上述两类特征,既包含同号卡的AllReduce等流量,又包含EP间的Alltoall流量,且两类流量可能相互干扰,对网络隔离能力提出了更高的要求。 2.1.2面向EP的HPN架构优化 为了解决Alltoall跨导轨流量的时延问题,百度智能云对HPN架构进行了针对性的调整:
  • 跨导轨流量的2跳收敛:将LEAF层的所有设备接入同一SPINE交换机,使跨导轨流量最多经过2跳转发,将时延从5us降至4us以内。虽然这一设计对超大模型训练的集群规模有一定限制,但完全满足了推理场景的需求。
  • 自适应路由消除哈希冲突:基于自研交换机实现自适应路由功能——流量到达LEAF时,会基于报文哈希结合链路负载动态选择最优出口,将报文分发至多个SPINE,实现链路负载均衡。这一机制彻底解决了哈希冲突导致的时延抖动问题,保证了网络低时延稳定性(详情可参考《彻底解决网络哈希冲突,百度百舸的高性能网络HPN落地实践》)。 2.2 Alltoall与KV Cache流量的精细化管理 流量管理的核心是解决干扰与效率问题,通过分队列调度、隔离传输等手段提升稳定性与带宽利用率。 2.2.1分队列管理:规避incast降速与流量干扰 在Alltoall通信中,多打一(incast)流量是典型痛点,且易受其他任务流量干扰。通过队列管理实现隔离与优先级调度,可以有效规避incast降速问题。 在推理场景中,EP间的Alltoall通信常出现“多打一”(如8台机器向1台机器发送数据),易导致接收侧交换机端口反压PFC,引发网络降速。对此,百度智能云通过三方面优化:
  1. 队列优先级配置:将Alltoall流量导入高优先级队列,其他训练流量(如AllReduce)分配至低优先级队列;
  2. 资源预留:为高优先级队列预留更多buffer与带宽;
  3. 拥塞控制调整:关闭高优先级队列的ECN标记功能,避免DCQCN算法对微突发流量过度反应。 经优化后,Alltoall通信时延降低5%,训推任务流量互不干扰,性能抖动显著减少。 2.2.2 DCN网络的KV Cache满带宽传输 为避免KV Cache流量与Alltoall流量干扰,百度智能云将KV Cache传输独立部署在DCN网络,并通过三项设计实现满带宽传输:
  • 网络架构收敛比采用1:1,保障带宽冗余;
  • 端侧网卡支持弹性RDMA,基于RDMA协议实现高性能传输;
  • 自研KV Cache RDMA传输库:与上层框架深度适配,支持分层传输与批量传输,便于计算与传输的overlap。 最终,KV Cache传输可完全用满主网卡带宽,传输时间被计算过程覆盖,不成为性能瓶颈。 2.3 通信组件与算子的深度调优 在网络基础设施与流量管理的基础上,通过通信组件与算子优化充分释放硬件性能,实现计算与通信的高效协同。 2.3.1 Alltoall算子性能跃升 针对开源方案在Prefill与Decode阶段的性能短板,百度智能云对Alltoall算子做针对性优化:
  • Prefill阶段:优化分chunk传输策略,调整显存分配与每轮发送/接收的token数限制,适配不同GPU芯片特性,相比开源方案显著提升带宽利用率;
  • Decode阶段:通过GPU算子内CE引擎异步拷贝,在不占用SM资源的前提下高效利用机内NVLink带宽,避免单纯依赖网络传输导致的性能损耗。 2.3.2 动态冗余专家编排与负载均衡 百度智能云设计了基于batch size级别的动态冗余专家编排策略,旨在避免因专家负载不均导致的通信时间差异。该策略将专家均衡度控制在1.2以下,确保集群内所有GPU的通信时间基本一致,消除“快慢卡”瓶颈。 为了进一步优化计算与通信的调度逻辑,实现二者最大程度重叠,百度智能云采取了以下措施:合理排布计算算子与通信算子的kernel launch顺序;精细化分配SM资源,避免计算占满资源导致通信算子阻塞;消除GPU间隙的资源浪费,最终实现整体吞吐提升20%以上。 在大规模PD分离式推理优化中,百度智能云的核心实践是“三层协同”。以HPN网络设施为基础,通过流量管理作为桥梁,以及通信组件与算子为抓手,实现了网络、组件与上层业务特征的深度融合。这一全栈优化不仅解决了Alltoall通信时延、KV Cache传输效率等技术难点,更验证了“业务驱动技术创新”的价值——通过理解推理场景的流量特征与性能需求,让每一层优化都精准命中痛点,最终实现推理服务性能的跨越式提升。 如何学习大模型AI?由于新岗位的生产效率优于被取代岗位的生产效率,社会整体生产效率得以提升。但具体到个人,掌握AI的人相对晚些掌握AI的人有竞争优势。这句话在计算机、互联网、移动互联网的开局时期同样适用。我在一线互联网企业工作十余年,指导过许多同行后辈,帮助他们学习和成长。我意识到有很多经验和知识值得分享,并通过我们的能力和经验解答大家在人工智能学习中的困惑。因此,尽管工作繁忙,我还是坚持整理和分享重要的AI大模型资料,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频。这些资料已在CSDN官方上传,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇。 2025年,大模型应用将迎来爆发式增长。根据工信部最新数据,国内大模型相关岗位缺口达47万。 在当今数字化时代,人工智能(AI)技术已成为推动各行各业进步的关键力量。随着AI技术的不断成熟和应用范围的扩大,如何有效利用这些技术成为了企业和个人面临的重要课题。本文将探讨AI技术的应用现状、面临的挑战以及如何通过学习和实践提升个人和企业的竞争力。 首先,我们来谈谈AI技术的应用现状。根据麦肯锡的最新报告,掌握AI工具的从业者生产效率提升了47%,薪资溢价达到了34%。这一数据充分说明了AI技术对于提高生产效率和促进经济发展的重要作用。然而,尽管AI技术带来了诸多好处,但也存在一个不容忽视的问题:许多企业在实际应用中往往因为缺乏足够的知识和技能而无法充分利用AI技术。 接下来,我们将探讨如何克服这一痛点。首先需要明确的是,AI技术并不是取代人类,而是帮助人类更高效地完成工作。因此,关键在于如何正确理解和应用AI技术。 在实践中,我们可以从以下几个方面入手:
  1. 学习大模型 AI:了解AI的基本概念和原理,掌握AI工具的使用技巧,如提示词工程、RAG系统和智能体开发等。通过系统的学习和实践,我们可以将ChatGPT等AI工具从玩具变成生产工具。
  2. 实战学习:通过实际操作来加深对AI技术的理解。例如,可以尝试使用AI大模型进行数据分析、图像识别或自然语言处理等任务,并尝试用代码将大模型和业务衔接。这样不仅可以提升我们的技能水平,还可以在实际工作中更好地应用AI技术。
  3. 分享经验:将自己的学习和实践经验整理成文档或视频教程,与他人分享。这不仅可以帮助他人解决学习中的困惑,还可以通过知识传播途径扩大自己的影响力。 最后,我们再来谈谈AI技术面临的挑战。目前,许多企业在实际应用中仍然面临着“能用模型不会调优”的痛点。这意味着即使掌握了AI技术,如果不能有效地调整和优化模型参数,也无法充分发挥其潜力。因此,我们需要不断学习和实践,提高自己的技能水平,以便更好地应对这些挑战。 总之,AI技术的应用前景广阔,但同时也充满了挑战。我们需要通过持续学习和实践,不断提升自己的能力和竞争力,以更好地适应这一时代的变革和发展。 该阶段我们正式进入大模型AI进阶实战学习,学会构造私有知识库,扩展AI的能力。快速开发一个完整的基于agent对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合Python和JavaScript程序员。 为什么要做RAG? 搭建一个简单的ChatPDF 检索的基础概念 什么是向量表示(Embeddings) 向量数据库与向量检索 基于向量检索的RAG 搭建RAG系统的扩展知识 混合检索与RAG-Fusion简介 向量模型本地部署 … 第三阶段(30天):模型训练 恭喜你,如果学到这里,你基本可以找到一份大模型AI相关的工作,自己也能训练GPT了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。 到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗? 为什么要做RAG? 什么是模型 什么是模型训练 求解器&损失函数简介 小实验2:手写一个简单的神经网络并训练它 什么是训练/预训练/微调/轻量化微调 Transformer结构简介 轻量化微调 实验数据集的构建 … 第四阶段(20天):商业闭环 对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被AI武装的产品经理。 硬件选型 带你了解全球大模型 使用国产大模型服务 搭建OpenAI代理 热身:基于阿里云PAI部署Stable Diffusion 在本地计算机运行大模型 大模型的私有化部署 基于vLLM部署大模型 案例:如何优雅地在阿里云私有部署开源大模型 部署一套开源LLM项目 内容安全 互联网信息服务算法备案 … 学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。 如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成60-70%的内容,你就已经开始具备成为一名大模型AI的正确特征了。 保证100%免费