AI Infra 工程师们如何应对大模型流水线里的“暗涌”?

发布时间:2025-06-26 00:42  浏览量:1

在AICon全球人工智能开发与应用大会前夕,一场聚焦大模型Infra工程师实战日常的深度对话在线上热烈展开。此次对话由《极客有约》X AICon直播栏目精心策划,邀请了华为昇腾技术专家ZOMI酱、蚂蚁集团高级专家马介悦以及SGLang核心开发者尹良升,共同探讨了Infra工程师在日常工作中遇到的挑战与解决方案。

对话中,专家们首先分享了在大模型工程中遇到的高频问题。马介悦指出,线上训练过程中常遇到稳定性问题,如训练任务中断,特别是在大规模集群上,GPU故障几乎难以避免。他还提到,loss异常飙升也是一个复杂且难以排查的问题,可能源于算法缺陷、并行框架问题或数据错误等。尹良升则从开源项目的角度出发,表示用户在部署时经常遇到运行时错误和性能问题,这些问题往往需要深入代码层面进行点对点的优化或配置修正。

ZOMI则更关注训练环节,他提到在万卡甚至十万卡级别的集群中,硬件故障不可避免,特别是在持续训练的大型模型任务中。他还指出,损失函数异常飙升的问题也需要Infra团队与算法团队进行更紧密的合作来解决。

当被问及大模型工程流程中哪一段最容易出问题时,尹良升以SGLang社区的实践为例,提到了并行策略不兼容的问题。他表示,新功能在快速交付时可能会暂时忽略与现有功能的兼容性,导致后续需要经历代码重构与解耦的过程。ZOMI也提到,在版本迭代过程中,新特性与旧有算法或并行策略不兼容的情况时有发生,需要经历多个版本的持续迭代与磨合来解决。

在谈到工程化实践时,马介悦强调了性能剖析和监控系统的重要性。他表示,高效的工程化实践离不开强大的性能剖析和监控系统支持,仅靠人工排查效率低下。他还分享了DLRover在性能剖析方面的实践,包括记录底层CUDA算子执行时间、Python进程调用栈等信息,生成时间线和火焰图,为SRE和研发人员提供关键的排障依据。

专家们还就大模型低成本的优化价值进行了讨论。尹良升认为,从推理部署角度看,将大模型的推理成本压至最低至关重要。他提到了通过特定的部署方式、缓存策略以及提高GPU极限利用率等方法来降低大模型成本。马介悦则从硬件角度出发,提到了使用NVLink/NVSwitch机制提升单机节点内的GPU通信效率,以及通过大型机柜方案消除性能断层,提升整体并行性能。

在谈到开源项目背后的挑战时,专家们表示,除了写代码之外,社区运营、用户反馈以及版本节奏管理都是难题。马介悦分享了DLRover在开源社区运营方面的经验,包括平衡公司工作与社区投入、推广及交流活动等。尹良升则表示,开源项目的核心在于其开放性,如何在项目维护者与社区用户之间构建良性循环是开源项目可持续发展的关键。

最后,专家们还就GPU虚拟化、异构部署等技术趋势进行了讨论。ZOMI提到,随着技术演进,异构部署的可行性显著提升,充分利用异构硬件特性、实现跨类型资源的智能调度与混部已成为AI基础设施演进的重要方向。尹良升则分享了SGLang在异构部署方面的实践和经验。

此次对话不仅展现了大模型Infra工程师在日常工作中的真实需求和挑战,也分享了专家们在解决这些问题方面的宝贵经验和见解。这些经验和见解对于推动AI技术的发展和应用具有重要意义。