关于 AI Infra 的一切

发布时间:2025-08-11 13:34  浏览量:1

AI Infra作为人工智能发展的基石,正随着大模型的崛起而备受瞩目。本文深入探讨AI Infra的内涵、发展历程、技术要求以及未来趋势,通过与行业专家的对话,为我们揭示了这一领域的机遇与挑战,帮助读者全面了解AI Infra的核心价值与发展方向,一起来看。

本文嘉宾朱亦博可以说是国内最了解 AI Infra 的人之一,从微软、字节 AI Infra 负责人到谷歌、再到阶跃联创,他的职业经历几乎和 AI Infra 的发展并行。

本期客对谈原文约 19000 字,本文经过删减整理后约 7000 字。

曲凯:从你的视角来看,怎么理解 AI Infra?

亦博:AI Infra 包括硬件和软件两部分。

硬件是指 AI 芯片、GPU、交换机等设备。软件层面我喜欢用云计算来类比,可以分为三层:

最底层类似 IaaS,解决的是最基础的计算、通信和存储问题。

中间一层类似 PaaS,包含资源调度、资源管理等平台。MaaS(Model-as-a-Service)就归属这一层。

最上层近似 SaaS 应用层,但在 AI Infra 领域,我更倾向于把这一层理解为训练及推理框架的优化层。

曲凯:可以说你的职业生涯跟 AI Infra 的发展基本是同步的吗?

亦博:是,但我其实是第二批 AI Infra 人,第一批是贾扬清、李沐、陈天奇这些有算法背景的人。他们当时要做先进的算法,需要充分利用 GPU,于是就做了 AI Infra。

曲凯:所以是第一批人从无到有把这件事做了出来?

亦博:可以这么理解。我们这第二批人干的更多是上规模的事情,让 AI Infra 在工业界得到应用。

曲凯:那大模型这两年的兴起,对 Infra 从业者来说应该是一个特别好的机会吧?因为 AI Infra 一下子进入了主舞台。

亦博:确实如此,这也是为什么我觉得一定要出来创业。

过去 Infra 人才很难参与到一个公司的初创过程中,因为 Infra 服务于上层应用和数据处理,只有当业务规模足够大时,对 Infra 的需求才会凸显。

但是大模型确实带来了一个非常好的机会。

上一次类似的节点,是搜索引擎刚刚兴起的时候。比如 Google 当年面对的是规模空前的互联网数据,而要处理这些数据,它就需要世界一流的 Infra。所以从某种程度上讲, Google 本质是一家 Infra 公司,它的成功从一开始就离不开它强大的 Infra。

而如今,大模型一上来就对算力和数据提出了前所未有的要求,所以我认为现在是 Infra 从业者真正进入核心舞台的少有机会。这样的窗口,可能十年、二十年才会出现一次。

曲凯:那移动互联网的 Infra 和 AI Infra 有哪些异同?

亦博:它们的底层目标是一致的,就是要高效稳定地整合计算、通信和存储资源。

但在实操层面,它们对硬件、网络互联、存储方式的要求都完全不同。比如,AI Infra 的绝对核心是 GPU,而传统 Infra 的核心是 CPU。

在 Infra 的世界里,太阳底下没有太多的新鲜事,但 AI Infra 在很多方面要做到更极致、更贴合 AI 的特殊需求。

曲凯:那在这样的背景下,未来做 AI Infra 的人,更多会是新一批成长起来的工程师,还是由传统 Infra 人转型而来的?

亦博:我觉得都会有。这方面 Infra 和算法很不一样。

算法非常依赖年轻人。甚至我有做算法的朋友说过,算法人只有两年的保质期,两年后 Ta 把自己的聪明才智发挥完了,就会陷入思维定势,反而跟不上后面的新东西了。

但 Infra 相对来说更强调积累。

曲凯:那你们关注的核心指标有哪些?

亦博:比如在线上服务侧,我们会看模型响应的首字延迟、后面吐字是不是稳定顺畅、整体的成本能不能降低等等。在训练侧,我们主要看每张 GPU 能处理的数据量和训练效率。

曲凯:听起来是不是只有规模很大的公司才需要用到 AI Infra?

亦博:其实所有的产品都依赖 Infra,区别在于你要不要投入成本去做自己的 Infra,以及这种投入对你的业务来说值不值得。

这笔账其实很好算。

假设你有 1 万张 GPU,每月租金 1 个亿。如果你雇了一批 Infra 工程师,能把 GPU 利用率提升 10%,那你每月就能节省 1000 万,或者说多赚 1000 万。

那你愿意为了这 1000 万投入多少人力成本?

无论是在前司还是现司,我们优化 Infra 之后省下的钱,都可以很轻松地 cover 这部分的人力成本。从这个角度来说,投入 Infra 是可以帮公司挣钱的,而且这件事的确定性很高。

对于一些较小的公司来说,也可以用同样的逻辑进行计算:你值不值得雇 10 个人来优化百分之多少的性能?

你可以对比一下,要做到同样的优化效果,云厂商的标准化方案需要多少钱。如果你自己做不到更低的成本,那就说明用 MaaS 或公有云服务更划算。

这也是现在这些服务商的价值锚点:帮助规模较小的公司节省 Infra 优化的成本。

曲凯:那按理说,Infra 这件事应该是云厂商和模型方做到极致了才对,为什么还有一些第三方公司在做?

亦博:短期来看,第三方的价值,是为客户提供一个「API 集贸市场」,让他们自由选择不同的 API,因为模型厂商的 Infra 主要服务于自家的模型或 API。虽然有些公有云也在提供类似的服务,但还是有第三方的空间。

不过长远来看,如果第三方公司没有独特的价值,确实很容易被云厂商或模型公司吃掉。

那突破口在哪里?我是这么思考的:

AI Infra 的底层是硬件,上层是模型。当硬件和模型都逐渐趋于开放和普及时,只做中间那一层 Infra 的价值确实会很有限,而且会非常卷。因为说白了,没人能在 Infra 这一层拉开特别大的技术差距,也很难形成长期壁垒。你今天领先一点,几个月后可能就被赶上了。

所以我认为,第三方想做出壁垒,就得和硬件或者模型去做垂直整合。

以 MaaS 的生意为例。MaaS 可以看作是一个 API 的分发平台,除了标准 API 之外,真正能留住用户的,是那些别人没有的东西。

就像你为什么要买 PS5?是因为这个游戏机上有一些独占的游戏。

同理,有的 MaaS 服务商与特定的硬件厂商有深度合作,能以更低成本获得算力资源,同时它还有对硬件的独到见解,那这些就是它的差异化优势。

所以这里可以给从业者一个建议,就是不要做夹在模型和硬件中间的那个人。

我现在选择站在模型这一侧,你也可以选择站在硬件那一端。

这是因为 AI Infra 有个非常独特的背景,就是当前是硬件和模型都在追求极致的时刻。如果有人想做出像 DeepSeek 那样在硬件上跑得非常有效率和性价比的模型,就需要既懂硬件又懂模型。而这种「两头通」的能力,恰恰是 Infra 人的特长。

所以,如果你愿意迈出这一步,往上和模型做深度整合,或往下与硬件做 co-design,就有很多机会。但如果你固步自封,只在中间做优化,那确实就把路走窄了。

曲凯:但和模型或者硬件绑定之后,万一最后发现选错了怎么办?

亦博:所以关键在于你必须是主动的参与者,而不是被动搭便车的人。

如果你比硬件厂商更懂模型,那你就可以影响硬件的设计方向。如果你比模型团队更懂硬件,也可以反向影响模型架构的设计。

当你具备了这种影响力,成功了当然是共赢,即使失败,那也是你主动做出的判断和选择。

曲凯:明白。

我们前面讲的主要是 Infra 降本增效的事情,那实际上它对模型最终的训练效果到底有多大的影响?该怎么评判?

亦博:Infra 水平确实会影响模型的效果,这也是为什么 Infra 对大模型公司而言非常重要。

其实各家公司都在参与同一场比赛,就是「给定算力,怎么训出最好的模型」。

假设大家都拿 5000 张卡,在其他条件相同的前提下,如果我的 Infra 优化得更好,效率高出 20%,那在同样的时间里,我就能多学 20% 的数据,训练出的模型自然也会有更好的效果。

曲凯:所以 Infra 是有标准化的性能指标的?

亦博:对,比如 MFU 就是一个比较常见的指标。它衡量的是硬件利用率,分子是实际完成的浮点运算次数,分母是理论最大算力,MFU 越高,说明硬件被用得越充分。

曲凯:我记得当时 DeepSeek 公开了他们的 MFU?

亦博:实际上 DeepSeek 的 MFU 是偏低的,但你也不能说他们的 Infra 做得不好。

衡量 Infra 的性能其实很复杂,仅靠单一指标很难判断 Infra 的优劣。Infra 的性能和硬件、模型,还有优化目标都密切相关。

其实 DeepSeek 之所以能冲出来,一大原因是选对了优化目标。

当时 DeepSeek 的优化目标和其他所有人都不一样。比如我们当时的优化目标是「给定训练算力,怎么训出最好的模型」,而 DeepSeek 的目标是「给定推理的成本,怎么训出最好的模型」。

至少在 24 年上半年时,DeepSeek 的基模并不比大家强。

那这个局面什么时候扭转了呢?

就是在 24 年 9 月 o1 发布之后。

o1 让大家看到,如果在推理阶段让模型多思考一会,模型最终输出的效果会更好。这种训练方式,正是强化学习的典型机制。而因为 DeepSeek 的优化目标更符合强化学习的需求,所以他们能以更低的推理成本、更快的速度去输出结果和训练模型。于是他们率先完成了 R1,一下子甩开了其他团队。

你可以说 DeepSeek 的成功有一些运气因素。他们最初在设定优化目标时,大概率也没料到 Test-Time Scaling 会在 24 年下半年变成关键趋势。但很多事情的成功,靠的就是天时地利人和。

所以说回来,Infra 确实有各种性能指标,但如果想取得好的结果,最重要的是你要想清楚,哪一个指标的优先级最高。这个指标不仅要符合你的产品需求,也要顺应整个行业的发展方向和未来技术趋势。

不同团队的技术水平固然有高低之分,但真正拉开差距的,往往是有没有选对努力方向。

曲凯:所以当下有比较通用的第一指标吗?

亦博:这件事还有很多非共识。

其实从 o1、 R1 验证了强化学习的路径之后,我认为当前最重要的指标就是 decoding 的速度。

推理分为输入和输出两部分。输入的关键指标是模型处理长文本的速度,输出的关键指标则是模型吐字的速度。我认为现在最重要的指标是后者。它决定了线上业务的成本,也直接决定了强化学习的效率。因为如果你输出很慢,那你获得 reward 的速度就比其他模型要慢。

但现在还有人很看重 MFU 之类的老指标。在我看来,还特别关注这类指标的人,对当下技术的认知是有问题的。

曲凯:你前面有提到,Infra 人是既懂硬件又懂模型的人,那算法人是什么样的?二者该怎么合作?

亦博:最理想也最简单的合作方式,就是大家像一个团队一样,为共同目标协作。

很多事情都有 trade-off,比如有时损伤系统性能,但能换来算法上的提升,有时候则是反过来。遇到这些情况,最好是两边能一起讨论该谁来让步。

不过这是小团队的优势。在很多大厂里,很难实现这一点。

在大厂,Infra 总被视为支持性的角色。很多时候是算法人给 Infra 人提需求,但是 Infra 人没有反向的影响力。

曲凯:对,而且在很多人眼里,Infra 的核心就是「降本」,但「降本」通常不是一个最优先的目标。

亦博:这正是我认为需要被纠正的观念。前面提到过,Infra 实际上是可以对模型效果有正向影响的,而不仅仅是只能降本。

曲凯:听起来就是要 Infra 人发挥主观能动性?

亦博:还不够。比如你带一个 Infra 团队,另一个人带算法团队,大家向同一个 leader 汇报,但这个 leader 只懂算法,那你猜会发生什么?

所以很多问题到最后都是组织架构的问题。

模型其实由算法、Infra 和数据这个铁三角决定。三者缺一不可,必须协同。

但很多人对模型的理解存在偏差。比如,一个模型的算法效果往往取决于数据,而不是算法;一个模型的效率成本主要由 Infra 决定,也不是算法。

所以实际上比较合理的组织架构是,让 Infra 人去设计模型结构,因为 Infra 人最知道该怎么提高效率、节省成本,让数据的人去负责刷模型的点数和 benchmark 分数,因为他们最懂怎么喂模型,而算法人应该主要负责训练的范式革新。

曲凯:听起来很合理啊,现在很多团队不是这样的吗?

亦博:不是。现在在很多团队中,基本都是算法人在设计模型结构、刷模型点数。但实际上算法人不一定最适合做这些事。

曲凯:所以阶跃从一开始就在用最正确的方法吗?还是也踩过一些坑?

亦博:当然也踩过坑哈哈。比如我们一开始对自己的算力和能力都过于自信,所以干了一个比 Llama 还大的模型。虽然我们把它训出来了,但是这个巨大的模型有一些问题,过程中我们也犯了一些错误。

但我觉得这也没什么。你赌的所有事情就是可能会错,踩过坑之后再爬起来往前走呗。这一局输了,那下一局我再干回来。

曲凯:还有什么业内真实的踩坑案例吗?

亦博:比如最近有家公司开源了一个模型,声称自己虽然参数量不大,但因为算法做得好,所以效果可以越级媲美更大的模型。

但这个模型因为架构设计的问题,实际运行效率非常低,甚至还不如那些大模型快。

这背后反映的问题是,其实很多做算法的人并不真正懂硬件,也不了解模型在 Infra 层是怎么运行的。

算法人员做模型架构研究的时候,可能会画一张图,横轴是模型的尺寸或激活量,纵轴是某些算法效果指标。然后他们会试图在这张图上找到一个 sweet point,能让模型在尺寸不大的情况下,算法效果还不错,然后就丢给 Infra 人去做优化了。

即便 Infra 人能满足算法人的需求,模型实际运行起来也会出问题。

如果真要画图,横轴应该是模型的实际运行成本或运行效率,纵轴是模型效果。你得跑大量实验,才能在这张图上画出各种点,然后在其中找到那个真正可落地的最优点。

而这件事情只有在拉通所有团队之后,才有可能完成。

曲凯:是。模型这边上一个 Aha Moment 仍然是年初的 DeepSeek。虽然最近一直有传言说 GPT-5 要发布了,但到底什么时候发、表现怎么样,还没人说得准。而且很多人一直在说 scaling law 撞墙了、数据不够了等问题。

那你怎么看未来模型的发展?

亦博:模型范式的革新不会那么快,但多模态还是有一些突破的可能性的,尤其是多模态生成和理解的统一。

现在多模态的状态,其实挺像 20 年的 bert 模型,就是具备了理解能力,但还没有真正做通理解和生成。

做通的标志,是同一个模型在理解任务上能超越专门做理解的模型,在生成任务上也能击败专门做生成的模型。就像 GPT-3.5 出来之后,直接让很多做翻译之类的专用模型退休了一样。

曲凯:Google Veo 3 的效果看起来已经很不错了。

亦博:但 Veo 3 还是偏上一代的模型,核心是做生成。只不过它的工程做得比较好,把配乐之类的各种功能都很好地融合了起来。

其实技术突破和产品效果并不是线性相关的。Veo 3 确实把上一代的技术发挥到了非常强的水平,但它本身并没有带来太多范式上的创新。

曲凯:明白。那你觉得对于初创或者第三方的 AI Infra 公司来讲,机会在哪?

亦博:我个人觉得训练侧的商业模式不太成立。因为现在训模型的人都非常懂行,所以你很难挣到这些人的钱。而且他们也不太愿意把训练过程中的研发细节交给第三方,否则就泄露了自己的核心竞争力。

排除训练之后,推理侧还是有一些机会的,比如推理加速、推理优化。

曲凯:那开源模型对 AI Infra 市场来讲会有什么影响吗?

亦博:整体而言,开源模型对 AI Infra 的发展是有促进作用的。因为一个开源模型火起来,大家就会去研究怎么把它跑得更好,这个过程其实就促进了 AI Infra 的进步。

但所有事情都有两面性。如果某个开源模型太火,然后大家都花很多精力去优化它,可能反而会影响创新。比如 DeepSeek 出来之前,很多人都在优化 Llama,结果 DeepSeek 的新范式一出,之前大家在 Llama 上的很多积累就废掉了。

这里我还想再补充一点。现在的 Infra 基本都是围绕英伟达卡来做优化的,虽然也有团队尝试用国产芯片替代英伟达,但很多时候国产卡不是跑不动,而是性价比不如英伟达。

举个例子,当 DeepSeek 这样非常好用的开源模型出现之后,一些做一体机的公司会发现,他们用英伟达卡跑 DeepSeek 就是比用国产卡更有性价比,所以他们就更愿意选择英伟达的卡。

但我们非常希望国产卡在技术层面也能具备竞争力。比如,是不是可以根据国产卡的特性去专门设计模型结构,让它在国产卡上也能高效运行,并达到 SOTA 水平?

我们最近开源的 Step 3,就是在这个方向上的一次实践。Step 3 是国内首个支持第三方商用的、数百 B 规模的视觉推理模型,并且能跑出 SOTA 水平。

曲凯:怎么理解视觉推理?

亦博:视觉推理就是模型可以根据图片、视频抽帧等视觉信息,直接完成推理任务。

比如,你让机器人去柜子里拿一个东西,但那个目标物品被杂物遮挡住了。这时机器人要完成这个任务,就要进行视觉推理,来进行任务的拆解和决策。

对于机器人或者手机、汽车等智能设备来说,它们天然就有视觉这个模态。那么根据周边的环境、看到的东西去决定怎么完成复杂任务的过程,就是典型的视觉推理模型做的事情。

视觉推理模型还有一个更常见的应用场景,就是拍照解题。

曲凯:这件事之前也有一些模型可以做到,它们应该就是把图片转成文字,再去做文字推理。

亦博:但我认为这种方式不是真正的视觉推理。我们现在不需要中间那段转文字的过程,而是让模型好似真的能看懂图片,然后直接看图推理。

还是举刚才那个让机器人拿东西的例子。如果你要拿的那个目标物品周围有很多遮挡,你其实很难用文字把它们在物理世界中的位置关系描述清楚,也会丢掉很多信息。

但如果模型直接看图,就能很直观地知道应该先把这个东西拿开,再把那个东西拿开,最后拿到目标物品。

曲凯:明白。那你们为什么选择开源?

亦博:我们希望做到全国上下产业都获益。

我们决定给所有国产芯片一份免费商用的授权,开放模型权重,并且尽量帮他们做好模型适配。同时我们也把 Step 3 在国产卡上的推理成本压到了一个很低的水平,提高了国产卡在性价比上的竞争力。

通过开源,我们希望能够帮助国产芯片构建商业竞争力,也希望他们能推广我们的模型,最后实现共赢。

曲凯:我突然想到一个问题,就是多模态模型的成本未来到底会以什么速度下降到什么程度?因为现在多模态还是太贵了。

亦博:多模态理解现在已经不算贵了,不过生成还是挺贵的,尤其是视频生成。

但我对成本降低还是蛮乐观的。我觉得一年后,应该能下降很多,能不能到十分之一不好说,但几分之一没问题。

曲凯: 你觉得现在做 Infra 的人在很多公司里,是不是还是容易被低估?

亦博:在大模型时代,这种情况已经好很多了。现在 Infra 已经是模型能力的核心组成部分之一。

之前也有人说过,DeepSeek 做得好就是因为梁文锋是 Infra 人。

曲凯:这怎么讲?

亦博:因为梁文锋是做量化出身的,而量化很强调低延迟,所以他需要对 Infra 有研究。在算法、数据和 Infra 之间,他可能最擅长的就是 Infra。这在业界也算是共识。

而且据我所知,DeepSeek 的 Infra 工程师数量比算法工程师要多。

但在很多大公司里,这个情况是反过来的。这可能也是在过去一段时间里,一些大厂比较挣扎的原因之一。

其实在大模型快速发展的阶段,就是需要有大量的 Infra 人,来把硬件设计和模型优化做到极致,并且做好垂直整合。但在大厂里,他们的人才结构是错配的,不符合做好 AI 的本质需求。

曲凯:明白。最后,你会给正在做或者想转行做 AI Infra 的人什么建议?

亦博:前面有提到过,我的建议就是靠近模型,或者靠近硬件。

另外,希望你还是打心底对 Infra 感兴趣,有足够的主观能动性去做各种各样的 co-design。

最后我想再补充一点。我最喜欢的一篇文章就是 Richard Sutton 的《The Bitter Lesson》。文中的核心观点是,从长期来看,胜出的永远是那些能最大程度利用计算资源的方法。短期内各种奇技淫巧可能有效,但都不能本质地解决问题。

虽然这篇文章是从算法视角写的,但对 Infra 人也同样有很重大的指导意义。因为我们最根本的任务,就是设计出能发挥硬件全部性能的模型和系统软件,让模型能充分利用这些资源。

当然,我最希望的是也许有朝一日,我们还能反过来影响硬件,换取摩尔定律的不断延续。42章经思考事物本质

本文由人人都是产品经理作者【曲凯】,【42章经】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。