关于博通和AI ASIC的故事
接着上一段讲的,博通(AVGO)的一系列收购成就了ASIC大厂的底子,现在我们来看看博通的核心竞争力。
第一:网络产品。
网络产品是博通(AVGO)的底色,也是其一系列重大半导体领域收购的重要方向。而随着计算密度的提高,现代人工智能(AI)集群和超级计算机节点之间的通信需求激增。无论是大规模AI模型的分布式训练,还是高性能计算(HPC)的并行计算,数据的交换速度和延迟都直接决定了整体性能。
* 低延迟:在分布式训练过程中,每个计算节点需要频繁交换模型权重和梯度数据。网络延迟过高会使计算节点出现“空等”现象,极大地拖慢任务完成速度。
* 高带宽:如 GPT-4 或更大型的生成模型,其训练数据量级动辄上百 TB,模型更新也需要通过高速网络进行实时同步。网络成为数据流转的瓶颈,影响系统效率。
现在,谷歌,微软,AWS和XAI等超大规模AI数据中心投入数千亿美金巨资部署加速器(XPU:如英伟达GPU),构建万卡级甚至十万卡级AI集群。在这样的部署中,作为全球最大的网络芯片制造商,博通的网络芯片也是重要的基础设施之一。
根据已知的分析显示,当前的大规模数据中心的XPU部署,一般高速互联的成本(包括网卡,交换机及相关的高速线缆)大概占整体投入的10%左右;如果部署规模达到十万或者更多的XPU的话,这一占比可能攀升至15%-20%。
在网络方面,博通凭借其强大的以太网产品线,为AI集群提供了两种系统架构及对应的芯片解决方案。
一类主要面向的是小规模AI集群数据调度,各个加速器计算节点之间通过Tomahawk 5以太网交换芯片来进行互联。博通的Tomahawk芯片从2010年的640Gbps交换能力增长到2022年的51.2Tbps(如下图所示),Tomahawk实现了80倍带宽提升,并且实现了超过90%能耗降低。
另一个是对于大规模AI集群,博通使用上层Spine交换机Ramon和下层Leaf交换机Jericho3-AI来实现多路径互联。其中Jericho3-AI用来连接各种AI加速器。
这种架构源自之前在高性能计算非常普遍的Infiniband,英伟达收购的Mellanox此前的Spine加Leaf的Infiniband交换机也是业界的传奇。
在大型AI集群中,这种方法越来越受到青睐,因为它能够满足复杂网络环境下的高效通信需求。Jericho3-AI芯片可连接多达32,000个GPU,每个AI加速器能够提供800Gbps的数据带宽,最终能使网络性能显著提升。
当然,除了以太网交换芯片,Thor系列网卡(NIC)也博通是支撑AI网络的一环。Thor是一款专为AI优化的高性能网络接口卡(NIC)。博通制造网卡已有 20 多年,Thor1于 2010 年初推出,采用台积电16nm工艺,用于插入PCI-Express 4.0服务器插槽的网络适配器。
今年博通又发布了第二代网卡芯片Thor 2,Thor 2是业界首款采用5nm CMOS工艺实现的400千兆以太网(GbE)NIC设备,支持16条PCI Express 5.0通道,每条通道的运行速度为32 Gbps。而且Thor 2还可以直接驱动长达5米的铜缆,而大多数 NIC 竞争对手只能驱动2.5米长的铜缆。Thor 2 芯片还支持 RoCE v2 RDMA,它类似于InfiniBand内置的 RDMA,但运行在以太网之上。与此同时,博通已开始研发 800 Gbps NIC 芯片Thor 3,再往后是1.6Tb。
毫无疑问,以太网交换机和网卡(NIC)是推动博通半导体业务增长的重要来源。
第二,全球最大的AI ASIC服务商
博通(AVGO)的一系列收购成就了目前全球最大的AI ASIC服务商。
如之前我们分享的:谷歌自2013年开始自研芯片起,就和博通开始了深度合作,截至目前,两家共同设计了迄今为止已公布的所有TPU芯片,同时博通已经获得了谷歌下一代AI芯片TPU v7的设计合同,这一长期合作关系使博通能够显著受益于谷歌在AI技术方面的持续投资。
Meta最新的自研AI芯片都将选择博通作为自研芯片技术的核心合作伙伴,Meta此前与博通共同设计了Meta的第一代和第二代AI训练加速处理器,预计博通将在2025年加快研发Meta下一代AI芯片MTIA 3。
同时,OpenAI给了博通两代ASIC项目,将在2026年启动,会采用3nm和2nm工艺,以及3D封装。
毫无疑问,博通的优势还在延续,因为AI计算需求呈指数级增长,受BLOOM、Cohere、GPT-4、LLaMA等AI模型的推动,客户AI集群的规模将持续扩张,比较明显的例子是2024年XAI的新建集群规模已经到了10万卡的规模。而博通自己预测,到2027年,XPU集群规模有望达到100万个XPUs。
博通CEO在业绩会表示,随着三家现有的超大规模客户打算使用博通套件构建百万XPU集群,2027年博通的AI ASIC市场的机会将在600亿至900亿美元之间。他还透露,博通正在与另外两家超大规模企业讨论将使用其IP的ASIC,不出意外的话,一家是苹果,另外一家也是大家耳熟能详的公司。
博通之所以能在AI定制芯片市场中占据绝对优势,靠的就是它在 IP上的超前投资。简单说,它不像有些公司,等着需求来了才开始研发。早在XPU还没正式设计之前,博通就花了大把钱开始布局核心IP组件。截至目前,博通已经砸了超过30亿美元,专门用来让XPU技术在差异化和创新上能更胜一筹。
博通的IP组合可以说是业界最强的之一,目前累积了大概 21,000项专利。这些技术覆盖了关键领域,比如:SerDes IP(高速串并转换技术),缓存技术,光电共封装(CPO)等等。这么齐全的技术储备,不仅让博通的XPU在性能上表现出色,还在功能定制上极具优势。
不仅仅是IP,博通在封装技术上也做到了领先。就在今年12月5日,博通发布了自己的最新3.5D封装平台:eXtreme Dimension系统级封装(XDSiP)技术。这听着有点拗口,但关键点是:
a), 它能在一个芯片封装里集成超过 6000平方毫米的硅片,还支持 12个高带宽内存(HBM)堆栈。
b), 跟传统方案比,它在连接密度和功耗效率上都有大幅提升。
这些改进对AI的大规模计算任务尤为重要,因为它能够更快、更省电地处理海量数据,这正是AI训练和推理的痛点。
在AI ASIC(定制芯片)这个领域,芯片设计的复杂度还在不断提升,对计算性能、网络连接和内存带宽的要求越来越高。可以这么说,这块市场的“门槛”越来越高,留给后来者的机会已经不多了。
目前,真正能跟博通掰掰手腕的,也只有一个玩家:Marvell。市场格局开始逐渐明朗,博通和Marvell正在走向两强争霸的态势。不过,不管怎么看,博通凭借强大的IP储备和先进封装技术,显然已经抢占了更有利的位置。
简单总结一句:无论是技术、资源还是市场先机,博通在AI定制芯片上的优势,都不是一天练成的,而是十几年深耕积累出来的底气。
第三,手握AI服务器的“高速连接神器”:PCIe交换芯片加Retimer芯片
在当前主流的AI服务器配置中,PCIe Switch加Retimer(重定时器)是实现高速连接的关键装备。想象一下,一台15英寸标准AI服务器里,通常会塞满多个PCIe插槽和网络接口(NIC),用来连接各种组件,比如CPU、AI加速器、网卡和存储设备。CPU原生的PCI接口有限,这就靠PCIe交换芯片出马进行扩展了。
当然,光有PCIe Switch还不够,想要长距离传输保持稳定,就得靠Retimer出手:这玩意的作用就是延长传输距离,还能优化信号质量,确保高性能运行。
有意思的是,PCIe Switch和Retimer这些硬核技术,正是博通通过收购LSI后的一大看家本领。从2003年推出第一代PCIe Switch产品起,博通/LSI已经狂卖了超过10亿个端口,足见其深厚的技术积累。
而Retimer这个“强化神器”,是从 2018年的第四代PCIe 开始加入的,主要解决长距离传输中的信号衰减问题。从博通的规划来看,这项技术几乎成了后续所有PCIe代际升级中的固定配置,一路从第四代贯穿到未来的标准规格。
再来说点新鲜的:今年3月,博通发布了全球首款 5nm PCIe Gen 5.0/CXL 2.0 和 PCIe Gen 6.0/CXL 3.1 重定时器,代表了业界的顶级水平。不仅性能拉满,还进一步奠定了博通在AI服务器互联技术领域的绝对话语权。
说到这里,插一句,总部位于中国的澜起科技,也是做PCIE Retimer,目前在国产的GPU服务器里面应用非常广泛。
第四,布局未来连接技术:光互连
随着AI集群规模越来越庞大,连接链路的数量和带宽需求以指数级增长。高速确实爽,但这也带来了两个大问题: 功耗猛增,成本飙升。解决这些问题,光互连成了关键选项之一。
其实说起来,光互连并不是啥新东西。通过收购Brocade之后,博通在光技术领域打下了牢固的基本盘,比如 VCSEL(垂直腔面发射激光器)、EML(电吸收调制激光器),以及更先进的高线性连续波(CW)激光器。
这些技术到底有什么用?简单说:VCSEL主攻短距离通信,EML专治长距离单模光通信,两者在 AI和机器学习(ML)系统的高速互联中一个都不能少。目前它们的速度已经卷到了 200Gbps,而且每年出货量高达 5000万颗,真挺厉害的。
但未来真正被看好的,是CPO(光电共封装)技术。CPO特别适合 AI网络的极限场景,博通对这个领域押得很重。今年3月,博通发布了全球第一款 51.2Tbps的CPO以太网交换机:Bailly。这台设备有啥特别的?它直接把八个6.4Tbps的硅光引擎和Tomahawk 5交换芯片整合到一块,相比传统的可插拔模块方案,功耗降低70%,硅片利用率提升8倍!这东西看起来不像单纯的一步技术升级,更像是跨了一个世代。
除此之外,今年9月博通还宣布推出了5nm的 Sian 2,支持每通道 200Gbps的PAM-4 DSP PHY,比上一代更快,适配场景也更广。从电气接口到光学接口,通吃不挑食,妥妥的全能型选手。
提到连接,绕不开的是 SerDes(串并转换器)技术,这是光互连和传统铜缆互连的基础设施。博通这块同样深耕多年,比如最新的5nm 112Gb/s的Peregrine SerDes,以及3nm超前布局的 200Gb/s Condor SerDes,简直快到飞起。这些 SerDes接口不仅能够支持直接连接铜缆(DAC),而且原生支持CPO。此外,还能广泛适用于交换机,处理器(XPU),网卡(NIC),数字信号处理器(DSPs)等多个产品平台,真正实现了“一块技术,多面开花”。
总的来说,不管是短期突破还是未来趋势,博通在光互连领域不仅占据了技术高地,还保持了全面覆盖。眼看AI网络的需求继续猛涨,博通已经用自己的“连接神技”牢牢占住了关键跑道。
总结:
博通在半导体和ASIC方面的成功绝对不是偶然。随着AI浪潮在全球掀起热潮,对算力的需求也在飞速增长,直接推动了高性能芯片和网络架构的快速升级。博通抓住了这个机会发展超强的AI定制芯片业务,再加上PCIe交换芯片、光学技术、SerDes等一系列顶级互连技术,简直就是为AI量身打造的“护城河”。这样的全面布局,让博通成为引领AI时代下一波增长的重要力量。
点击图片查看原图