英伟达迎来劲敌-亚马逊Trainium

2026-01-06
图片

AWS自2020年起逐步推出自研AI加速器Trainium系列,从Trainium1到Trainium3的迭代中,通过制程工艺升级、架构优化和规模化部署,逐步缩小与英伟达、谷歌等竞品的差距,并在2025年通过Trn3 UltraServer集群实现性能突破。当前,开发者对Trainium3的等待已超过一年,但AWS首席执行官Matt Garmin在re:Invent 2025大会透露的Trainium4计划,引发了用户对技术迭代速度和成本收益的担忧。

Trainium3的技术亮点

  • 制程与能效

    :采用台积电3纳米工艺,相比Trainium2的5纳米设计,计算能力提升2倍,能效提高40%,单插槽性能较Trn2 UltraServer提升4.4倍。


  • 集群扩展性

    :Trn3 UltraServer支持单内存域144个XPU,总HBM带宽达4.9 TB/s,较Trn2提升1.7倍,且每兆瓦计算能力可生成5倍的token数,显著优化推理成本。


  • 架构改进

    :NeuronCore-v4核心引入MXFP8量化格式支持,矢量引擎优化指数函数计算(用于自注意力算法),HBM容量增至144 GB,NeuronLink-v4互连带宽达2.5 TB/s。



Trainium系列演进路径

  1. Trainium1(2020)

    :7纳米工艺,550亿晶体管,3 GHz频率,NeuronCore-v1架构(标量/向量/张量引擎+CC-Core),峰值16 TFLOPS FP16/BF16张量性能。


  2. Trainium2(2023)

    :5纳米工艺,NeuronCore-v3架构,支持1:4稀疏度,SRAM增至28 MB,HBM带宽2.9 TB/s,单插槽性能较Trainium1提升3.5倍。


  3. Trainium3(2025)

    :3纳米工艺,NeuronCore-v4架构,MXFP8量化、矢量引擎优化,HBM容量144 GB,带宽4.9 TB/s,单内存域扩展至144插槽。


Trainium4的预期突破
Garmin暗示Trainium4将带来颠覆性升级:

  • 性能跃升

    :采用2纳米工艺(或3纳米),NeuronCore-v5架构原生支持FP4格式,理论性能较Trainium3提升6倍(FP8降级至FP4时)。


  • 内存与互连

    :HBM容量翻倍至288 GB,带宽提升4倍至19.6 TB/s;NeuronLink-v5兼容NVLink/UALink,单UltraServer集群规模或扩展至288插槽(6,912个NeuronCore,1,944 TB HBM)。


  • 生态整合

    :可能集成NVIDIA NVLink端口,通过NVSwitch构建跨AWS与NVIDIA GPU的共享内存域,推动混合架构协同。



行业竞争与用户焦虑

Trainium3虽已接近竞品(如NVIDIA B200、谷歌Trillium TPU v6e),但用户因Trainium4的潜在颠覆性而推迟采购决策。AWS需平衡短期交付与长期创新,同时应对谷歌Ironwood TPU v7p(单内存域9,612插槽)的规模化挑战。

总结

AWS通过Trainium系列XPU的持续迭代,正在构建以高能效、可扩展性和混合架构为核心的AI算力生态。Trainium3的规模化部署已验证其竞争力,而Trainium4的FP4原生支持、NVLink整合及超大规模集群设计,或将重塑AI训练与推理的性能边界。然而,用户对技术迭代速度的焦虑,以及竞品厂商在制程、集群规模上的激烈竞争,仍将是AWS未来需攻克的关键课题。


阅读50
分享