英伟达迎来劲敌-亚马逊Trainium

2026-01-06

AWS自2020年起逐步推出自研AI加速器Trainium系列，从Trainium1到Trainium3的迭代中，通过制程工艺升级、架构优化和规模化部署，逐步缩小与英伟达、谷歌等竞品的差距，并在2025年通过Trn3 UltraServer集群实现性能突破。当前，开发者对Trainium3的等待已超过一年，但AWS首席执行官Matt Garmin在re:Invent 2025大会透露的Trainium4计划，引发了用户对技术迭代速度和成本收益的担忧。

Trainium3的技术亮点

制程与能效
：采用台积电3纳米工艺，相比Trainium2的5纳米设计，计算能力提升2倍，能效提高40%，单插槽性能较Trn2 UltraServer提升4.4倍。
集群扩展性
：Trn3 UltraServer支持单内存域144个XPU，总HBM带宽达4.9 TB/s，较Trn2提升1.7倍，且每兆瓦计算能力可生成5倍的token数，显著优化推理成本。
架构改进
：NeuronCore-v4核心引入MXFP8量化格式支持，矢量引擎优化指数函数计算（用于自注意力算法），HBM容量增至144 GB，NeuronLink-v4互连带宽达2.5 TB/s。

Trainium系列演进路径

Trainium1（2020）
：7纳米工艺，550亿晶体管，3 GHz频率，NeuronCore-v1架构（标量/向量/张量引擎+CC-Core），峰值16 TFLOPS FP16/BF16张量性能。
Trainium2（2023）
：5纳米工艺，NeuronCore-v3架构，支持1:4稀疏度，SRAM增至28 MB，HBM带宽2.9 TB/s，单插槽性能较Trainium1提升3.5倍。
Trainium3（2025）
：3纳米工艺，NeuronCore-v4架构，MXFP8量化、矢量引擎优化，HBM容量144 GB，带宽4.9 TB/s，单内存域扩展至144插槽。

Trainium4的预期突破
Garmin暗示Trainium4将带来颠覆性升级：

性能跃升
：采用2纳米工艺（或3纳米），NeuronCore-v5架构原生支持FP4格式，理论性能较Trainium3提升6倍（FP8降级至FP4时）。
内存与互连
：HBM容量翻倍至288 GB，带宽提升4倍至19.6 TB/s；NeuronLink-v5兼容NVLink/UALink，单UltraServer集群规模或扩展至288插槽（6,912个NeuronCore，1,944 TB HBM）。
生态整合
：可能集成NVIDIA NVLink端口，通过NVSwitch构建跨AWS与NVIDIA GPU的共享内存域，推动混合架构协同。

行业竞争与用户焦虑

Trainium3虽已接近竞品（如NVIDIA B200、谷歌Trillium TPU v6e），但用户因Trainium4的潜在颠覆性而推迟采购决策。AWS需平衡短期交付与长期创新，同时应对谷歌Ironwood TPU v7p（单内存域9,612插槽）的规模化挑战。

总结

AWS通过Trainium系列XPU的持续迭代，正在构建以高能效、可扩展性和混合架构为核心的AI算力生态。Trainium3的规模化部署已验证其竞争力，而Trainium4的FP4原生支持、NVLink整合及超大规模集群设计，或将重塑AI训练与推理的性能边界。然而，用户对技术迭代速度的焦虑，以及竞品厂商在制程、集群规模上的激烈竞争，仍将是AWS未来需攻克的关键课题。

阅读50

产品展示

‍

宝禄服务器租赁-月租

立即预约

在线留言