一、技术内核:3D 堆叠重构内存性能边界
HBM(High Bandwidth Memory,高带宽内存)是面向高性能计算、人工智能等重载场景的 3D 堆叠 DRAM 解决方案,其核心创新在于垂直集成架构:通过硅通孔(TSV)和微凸块(Microbump)技术,将 4-16 层 DRAM 芯片垂直堆叠,每层容量达 2-24GB,既缩短数据传输路径、降低延迟与功耗,又通过 2048 位超宽总线(如 HBM4)和 32 个独立并行通道,实现带宽质的飞跃。

1.超高带宽:HBM3 单堆栈带宽最高 819GB/s,是 DDR5 4800(38.4GB/s)的 20 倍以上,HBM3E 更是突破 1.2TB/s,彻底解决大数据吞吐瓶颈;
2.极致能效:短距传输减少信号损耗,相比传统 DDR 内存功耗降低 50% 以上,适配数据中心高密度部署需求;
3.高容量密度:单堆栈容量从 HBM1 的 1GB 演进至如今 24GB,多堆栈组合可实现 TB 级容量;
4.紧凑形态:芯片级封装设计,尺寸远小于传统内存模组,便于与 GPU 等芯片集成。
•HBM1(2015):4 层堆叠,128GB/s 带宽,1GB 容量,首次应用于 AMD Radeon R9 Fury X、NVIDIA Tesla P100;
•HBM2(2016):8 层堆叠,256GB/s 带宽,8GB 容量,成为 NVIDIA V100、AMD Vega 系列标配;
•HBM2E(2020):带宽超 500GB/s,容量 16GB,支撑 NVIDIA A100、H100 等 AI 加速卡;
•HBM3(2022):819GB/s 带宽,24GB 容量,赋能 NVIDIA H100、AMD MI300 系列;
•新一代演进:HBM3E 已量产,HBM4 规范发布,接口速率突破 1.2Tbps / 堆叠,单芯片容量可达 64GB。
对比维度 | HBM 内存 | DDR5 4800 内存 |
外观形态 | 方形芯片级封装,无金手指 | 长条形模组,底部带金手指 |
封装技术 | 3D 堆叠(TSV + 微凸块) | 传统平面封装 |
性能参数 | 单堆栈带宽最高 819GB/s(HBM3) | 单条带宽 38.4GB/s |
连接方式 | 2.5D 封装集成于 GPU / 加速器基板 | 插入主板内存插槽 |
应用场景 | AI、数据中心、高性能计算 | 消费级 PC、工作站日常计算 |
关键结论:HBM 内存无法直接安装在普通主板,需通过中介层与 GPU 等芯片集成后,再通过封装基板锡球与主板互联,适配专业算力设备而非消费级平台。
•Blackwell Ultra(2025):288GB HBM3e,AI 性能达 H100 的 70 倍,适配多模型并发推理;
•H200:首款 HBM3e GPU,大模型训练速度提升 5 倍,支持 900GB/s NVLink 互联;
•H100:80GB/141GB HBM3,4.8Tbps 带宽,GPT-4 等大模型训练主力;
•A100:40GB/80GB HBM2e,2.03TB/s 带宽,支持多实例 GPU 技术;
•V100:16GB/32GB HBM2,900GB/s 带宽,早期 AI 训练标杆。
•Instinct MI400 系列(2026):搭载 HBM4,MI455X 聚焦 AI 训练,MI430X 兼顾 HPC 与 AI;
•Instinct MI350 系列:288GB HBM3E,8TB/s 带宽,单卡可运行 5200 亿参数模型。