巅峰对决:两大算力巨兽
华为 Cloud Matrix 384 vs. NVIDIA NVL72,静态指标全方位对比。
架构类型
Scale-Out
vs. Scale-Up
理论总算力 (FP16)
~300 PFLOPS
高出 67%
总HBM内存
~49 TB
容量翻倍
估算售价
~$800万
vs. ~$300万
技术解码:两种扩张哲学
Scale-Up(纵向扩展)与 Scale-Out(横向扩展)的本质区别。
Scale-Up: 纵向扩展 (NVIDIA NVL72)
类比:将小搅拌机换成一台更大、更强的工业级搅拌机。通过提升单个节点(机柜)的内部性能和互联密度来增强整体能力。
- 优势: 单机柜内全互联,通信延迟极低,对特定应用友好。
- 挑战: 技术集成度极高,功耗和散热是巨大工程难题。
Scale-Out: 横向扩展 (华为 Cloud Matrix)
类比:增加更多同样的小搅拌机协同工作。通过增加更多标准化的节点(服务器集群)来线性扩展总算力。
- 优势: 易于扩展,可利用相对成熟的技术构建超大规模集群。
- 挑战: 跨机柜通信开销大,对网络和系统优化能力要求极高。
算力解构:从芯片到超级计算机
AI算力不再是单颗GPU的独角戏,而是“数据中心即计算机”的系统工程。
L4: 超级节点/集群 (Supernode/Cluster)
由多个机柜通过高速网络互联,形成统一的计算资源池。
L3: 机柜 (Rack)
集成多台服务器、交换机、供电和散热系统。
L2: 服务器 (Server)
通常包含8颗GPU,通过NVLink或类似技术高速互联。
L1: AI芯片 (GPU/NPU)
算力的核心,但成本结构中HBM显存占比已超50%。
关键洞察: 随着层级上升,互联技术 (Interconnect) 和 散热/供电 的重要性指数级增长,成为新的技术壁垒。
战略分歧:两条不同的登顶之路
面对相同的AI浪潮,中美顶级玩家选择了不同的发展路径。
NVIDIA: 生态为王,技术封顶
基于全球最顶尖的供应链,追求单点技术的极致,并通过强大的软件和互联生态锁定客户。
- ✓护城河1: CUDA
统治性的软件生态,迁移成本极高。
- ✓护城河2: NVLink/NVSwitch
无法替代的高速互联技术,Scale-Up的核心。
- ✓护城河3: 顶级供应链
优先获得台积电最先进制程和SK海力士HBM。
华为: 系统制胜,规模换速
在单点技术受限的情况下,发挥自身在通信和系统工程上的优势,通过超大规模集群实现总算力反超。
- ✓优势1: 系统整合能力
利用电信级网络技术积累,优化大规模集群通信。
- ✓优势2: 成本结构差异
中国相对低廉的电力成本,使得高功耗方案在经济上可行。
- ✓优势3: 垂直整合
同时拥有计算(昇腾)和网络(交换机)能力,国内唯一。
未来变量:谁将动摇算力王座?
技术、市场和资源,正在共同塑造AI算力的明天。
瓶颈:能源危机
AI数据中心的电力消耗已占全球2-3%,超级节点虽单位成本低,但总功耗巨大,可持续发展面临挑战。
变量:客户自研
NVIDIA客户高度集中,Google (TPU)、Amazon (Trainium)等巨头为降低成本和保供应链安全,纷纷自研芯片,构成长期威胁。
破局:新计算范式
类脑计算、存算一体等技术虽远未成熟,但可能是解决能耗瓶颈的终极方案,代表了下一代计算架构的希望。
时代缩影:一位芯片老兵的足迹
从徐凌杰的职业生涯看AI算力产业的演进。
1
~2008-2010
NVIDIA & AMD 时代
参与GPU架构设计,亲历PC显卡大战和CUDA生态早期探索。
2
2016~
转向阿里云
受Google TPU发布冲击,投身云计算,主导AI云基础设施建设。
3
2019~
创立壁仞科技
加入国产GPU创业浪潮,致力于打造高性能AI芯片。
4
2024
再创业:模型智能
聚焦算力集群产品设计与优化,抓住超节点趋势带来的新机遇。