巅峰对决：两大算力巨兽

华为 Cloud Matrix 384 vs. NVIDIA NVL72，静态指标全方位对比。

架构类型

Scale-Out

vs. Scale-Up

理论总算力 (FP16)

~300 PFLOPS

高出 67%

总HBM内存

~49 TB

容量翻倍

估算售价

~$800万

vs. ~$300万

技术解码：两种扩张哲学

Scale-Up（纵向扩展）与 Scale-Out（横向扩展）的本质区别。

Scale-Up: 纵向扩展 (NVIDIA NVL72)

类比：将小搅拌机换成一台更大、更强的工业级搅拌机。通过提升单个节点（机柜）的内部性能和互联密度来增强整体能力。

优势: 单机柜内全互联，通信延迟极低，对特定应用友好。
挑战: 技术集成度极高，功耗和散热是巨大工程难题。

Scale-Out: 横向扩展 (华为 Cloud Matrix)

类比：增加更多同样的小搅拌机协同工作。通过增加更多标准化的节点（服务器集群）来线性扩展总算力。

优势: 易于扩展，可利用相对成熟的技术构建超大规模集群。
挑战: 跨机柜通信开销大，对网络和系统优化能力要求极高。

算力解构：从芯片到超级计算机

AI算力不再是单颗GPU的独角戏，而是“数据中心即计算机”的系统工程。

L4: 超级节点/集群 (Supernode/Cluster)

由多个机柜通过高速网络互联，形成统一的计算资源池。

L3: 机柜 (Rack)

集成多台服务器、交换机、供电和散热系统。

L2: 服务器 (Server)

通常包含8颗GPU，通过NVLink或类似技术高速互联。

L1: AI芯片 (GPU/NPU)

算力的核心，但成本结构中HBM显存占比已超50%。

关键洞察： 随着层级上升，互联技术 (Interconnect) 和散热/供电的重要性指数级增长，成为新的技术壁垒。

战略分歧：两条不同的登顶之路

面对相同的AI浪潮，中美顶级玩家选择了不同的发展路径。

NVIDIA: 生态为王，技术封顶

基于全球最顶尖的供应链，追求单点技术的极致，并通过强大的软件和互联生态锁定客户。

✓
护城河1: CUDA
统治性的软件生态，迁移成本极高。
✓
护城河2: NVLink/NVSwitch
无法替代的高速互联技术，Scale-Up的核心。
✓
护城河3: 顶级供应链
优先获得台积电最先进制程和SK海力士HBM。

华为: 系统制胜，规模换速

在单点技术受限的情况下，发挥自身在通信和系统工程上的优势，通过超大规模集群实现总算力反超。

✓
优势1: 系统整合能力
利用电信级网络技术积累，优化大规模集群通信。
✓
优势2: 成本结构差异
中国相对低廉的电力成本，使得高功耗方案在经济上可行。
✓
优势3: 垂直整合
同时拥有计算（昇腾）和网络（交换机）能力，国内唯一。

未来变量：谁将动摇算力王座？

技术、市场和资源，正在共同塑造AI算力的明天。

瓶颈：能源危机

AI数据中心的电力消耗已占全球2-3%，超级节点虽单位成本低，但总功耗巨大，可持续发展面临挑战。

变量：客户自研

NVIDIA客户高度集中，Google (TPU)、Amazon (Trainium)等巨头为降低成本和保供应链安全，纷纷自研芯片，构成长期威胁。

破局：新计算范式

类脑计算、存算一体等技术虽远未成熟，但可能是解决能耗瓶颈的终极方案，代表了下一代计算架构的希望。

时代缩影：一位芯片老兵的足迹

从徐凌杰的职业生涯看AI算力产业的演进。

1

~2008-2010

NVIDIA & AMD 时代

参与GPU架构设计，亲历PC显卡大战和CUDA生态早期探索。

2

2016~

转向阿里云

受Google TPU发布冲击，投身云计算，主导AI云基础设施建设。

3

2019~

创立壁仞科技

加入国产GPU创业浪潮，致力于打造高性能AI芯片。

4

2024

再创业：模型智能

聚焦算力集群产品设计与优化，抓住超节点趋势带来的新机遇。

AI算力底层的新变革

华为超节点搅动 AI算力江湖