AI 服务器是什么?GPU 集群与算力基础设施

AI 服务器是专门为 AI 训练和推理设计的高性能服务器,通常配备 4-8 张 GPU 和高速互联网络。多台 AI 服务器通过 InfiniBand 组成 GPU 集群,是训练 GPT-4、Gemini 等大模型的核心基础设施。一台 DGX H100 售价约 30 万美元,一个训练集群投资数亿。但通过 AI的那些事儿,你可以直接调用这些集群训练出的模型。

阅读时长:约 8 分钟 难度:进阶 算力与硬件

发布: 更新:

NVIDIA AI 服务器产品线

DGX H100

NVIDIA 旗舰 AI 服务器整机。8× H100 GPU + NVLink 互联 + 双 CPU + 高速存储。售价约 $300,000。即插即用。

HGX H100

GPU 主板/基板方案,供 OEM 厂商(Dell/HPE/联想等)集成到自有服务器中。灵活性更高,成本略低。

DGX SuperPOD

32 台 DGX H100 组成的标准化集群单元(256 张 GPU)。InfiniBand 全互联。是构建大规模集群的基本模块。

DGX GB200 NVL72

最新一代。72 颗 Blackwell GPU 通过 NVLink 组成单一巨型加速器。液冷,单机柜 120kW。面向万亿参数模型。

GPU 集群互联技术

NVLink(机内互联)

GPU 之间的直连总线。NVLink 4.0 带宽 900GB/s(H100),NVLink 5.0 达 1.8TB/s(GB200)。延迟极低,适合机内 GPU 通信。

NVSwitch

NVLink 交换芯片,实现机内所有 GPU 全互联(any-to-any)。DGX H100 中 4 颗 NVSwitch 连接 8 张 GPU。

InfiniBand(跨机互联)

跨服务器的高速网络。当前主流 NDR 400Gbps,下一代 XDR 800Gbps。NVIDIA 收购 Mellanox 后掌控此技术。

RoCE(替代方案)

基于以太网的 RDMA 技术,成本低于 InfiniBand。性能略逊但在改善,部分云厂商采用。

大模型训练的集群规模

  • GPT-4:估计使用 10,000-25,000 张 A100,训练数月,成本约 1 亿美元
  • Gemini Ultra:Google TPU v4 Pod,数千颗 TPU,训练数月
  • Llama 3 405B:Meta 使用 16,384 张 H100,训练约 54 天
  • 未来趋势:下一代模型可能需要 100,000+ 张 GPU,投资超 10 亿美元

这种规模的投入只有少数大厂能承担。对于其他所有人,调用 API 是唯一现实的选择

分布式训练原理

数据并行

每张 GPU 持有完整模型副本,处理不同数据批次。梯度同步后更新参数。适合模型较小的场景。

模型并行(张量并行)

将模型的单层切分到多张 GPU 上。需要高带宽互联(NVLink)。适合超大模型。

流水线并行

将模型的不同层分配到不同 GPU。像流水线一样处理数据。减少通信量但有气泡(空闲时间)。

混合并行(3D 并行)

同时使用数据+张量+流水线并行。GPT-4 等超大模型的标准训练方式。需要精心设计通信策略。

开发者视角:集群复杂性对你透明

数万张 GPU 的集群、复杂的分布式训练——这些都是大厂的事。你只需调用 API:

# 背后是数万张 GPU 的集群,你只需一行代码
from openai import OpenAI

client = OpenAI(
    api_key="你的Key",
    base_url="https://api.example.com/v1"  # AI的那些事儿
)

# GPT-4o: 10000+ 张 GPU 训练出的模型
r = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "解释分布式训练中的3D并行策略"}],
    max_tokens=1500
)
print(r.choices[0].message.content)

# 一个集群投资数亿美元
# 一次 API 调用约 ¥0.01-0.1
# 这就是 API 经济的魅力

常见问题

AI 服务器是什么?

专门为 AI 训练和推理设计的高性能服务器,配备多张 GPU 和高速互联。代表产品 NVIDIA DGX H100 含 8 张 H100,售价约 30 万美元。

GPU 集群是什么?

多台 AI 服务器通过高速网络(InfiniBand)连接组成的大规模计算系统。训练 GPT-4 级别模型需要数千到数万张 GPU 的集群。

为什么需要高速互联?

分布式训练中 GPU 之间需要频繁交换梯度数据。互联带宽不足会成为瓶颈,导致 GPU 空等数据,利用率下降。NVLink + InfiniBand 是当前标准方案。

普通开发者需要 GPU 集群吗?

不需要。GPU 集群面向训练大模型的大厂。通过 AI的那些事儿等 API 服务,你可以直接调用这些集群训练出的模型,按 token 付费。

不用自己买 GPU,通过 API 直接调用

数亿美元的 GPU 集群训练出的模型,通过 AI的那些事儿一个接口即可调用。按 token 付费,零硬件投入。