H100/B200/A100 全解:NVIDIA AI GPU 选型指南

NVIDIA 的 AI GPU 是大模型时代的核心硬件。从 A100 到 H100 再到最新的 B200/GB200,每一代都带来数倍性能提升。本文全面对比各型号的规格、性能和价格,包括中国特供版(A800/H800)。当然,作为开发者你不需要购买这些昂贵硬件——通过 AI的那些事儿 调用 API 即可享受顶级算力。

阅读时长:约 9 分钟 难度:进阶 算力与硬件

发布: 更新:

Ampere 架构:A100 系列

A100 (80GB)

架构:Ampere
显存:80GB HBM2e
FP16性能:312 TFLOPS
互联:NVLink 3.0 (600GB/s)
价格:~$15,000
地位:2020-2023 年 AI 训练标配

A800 (中国特供)

架构:Ampere
显存:80GB HBM2e
FP16性能:312 TFLOPS(不变)
互联:NVLink 3.0 (400GB/s,降速)
限制:互联带宽降低 33%
状态:2023 年 10 月后也被禁

Hopper 架构:H100/H200 系列

H100 (80GB)

架构:Hopper
显存:80GB HBM3
FP8性能:~3,958 TFLOPS
互联:NVLink 4.0 (900GB/s)
特性:Transformer Engine, FP8
价格:~$30,000-40,000
地位:当前 AI 训练主力

H800 (中国特供)

架构:Hopper
显存:80GB HBM3
FP8性能:~3,958 TFLOPS(不变)
互联:NVLink 4.0 (400GB/s,降速)
限制:互联带宽降低 56%
状态:2023 年 10 月后被禁

H200 (141GB)

架构:Hopper
显存:141GB HBM3e(大幅增加)
带宽:4.8 TB/s(vs H100 3.35TB/s)
特性:更大显存适合大模型推理
价格:~$35,000-45,000
优势:推理性能提升 45-90%

Blackwell 架构:B100/B200/GB200

B100

架构:Blackwell
显存:192GB HBM3e
性能:约 H100 的 2 倍
功耗:700W
定位:Blackwell 入门级数据中心 GPU

B200

架构:Blackwell
显存:192GB HBM3e
FP4性能:~9,000 TFLOPS
功耗:1000W
特性:第二代 Transformer Engine, FP4
定位:Blackwell 旗舰,H100 继任者

GB200 超级芯片

配置:2× B200 GPU + 1× Grace CPU
显存:384GB HBM3e(合计)
互联:NVLink 5.0 (1.8TB/s)
性能:AI 训练约 H100 的 4 倍
定位:超大规模 AI 训练旗舰

性能对比总览

训练性能(相对 A100)

A100 = 1×
H100 ≈ 3-6×
H200 ≈ 4-7×
B200 ≈ 7-12×
GB200 ≈ 15-20×

推理性能(相对 A100)

A100 = 1×
H100 ≈ 3-4×
H200 ≈ 5-8×(大模型优势明显)
B200 ≈ 10-15×
GB200 ≈ 20-30×

价格区间

A100: ~$15,000
H100: ~$30,000-40,000
H200: ~$35,000-45,000
B200: ~$40,000-50,000(预估)
GB200: ~$60,000-70,000(预估)

开发者视角:你不需要买这些 GPU

这些 GPU 面向数据中心和大型企业。作为开发者,你只需通过 API 调用即可:

# 背后是数万张 H100/B200 的算力,你只需一行代码
from openai import OpenAI

client = OpenAI(
    api_key="你的Key",
    base_url="https://api.example.com/v1"  # AI的那些事儿
)

# GPT-4o 运行在数万张 H100 集群上
r = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "对比 H100 和 B200 的技术差异"}],
    max_tokens=1500
)
print(r.choices[0].message.content)

# 一张 H100 约 3 万美元
# 一次 API 调用约 ¥0.01-0.1
# 你选哪个?

常见问题

H100 和 A100 有什么区别?

H100 是 A100 的下一代(Hopper vs Ampere)。引入 Transformer Engine 和 FP8 精度,AI 训练性能约为 A100 的 3-6 倍,显存带宽提升 2 倍。

A800 和 H800 是什么?

NVIDIA 为应对美国对华出口管制推出的中国特供版。主要限制了 NVLink 互联带宽,单卡计算性能基本不变,但多卡并行效率降低。2023 年 10 月后也被禁止出口。

B200 和 GB200 是什么?

B200 是 Blackwell 架构旗舰 GPU,性能约为 H100 的 2-3 倍。GB200 将 2 颗 B200 + 1 颗 Grace CPU 封装为超级芯片,面向超大规模 AI 训练。

普通开发者需要了解这些 GPU 吗?

了解即可,无需购买。通过 AI的那些事儿等 API 服务,你可以直接使用运行在这些顶级 GPU 上的模型,按 token 付费,成本仅为自购硬件的千分之一。

不用自己买 GPU,通过 API 直接调用

一张 H100 约 3 万美元,一次 API 调用约 ¥0.01。通过 AI的那些事儿享受顶级算力,无需硬件投入。