强化学习是什么?从 AlphaGo 到 RLHF

强化学习(Reinforcement Learning,RL)是机器学习的三大范式之一,让智能体通过试错和奖励学习最优策略。AlphaGo 击败围棋世界冠军、ChatGPT 学会"听话回答"(RLHF),底层都是强化学习。本文带你搞懂 RL 的核心概念、经典应用和在大模型中的关键作用,以及如何通过 AI的那些事儿 调用经过 RL 训练的大模型。

阅读时长:约 7 分钟 难度:入门 含实战代码

发布: 更新:

强化学习的定义

强化学习 = 智能体(Agent)在环境中通过行动→反馈→调整的循环,学会做出最优决策。

通俗比喻:像训练小狗——做对了给零食(奖励),做错了不给(惩罚)。重复多次后,小狗就学会了正确的行为。

与其他学习范式的区别:

  • 监督学习:有标准答案,直接告诉模型"正确答案是什么"
  • 无监督学习:没有答案,让模型自己发现数据中的结构
  • 强化学习:没有标准答案,但有奖励信号,模型通过试错找到最优策略

强化学习的核心概念

智能体(Agent)

做决策的主体。可以是游戏AI、机器人、大模型。它观察环境,选择行动。

环境(Environment)

智能体所处的世界。可以是棋盘、游戏画面、物理世界、对话场景。

状态(State)

环境在某一时刻的描述。棋盘上棋子的位置、游戏画面的像素、对话的上下文。

动作(Action)

智能体可以采取的行为。下一步棋、移动方向、生成下一个词。

奖励(Reward)

环境对动作的反馈。赢棋+1、输棋-1、人类点赞+1。智能体的目标是最大化累计奖励。

策略(Policy)

智能体的行为规则:在什么状态下采取什么动作。训练的目标就是找到最优策略。

强化学习的经典应用

AlphaGo(2016)

DeepMind 用深度强化学习训练围棋AI,击败世界冠军李世石。证明RL能解决超复杂决策问题。

游戏AI

OpenAI Five(Dota2)、AlphaStar(星际争霸)、Atari游戏。RL让AI在游戏中超越人类玩家。

机器人控制

让机器人学会走路、抓取物体、完成复杂操作。从模拟环境训练,迁移到真实世界。

自动驾驶

决策规划:何时变道、何时刹车、如何避障。RL帮助自动驾驶系统做出安全决策。

推荐系统

将推荐看作序列决策:每次推荐是一个动作,用户点击是奖励。优化长期用户满意度。

RLHF(大模型对齐)

用人类反馈训练大模型"听话"。ChatGPT、Claude 能按人类意图回答,关键就是RLHF。

RLHF:强化学习在大模型中的关键作用

RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)是让大模型"听话"的核心技术:

1. 预训练

大模型先用海量文本做自监督预训练,学会语言能力。但此时它"什么都知道却不听话"。

2. SFT(监督微调)

用人工编写的高质量对话数据微调,让模型学会对话格式和基本指令遵循。

3. 奖励模型

让人类对模型的多个回答排序,训练一个"奖励模型"来预测人类偏好。

4. RL 优化

用PPO等强化学习算法,以奖励模型的分数为奖励信号,优化大模型的输出策略。

结果:经过RLHF的模型更有帮助、更诚实、更安全。这就是为什么ChatGPT比原始GPT-3好用得多。

强化学习的主流算法

Q-Learning / DQN

学习"状态-动作"的价值函数。DeepMind用DQN让AI学会玩Atari游戏。适合离散动作空间。

Policy Gradient

直接优化策略函数。适合连续动作空间(机器人控制)。REINFORCE是最基础的版本。

PPO(近端策略优化)

OpenAI提出,稳定且高效。RLHF中最常用的算法,ChatGPT就是用PPO训练的。

Actor-Critic

结合价值函数和策略函数的优点。A3C、SAC等变体广泛用于机器人和游戏AI。

体验强化学习训练的大模型

GPT-4o、Claude Opus 4、o3 都经过了强化学习(RLHF)训练。通过 AI的那些事儿 你可以直接调用:

  • 国内直连:境内骨干节点,无需代理,延迟低至 50ms。
  • 统一接口:所有模型用 OpenAI SDK 调用,改个 base_url 就行。
  • 推理模型:o3 是专门用强化学习优化推理能力的模型,数学和逻辑特别强。
  • 按量计费:用多少付多少,比官方便宜 20%-40%。

实战:调用经过强化学习训练的模型

  1. 获取 AI的那些事儿 API Key。
  2. 在代码中把 base_url 改为 https://api.example.com/v1。
  3. 调用 o3(推理优化)或 GPT-4o(RLHF对齐)体验强化学习的成果。

Python 示例:体验 RLHF 对齐效果

from openai import OpenAI

client = OpenAI(
    api_key="你的Key",
    base_url="https://api.example.com/v1"
)

# RLHF 让模型学会拒绝有害请求,同时保持有帮助
r = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": "请解释强化学习中的探索与利用(Exploration vs Exploitation)困境"
    }]
)
print("RLHF对齐模型:", r.choices[0].message.content)

# o3 是用强化学习专门优化推理能力的模型
r = client.chat.completions.create(
    model="o3",
    messages=[{
        "role": "user",
        "content": "一个智能体在5x5网格中从左上角走到右下角,每步只能向右或向下,有多少种不同路径?"
    }]
)
print("推理模型o3:", r.choices[0].message.content)

Node.js 示例

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "你的Key",
  baseURL: "https://api.example.com/v1",
});

const r = await client.chat.completions.create({
  model: "claude-sonnet-4-20250514",
  messages: [{
    role: "user",
    content: "用强化学习的术语(状态、动作、奖励、策略)来描述'学骑自行车'的过程"
  }],
});
console.log(r.choices[0].message.content);

常见问题

强化学习是什么?

强化学习(RL)是机器学习的三大范式之一,让智能体通过与环境交互、试错和获得奖励来学习最优策略。AlphaGo、游戏AI、RLHF(大模型对齐)都使用了强化学习。

强化学习和监督学习有什么区别?

监督学习有标准答案(标签),直接告诉模型对错;强化学习没有标准答案,只有奖励信号,模型需要自己探索找到最优策略。强化学习更适合决策和规划类问题。

RLHF 是什么?

RLHF(Reinforcement Learning from Human Feedback)是用人类反馈作为奖励信号来训练大模型的技术。它让ChatGPT、Claude学会按人类意图回答、拒绝有害请求。是大模型"对齐"的核心方法。

o3 模型和强化学习有什么关系?

o3 是 OpenAI 用强化学习专门优化"推理能力"的模型。它在数学、逻辑、编程等需要深度思考的任务上特别强,因为RL训练让它学会了"多步推理"的策略。

怎么体验强化学习训练的模型?

通过 AI的那些事儿 调用 o3(推理优化)、GPT-4o(RLHF对齐)、Claude(Constitutional AI)等模型。国内直连免代理,按次计费。

体验强化学习训练的最强大模型

o3 推理模型、GPT-4o、Claude Opus 4……一个接口,直接调用。