大模型中的SFT是什么?

SFT(Supervised Fine-Tuning,监督微调)是用人工编写的高质量对话数据对预训练大模型进行监督学习,让模型学会对话格式和指令遵循。它是大模型训练流程中'预训练→SFT→RLHF'的第二步。

监督学习是什么?原理、算法与应用全解

Q: 监督学习是什么?

监督学习(Supervised Learning)是机器学习最常见的范式,用'带标签的数据'(输入+正确答案)训练模型,让模型学会从输入预测输出。垃圾邮件检测、图像分类、房价预测都是监督学习的典型应用。

Q: 监督学习和无监督学习有什么区别?

监督学习有标签(正确答案),模型学习输入→输出的映射;无监督学习没有标签,模型自己发现数据中的结构和模式(如聚类、降维)。大模型预训练属于自监督学习(无监督的一种),SFT微调属于监督学习。

监督学习(Supervised Learning)是机器学习最基础、最常用的范式——用"带答案的数据"训练模型,让它学会从输入预测输出。垃圾邮件检测、图像分类、房价预测,以及大模型的 SFT 微调,都属于监督学习。本文带你搞懂它的原理、常见算法和在大模型中的作用,以及如何通过 AI的那些事儿 调用经过监督微调的大模型。

阅读时长:约 6 分钟难度:入门含实战代码

发布:2026-05-21 更新:2026-05-21

监督学习的定义

监督学习 = 给模型"带答案的题目"(标注数据),让它学会从输入预测输出。

通俗比喻:像老师批改作业——学生(模型)做题,老师(标签)告诉对错,学生根据反馈改进,最终学会解题方法。

核心要素:

输入(X):特征数据,如邮件文本、图片像素、房屋面积
标签(Y):正确答案,如"垃圾邮件"、"猫"、"500万"
模型:学习 X→Y 映射关系的函数
目标:对新的、没见过的输入也能准确预测

监督学习的两大任务

分类(Classification)

预测离散类别。"这封邮件是垃圾邮件还是正常邮件?""这张图是猫还是狗?"输出是有限的类别标签。

回归(Regression)

预测连续数值。"这套房子值多少钱?""明天气温多少度?"输出是一个具体的数字。

判断方法:输出是类别→分类;输出是数字→回归。

监督学习的常见算法

线性回归

最简单的回归算法。用一条直线拟合数据。适合线性关系明显的场景。

逻辑回归

名字叫"回归",实际做分类。用Sigmoid函数输出概率。二分类的经典选择。

决策树

像流程图一样做决策。可解释性强,容易理解。随机森林是其集成版本。

SVM(支持向量机)

找到最优分割超平面。在高维空间中表现好,曾是分类任务的王者。

神经网络

多层感知机,能学习复杂非线性关系。深度神经网络(CNN/Transformer)是当前主流。

XGBoost / LightGBM

梯度提升树,结构化数据(表格)上的王者。Kaggle竞赛常胜将军。

监督学习在大模型中的角色:SFT

大模型的训练流程中,SFT(Supervised Fine-Tuning,监督微调)是关键一步:

1. 预训练(自监督)

用海量文本做"预测下一个词"训练。模型学会语言能力,但不会"听话"对话。

2. SFT(监督学习)

用人工编写的高质量对话数据微调。输入=用户问题,标签=理想回答。模型学会对话格式。

3. RLHF(强化学习)

用人类偏好反馈进一步优化。让模型更有帮助、更安全。

SFT 就是监督学习在大模型中的应用——用"示范对话"教模型怎么回答问题。

监督学习的应用场景

垃圾邮件检测

输入:邮件内容;标签:垃圾/正常。经典的二分类问题。

图像识别

输入:图片;标签:类别(猫/狗/车)。ImageNet有1400万张标注图片。

语音识别

输入:音频;标签:对应文字。Whisper用68万小时标注音频训练。

房价预测

输入:面积/位置/楼层;标签:成交价。典型的回归问题。

医学诊断

输入:检查指标/影像;标签:疾病类型。辅助医生做诊断决策。

用大模型零样本完成"监督学习"任务

2026年,很多传统需要标注数据+训练模型的监督学习任务,现在直接用大模型+提示词就能完成:

国内直连:通过 AI的那些事儿,境内骨干节点,无需代理。
零样本分类:不需要标注数据,用提示词告诉模型分类规则即可。
统一接口:GPT、Claude、Gemini 全部用 OpenAI SDK 调用。
按量计费:用多少付多少,比官方便宜 20%-40%。

实战:用大模型完成分类和回归任务

获取 AI的那些事儿 API Key。
在代码中把 base_url 改为 https://api.example.com/v1。
用提示词让大模型完成分类或预测任务。

Python 示例:零样本文本分类

from openai import OpenAI

client = OpenAI(
    api_key="你的Key",
    base_url="https://api.example.com/v1"
)

# 传统监督学习需要大量标注数据训练,大模型零样本即可
emails = [
    "恭喜您中奖100万,点击链接领取",
    "明天下午3点的会议改到4点,请知悉",
    "限时优惠!全场1折起,仅剩最后3小时",
]

for email in emails:
    r = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": f"判断以下邮件是'垃圾邮件'还是'正常邮件',只回答分类结果:\n{email}"
        }],
        temperature=0
    )
    print(f"[{r.choices[0].message.content}] {email[:20]}...")

Node.js 示例:结构化信息提取

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "你的Key",
  baseURL: "https://api.example.com/v1",
});

// 传统NER需要标注数据+训练,大模型直接提取
const r = await client.chat.completions.create({
  model: "gpt-4o",
  messages: [{
    role: "user",
    content: `从以下文本提取实体,以JSON返回{人名,公司,职位,金额}:
"李明是腾讯的产品总监,负责管理年预算2000万的AI项目。"`
  }],
  temperature: 0,
});
console.log(r.choices[0].message.content);

常见问题

监督学习是什么?

监督学习是机器学习最常见的范式,用"带标签的数据"(输入+正确答案)训练模型,让模型学会从输入预测输出。垃圾邮件检测、图像分类、房价预测都是典型应用。

监督学习和无监督学习有什么区别?

监督学习有标签(正确答案),学习输入→输出映射;无监督学习没有标签,自己发现数据结构(聚类、降维)。大模型预训练是自监督(无监督的一种),SFT是监督学习。

监督学习最大的挑战是什么?

标注数据的获取。高质量标注需要人工,成本高、耗时长。这也是为什么大模型(零样本/少样本学习)如此有价值——不需要大量标注数据就能完成任务。

现在还需要自己做监督学习吗?

通用任务(分类、抽取、翻译)直接调用大模型API即可。只有特定垂直场景(医学影像、工业质检)或对延迟/成本有极致要求时,才需要训练专用的监督学习模型。

怎么调用经过监督微调的大模型?

通过 AI的那些事儿调用 GPT-4o、Claude 等模型。它们都经过了SFT(监督微调)+RLHF训练。国内直连免代理,按token计费。

大模型 = 零样本的监督学习

不需要标注数据,GPT-4o、Claude 用提示词即可完成分类、抽取、预测。

回首页了解更多查看更多教程