Token 是大模型处理文本的最小单位。模型不直接处理文字,而是先将文本切分为 token 再处理。英文中 1 个 token 约等于 4 个字符或 0.75 个单词;中文中 1 个汉字通常是 1-2 个 token。

按输入 token 和输出 token 分别计费。输入是你发送给模型的内容(包括系统提示词和历史消息),输出是模型生成的回答。输出通常比输入贵 2-4 倍。

怎么减少 token 消耗?

精简系统提示词、控制历史消息长度、设置合理的 max_tokens、选择合适的模型(简单任务用便宜模型)。通过 AI的那些事儿调用本身就比官方便宜 20-40%。

1 元人民币能调用多少次?

取决于模型和对话长度。以 GPT-4o mini 为例,1 元约可进行 200+ 次普通对话。通过 AI的那些事儿价格更优惠,性价比更高。

Token 是什么?AI 大模型计费方式详解

Token 是大模型处理文本的最小单位。AI API 按 token 用量计费——你发送的内容(输入)和模型生成的回答(输出)都会消耗 token。理解 token 计费机制,可以帮你优化成本、选择合适的模型。通过 AI的那些事儿 调用所有模型,价格比官方便宜 20-40%,人民币按量付费。

阅读时长:约 7 分钟难度:入门含实战代码

发布:2026-05-21 更新:2026-05-21

Token 的基本概念

定义:Token 是模型处理文本的最小单位,由分词器(Tokenizer)将文本切分而成
英文:1 token ≈ 4 个字符 ≈ 0.75 个单词。"Hello world" ≈ 2 tokens
中文:1 个汉字通常 = 1-2 个 token。"你好世界" ≈ 4-5 tokens
代码:代码中的符号、缩进都会消耗 token。一行代码通常 10-30 tokens

Token 计费方式

输入 Token(Input)

你发送给模型的所有内容:系统提示词 + 历史消息 + 当前问题。每次请求都会重新计算全部输入。

输出 Token(Output)

模型生成的回答内容。通常比输入贵 2-4 倍。可通过 max_tokens 参数限制输出长度。

费用公式:总费用 = 输入token数 × 输入单价 + 输出token数 × 输出单价

各模型价格对比(每百万 token)

GPT-4o

输入:$2.50
输出:$10.00
综合能力最强,性价比高

GPT-4o mini

输入:$0.15
输出:$0.60
极低成本,适合简单任务

Claude Sonnet 4

输入:$3.00
输出:$15.00
代码能力最强

Gemini 2.5 Flash

输入:$0.15
输出:$0.60
极速低成本,Google 出品

通过 AI的那些事儿 调用以上所有模型,价格比官方低 20-40%,人民币结算。

省钱技巧

选对模型

简单任务用 GPT-4o mini 或 Gemini Flash(便宜 20 倍),复杂任务才用旗舰模型。

精简提示词

系统提示词越短越省钱。每次请求都会重复发送,长提示词成本累积很快。

控制上下文

多轮对话时,适当截断历史消息。不需要每次都发送全部聊天记录。

用 AI的那些事儿

同样的模型,通过中转调用比官方便宜 20-40%。一个 Key 还能灵活切换模型。

实战:查看 Token 消耗

Python 示例:监控 token 用量

from openai import OpenAI

client = OpenAI(
    api_key="你的Key",
    base_url="https://api.example.com/v1"  # AI的那些事儿
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "简洁回答"},
        {"role": "user", "content": "什么是 token?"}
    ],
    max_tokens=200  # 限制输出长度,控制成本
)

# 查看 token 消耗
usage = response.usage
print(f"输入 token: {usage.prompt_tokens}")
print(f"输出 token: {usage.completion_tokens}")
print(f"总计 token: {usage.total_tokens}")
print(f"回答: {response.choices[0].message.content}")

# 简单任务用便宜模型
response_mini = client.chat.completions.create(
    model="gpt-4o-mini",  # 便宜 20 倍
    messages=[{"role": "user", "content": "1+1=?"}],
    max_tokens=10
)
print(f"mini 消耗: {response_mini.usage.total_tokens} tokens")

Node.js 示例:成本估算

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "你的Key",
  baseURL: "https://api.example.com/v1",
});

const response = await client.chat.completions.create({
  model: "gpt-4o",
  messages: [{ role: "user", content: "用 100 字介绍 React" }],
  max_tokens: 200,
});

const { prompt_tokens, completion_tokens, total_tokens } = response.usage;

// 估算成本(AI的那些事儿价格,比官方更低)
const inputCost = (prompt_tokens / 1_000_000) * 2.0;  // 中转价更低
const outputCost = (completion_tokens / 1_000_000) * 8.0;
console.log(`输入: ${prompt_tokens} tokens ($${inputCost.toFixed(6)})`);
console.log(`输出: ${completion_tokens} tokens ($${outputCost.toFixed(6)})`);
console.log(`总计: ${total_tokens} tokens`);

常见问题

Token 是什么?

Token 是大模型处理文本的最小单位。英文约 4 字符 = 1 token,中文约 1-2 字 = 1 token。AI API 按 token 数量计费。

为什么输出比输入贵?

输出需要模型逐个生成 token(自回归推理),计算量远大于处理输入。所以输出单价通常是输入的 2-4 倍。

怎么估算一次对话的费用?

API 响应中包含 usage 字段,显示实际消耗的 token 数。一次普通对话(100字问题+500字回答)约消耗 800-1000 tokens。

通过 AI的那些事儿能省多少?

比官方便宜 20-40%。同样的模型、同样的效果,成本更低。且支持人民币充值,无需国际信用卡。

比官方便宜 20-40%,人民币按量付费

AI的那些事儿 — 同样的模型更低的价格,一个 Key 调用所有 AI。

回首页了解更多查看更多教程