Stable Diffusion 是什么?AI 绘画开源模型全解析
Stable Diffusion 是由 Stability AI 开发的开源文生图(text-to-image)AI 模型。用户输入文字描述(prompt),模型即可生成对应图片。因为完全开源、可本地运行,它成为全球最流行的 AI 绘画工具。本文带你了解 SD 全版本演进、Flux 新模型,以及如何通过 AI的那些事儿 调用图像生成 API。
发布: 更新:
Stable Diffusion 的核心特点
- 完全开源:模型权重公开,可免费下载、本地运行、商用
- 本地运行:消费级 GPU(4GB+ 显存)即可运行,无需联网
- 生态丰富:数万个社区微调模型(LoRA/Checkpoint)、WebUI、ComfyUI 等工具
- 高度可控:ControlNet 精确控制构图、IP-Adapter 风格迁移、Inpainting 局部修改
- 扩散模型:基于 Latent Diffusion 架构,在潜空间中逐步去噪生成图片
版本演进
SD 1.5 (2022.10)
最经典版本。512×512 分辨率。社区模型最多,生态最成熟。至今仍被广泛使用。
SD 2.0/2.1 (2022.11)
768×768 分辨率,新 CLIP 编码器。但社区反响一般,兼容性问题导致采用率低。
SDXL (2023.7)
重大升级。1024×1024 原生分辨率,双 CLIP 编码器,图像质量飞跃。成为新一代主流。
SD 3 (2024.6)
架构革新。MMDiT(多模态 DiT)架构,Flow Matching 训练。文字渲染能力大幅提升。
Flux (2024.8)
SD 原作者新作。Black Forest Labs 开发。质量超越 SD3 和 Midjourney,成为新标杆。
SD vs DALL-E vs Midjourney
Stable Diffusion
开源免费、本地运行、自由度最高、生态最丰富。适合技术用户和专业创作者。
DALL-E 3
OpenAI 产品,集成在 ChatGPT 中。提示词理解最好,使用最简单。适合普通用户。
Midjourney
商业产品,艺术风格最强。通过 Discord 使用。适合设计师和艺术创作。
通过 AI的那些事儿 可调用 DALL-E 3 等图像生成 API,也可配合本地 SD 使用。
使用方式
WebUI (A1111)
最流行的本地界面。功能全面,插件丰富。适合入门和日常使用。
ComfyUI
节点式工作流。灵活度最高,适合复杂流程和批量生产。专业用户首选。
API 调用
通过 Stability AI API 或 AI的那些事儿中转调用。无需本地 GPU,适合集成到应用中。
实战:API 调用图像生成
Python 示例:通过 OpenAI 格式调用
from openai import OpenAI
client = OpenAI(
api_key="你的Key",
base_url="https://api.example.com/v1" # AI的那些事儿中转
)
# DALL-E 3 图像生成
r = client.images.generate(
model="dall-e-3",
prompt="一只穿着宇航服的猫咪在月球上漫步,背景是地球,赛博朋克风格",
size="1024x1024",
quality="hd",
n=1
)
print(r.data[0].url)
# 也可以用 GPT-4o 讨论绘画提示词
r = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "帮我优化这个 Stable Diffusion 提示词:一个女孩在花园里"}],
max_tokens=500
)
print(r.choices[0].message.content)
Node.js 示例:图像生成
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "你的Key",
baseURL: "https://api.example.com/v1",
});
const response = await client.images.generate({
model: "dall-e-3",
prompt: "未来城市天际线,霓虹灯,飞行汽车,超写实风格",
size: "1792x1024",
quality: "hd",
});
console.log(response.data[0].url);
常见问题
Stable Diffusion 是什么?
Stability AI 开发的开源文生图 AI 模型。输入文字描述即可生成图片。完全开源,可本地运行,是最流行的 AI 绘画工具。
SD 需要什么配置?
最低 4GB 显存 NVIDIA GPU。推荐 8GB+(RTX 3060/4060)。SDXL 和 Flux 建议 12GB+。也可用 API 调用,无需本地 GPU。
Flux 和 SD3 哪个好?
Flux 在图像质量、文字渲染、人体结构上全面超越 SD3。目前 Flux 是开源图像生成的最强模型。
如何通过 API 生成图片?
通过 AI的那些事儿 可调用 DALL-E 3 等图像生成 API,兼容 OpenAI 格式。也可用 GPT-4o 优化提示词后再生成。
SD 生成的图片有版权吗?
目前法律尚不明确。一般认为 AI 生成图片的版权归使用者,但各国法规不同。商用建议咨询法律顾问。
AI 绘画 API,一键生成高质量图片
通过 AI的那些事儿调用 DALL-E 3 图像生成,OpenAI 格式兼容,代码零改动。