Stable Diffusion 是什么?AI 绘画开源模型全解析

Stable Diffusion 是由 Stability AI 开发的开源文生图(text-to-image)AI 模型。用户输入文字描述(prompt),模型即可生成对应图片。因为完全开源、可本地运行,它成为全球最流行的 AI 绘画工具。本文带你了解 SD 全版本演进、Flux 新模型,以及如何通过 AI的那些事儿 调用图像生成 API。

阅读时长:约 9 分钟 难度:入门 含实战代码

发布: 更新:

Stable Diffusion 的核心特点

  • 完全开源:模型权重公开,可免费下载、本地运行、商用
  • 本地运行:消费级 GPU(4GB+ 显存)即可运行,无需联网
  • 生态丰富:数万个社区微调模型(LoRA/Checkpoint)、WebUI、ComfyUI 等工具
  • 高度可控:ControlNet 精确控制构图、IP-Adapter 风格迁移、Inpainting 局部修改
  • 扩散模型:基于 Latent Diffusion 架构,在潜空间中逐步去噪生成图片

版本演进

SD 1.5 (2022.10)

最经典版本。512×512 分辨率。社区模型最多,生态最成熟。至今仍被广泛使用。

SD 2.0/2.1 (2022.11)

768×768 分辨率,新 CLIP 编码器。但社区反响一般,兼容性问题导致采用率低。

SDXL (2023.7)

重大升级。1024×1024 原生分辨率,双 CLIP 编码器,图像质量飞跃。成为新一代主流。

SD 3 (2024.6)

架构革新。MMDiT(多模态 DiT)架构,Flow Matching 训练。文字渲染能力大幅提升。

Flux (2024.8)

SD 原作者新作。Black Forest Labs 开发。质量超越 SD3 和 Midjourney,成为新标杆。

SD vs DALL-E vs Midjourney

Stable Diffusion

开源免费、本地运行、自由度最高、生态最丰富。适合技术用户和专业创作者。

DALL-E 3

OpenAI 产品,集成在 ChatGPT 中。提示词理解最好,使用最简单。适合普通用户。

Midjourney

商业产品,艺术风格最强。通过 Discord 使用。适合设计师和艺术创作。

通过 AI的那些事儿 可调用 DALL-E 3 等图像生成 API,也可配合本地 SD 使用。

使用方式

WebUI (A1111)

最流行的本地界面。功能全面,插件丰富。适合入门和日常使用。

ComfyUI

节点式工作流。灵活度最高,适合复杂流程和批量生产。专业用户首选。

API 调用

通过 Stability AI API 或 AI的那些事儿中转调用。无需本地 GPU,适合集成到应用中。

实战:API 调用图像生成

Python 示例:通过 OpenAI 格式调用

from openai import OpenAI

client = OpenAI(
    api_key="你的Key",
    base_url="https://api.example.com/v1"  # AI的那些事儿中转
)

# DALL-E 3 图像生成
r = client.images.generate(
    model="dall-e-3",
    prompt="一只穿着宇航服的猫咪在月球上漫步,背景是地球,赛博朋克风格",
    size="1024x1024",
    quality="hd",
    n=1
)
print(r.data[0].url)

# 也可以用 GPT-4o 讨论绘画提示词
r = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "帮我优化这个 Stable Diffusion 提示词:一个女孩在花园里"}],
    max_tokens=500
)
print(r.choices[0].message.content)

Node.js 示例:图像生成

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "你的Key",
  baseURL: "https://api.example.com/v1",
});

const response = await client.images.generate({
  model: "dall-e-3",
  prompt: "未来城市天际线,霓虹灯,飞行汽车,超写实风格",
  size: "1792x1024",
  quality: "hd",
});

console.log(response.data[0].url);

常见问题

Stable Diffusion 是什么?

Stability AI 开发的开源文生图 AI 模型。输入文字描述即可生成图片。完全开源,可本地运行,是最流行的 AI 绘画工具。

SD 需要什么配置?

最低 4GB 显存 NVIDIA GPU。推荐 8GB+(RTX 3060/4060)。SDXL 和 Flux 建议 12GB+。也可用 API 调用,无需本地 GPU。

Flux 和 SD3 哪个好?

Flux 在图像质量、文字渲染、人体结构上全面超越 SD3。目前 Flux 是开源图像生成的最强模型。

如何通过 API 生成图片?

通过 AI的那些事儿 可调用 DALL-E 3 等图像生成 API,兼容 OpenAI 格式。也可用 GPT-4o 优化提示词后再生成。

SD 生成的图片有版权吗?

目前法律尚不明确。一般认为 AI 生成图片的版权归使用者,但各国法规不同。商用建议咨询法律顾问。

AI 绘画 API,一键生成高质量图片

通过 AI的那些事儿调用 DALL-E 3 图像生成,OpenAI 格式兼容,代码零改动。