Gemma 是 Google 于 2024 年 2 月发布的开源大模型系列,基于 Gemini 的研究和技术构建。提供 2B 和 7B 两个尺寸,可免费下载、本地部署和商用。

Gemma 和 Gemini 有什么关系?

Gemma 使用与 Gemini 相同的研究和技术构建,是 Gemini 的'开源小弟'。Gemma 更小更轻量,适合本地部署;Gemini 更大更强,通过 API 调用。

Gemma 能本地运行吗?

可以。Gemma 2B 可在笔记本电脑上运行,7B 需要较好的 GPU。支持 Ollama、llama.cpp、Hugging Face Transformers 等多种部署方式。

Gemma 2 有什么改进?

Gemma 2 于 2024 年 6 月发布,提供 9B 和 27B 尺寸。性能大幅提升,27B 版本接近 Llama 3 70B 的水平。推理效率更高,适合更多场景。

Gemma 是什么?Google 开源大模型详解

Gemma 是 Google 于 2024 年 2 月发布的开源大模型系列,基于 Gemini 的研究和技术构建。名称来自拉丁语"宝石"(gemma)。提供多种尺寸(2B/7B/9B/27B),可免费下载、本地部署和商用。Gemma 是 Google 在开源 AI 领域的重要布局,与 Meta 的 Llama 直接竞争。

阅读时长:约 7 分钟难度:入门含实战代码

发布:2026-05-21 更新:2026-05-21

Gemma 系列版本

Gemma 1 (2024.2)

首发版本。2B 和 7B 两个尺寸。在同尺寸模型中表现优异。支持 Instruction Tuning 版本。

Gemma 2 (2024.6)

第二代。9B 和 27B 尺寸。性能大幅提升,27B 接近 Llama 3 70B。推理效率更高。

CodeGemma

代码专用版本。基于 Gemma 微调,专注代码生成和补全。支持 Fill-in-the-Middle。

PaliGemma

多模态版本。结合视觉编码器,支持图像理解和视觉问答任务。

Gemma vs Gemini

开源 vs 闭源:Gemma 完全开源可下载;Gemini 只能通过 API 调用
尺寸:Gemma 最大 27B;Gemini 参数量远大于此
部署:Gemma 可本地/私有化部署;Gemini 依赖 Google 云
能力:Gemini 远强于 Gemma;Gemma 在同尺寸中表现优异
技术关系:Gemma 使用 Gemini 的研究成果和训练技术

本地部署方式

Ollama:最简单,一行命令即可运行(ollama run gemma2)
llama.cpp:C++ 推理引擎,支持 CPU 和 GPU,量化后内存占用小
Hugging Face Transformers:Python 生态,灵活性最高
vLLM:高性能推理服务器,适合生产部署
Google Colab:免费 GPU 环境,适合快速体验

适用场景

隐私敏感:数据不能出企业的场景,本地部署保证数据安全
离线环境:无网络或网络受限的环境
低成本:大量推理需求,自建比 API 调用更划算
定制微调:需要在特定领域数据上微调的场景
学习研究:了解大模型内部机制,进行实验

实战:使用 Gemma

Python 示例:通过 API 调用 Gemma

from openai import OpenAI

# 通过 AI的那些事儿调用 Gemma(无需本地部署)
client = OpenAI(
    api_key="你的Key",
    base_url="https://api.example.com/v1"  # AI的那些事儿中转
)

r = client.chat.completions.create(
    model="gemma-2-27b-it",
    messages=[
        {"role": "user", "content": "用 Python 实现一个简单的 LRU 缓存"}
    ],
    max_tokens=800
)
print(r.choices[0].message.content)

# 也可以直接用更强的 Gemini
r = client.chat.completions.create(
    model="gemini-2.5-flash",
    messages=[{"role": "user", "content": "对比 Gemma 和 Llama 3 的优劣"}],
    max_tokens=600
)
print(r.choices[0].message.content)

本地部署示例(Ollama)

# 安装 Ollama 后一行命令运行 Gemma
ollama run gemma2:9b

# 或通过 API 调用本地 Ollama
curl http://localhost:11434/api/chat -d '{
  "model": "gemma2:9b",
  "messages": [{"role": "user", "content": "Hello, Gemma!"}]
}'

常见问题

Gemma 是什么?

Google 的开源大模型系列,基于 Gemini 技术构建。提供 2B/7B/9B/27B 多种尺寸,可免费下载、本地部署和商用。

Gemma 能商用吗?

可以。Gemma 使用 Google 的开放许可证,允许商业使用、修改和再分发。但有责任使用条款(禁止有害用途)。

Gemma 和 Llama 哪个好?

同尺寸下各有优势。Gemma 2 27B 接近 Llama 3 70B 水平(参数量更小)。Llama 生态更成熟,Gemma 效率更高。

不想本地部署怎么用 Gemma?

通过 AI的那些事儿可直接 API 调用 Gemma,也可使用更强的 Gemini。OpenAI 格式兼容,无需管理基础设施。

Gemma + Gemini,开源闭源都能用

通过 AI的那些事儿同时调用 Gemma 和 Gemini,一个接口覆盖 Google 全系列模型。

回首页了解更多查看更多教程