Gemini 1.5 Pro 和 Flash 有什么区别?

Pro 是旗舰版,能力最强,适合复杂任务;Flash 是轻量版,速度更快、成本更低,适合高吞吐场景。两者都支持百万 token 上下文。

国内怎么调用 Gemini 1.5?

通过 AI的那些事儿中转,model 填 gemini-1.5-pro 或 gemini-1.5-flash。支持 OpenAI 格式,国内直连无需代理。

Gemini 1.5 是什么?百万 Token 上下文突破

Q: Gemini 1.5 是什么?

Gemini 1.5 是 Google 于 2024 年 2 月发布的第二代 Gemini 模型,最大突破是支持 100 万 token 上下文窗口(后扩展到 200 万),采用 MoE(混合专家)架构,在保持高性能的同时大幅提升效率。

Q: 100 万 token 能处理多少内容?

约 75 万字中文文本,或 1 小时视频,或 30000 行代码,或 700 页 PDF。可以一次性处理整本书或完整代码库。

Gemini 1.5 是 Google 于 2024 年 2 月发布的第二代 Gemini 模型。最大突破是支持 100 万 token 上下文窗口(后扩展到 200 万 token),采用 MoE(混合专家)架构,在保持旗舰性能的同时大幅降低计算成本。这是当时所有大模型中最长的上下文窗口,彻底改变了长文档、长视频处理的方式。

阅读时长:约 7 分钟难度:入门含实战代码

发布:2026-05-21 更新:2026-05-21

核心突破:百万 Token 上下文

100 万 token:约 75 万字中文 / 1 小时视频 / 30000 行代码 / 700 页 PDF
200 万 token(扩展版):约 150 万字,可处理整本书或完整代码库
"大海捞针"测试:在 100 万 token 中检索特定信息,准确率 >99%
实际应用:一次性分析整个代码仓库、总结长篇论文集、理解完整视频内容

MoE 架构:效率革命

Gemini 1.5 采用 Mixture-of-Experts(混合专家) 架构:

原理:模型由多个"专家"子网络组成,每次推理只激活部分专家
优势:总参数量大(知识丰富),但每次计算量小(速度快、成本低)
效果:1.5 Pro 性能接近 1.0 Ultra,但推理成本大幅降低
Flash 版本:进一步优化速度,适合高吞吐、低延迟场景

Pro vs Flash 对比

Gemini 1.5 Pro

旗舰版。能力最强,适合复杂推理、长文档分析、代码生成。支持 100 万(后 200 万)token 上下文。

Gemini 1.5 Flash

轻量版。速度更快(延迟低 5-10 倍)、成本更低。同样支持百万 token。适合摘要、分类、高并发场景。

多模态能力

视频理解:可直接处理长达 1 小时的视频,理解画面内容和时间线
音频处理:支持语音识别和音频内容理解
图片分析:支持多图输入,理解图表、文档扫描件
代码理解:可分析整个代码库,理解跨文件依赖关系
PDF 处理:原生支持 PDF 文件输入,保留格式信息

实战:调用 Gemini 1.5

Python 示例:长文档分析

from openai import OpenAI

client = OpenAI(
    api_key="你的Key",
    base_url="https://api.example.com/v1"  # AI的那些事儿中转
)

# 读取长文档
with open("long_document.txt", "r") as f:
    content = f.read()  # 可以是几十万字

# Gemini 1.5 Pro — 百万 token 上下文
r = client.chat.completions.create(
    model="gemini-1.5-pro",
    messages=[
        {"role": "system", "content": "你是文档分析专家,请详细总结以下文档的核心观点。"},
        {"role": "user", "content": content}
    ],
    max_tokens=2000
)
print(r.choices[0].message.content)

# Gemini 1.5 Flash — 快速摘要
r = client.chat.completions.create(
    model="gemini-1.5-flash",
    messages=[{"role": "user", "content": f"用3句话总结:{content[:50000]}"}],
    max_tokens=200
)
print(r.choices[0].message.content)

Node.js 示例:代码库分析

import OpenAI from "openai";
import fs from "fs";

const client = new OpenAI({
  apiKey: "你的Key",
  baseURL: "https://api.example.com/v1",
});

// 读取多个源文件
const files = ["src/main.ts", "src/utils.ts", "src/api.ts"];
const code = files.map(f => `// ${f}\n${fs.readFileSync(f, "utf-8")}`).join("\n\n");

const r = await client.chat.completions.create({
  model: "gemini-1.5-pro",
  messages: [
    { role: "system", content: "分析以下代码库,找出潜在的 bug 和优化建议。" },
    { role: "user", content: code }
  ],
  max_tokens: 2000,
});
console.log(r.choices[0].message.content);

常见问题

Gemini 1.5 是什么?

Google 第二代 Gemini 模型,最大突破是 100 万 token 上下文(后扩展到 200 万)和 MoE 架构。2024 年 2 月发布。

Gemini 1.5 Pro 和 Flash 怎么选?

需要最强能力(复杂推理、长文档深度分析)选 Pro;追求速度和低成本(摘要、分类、高并发)选 Flash。两者都支持百万 token。

100 万 token 能处理多少内容?

约 75 万字中文、1 小时视频、30000 行代码或 700 页 PDF。足以一次性处理整本书。

Gemini 1.5 还是 2.5 更好?

Gemini 2.5 是最新版本,推理能力更强。但 1.5 Pro 仍然是长文档处理的可靠选择,且成本更低。

百万 Token 长上下文,国内直连

通过 AI的那些事儿调用 Gemini 1.5 Pro/Flash,处理超长文档和代码库。

回首页了解更多查看更多教程