Whisper 是什么?OpenAI 语音识别模型全解
Whisper 是 OpenAI 开发的开源语音识别模型,能将语音精准转为文字。支持 99 种语言,准确率接近人类转录员。它既可以通过 API 调用,也可以本地部署。本文带你了解 Whisper 的能力、使用方式,以及如何通过 AI的那些事儿 调用 Whisper API。
发布: 更新:
Whisper 简介
Whisper 是一个通用语音识别(ASR,Automatic Speech Recognition)模型:
- 开源:模型权重完全公开,可本地部署,无需联网
- 多语言:支持 99 种语言的语音识别和翻译
- 高准确率:在多个基准测试上接近人类转录水平
- 鲁棒性强:对口音、背景噪音、专业术语有良好容忍度
- 多任务:语音转文字、语音翻译(任意语言→英文)、语言检测
Whisper 的能力
语音转文字
将音频/视频中的语音转为对应语言的文字。支持中文、英文、日文等99种语言。
语音翻译
将任意语言的语音直接翻译为英文文字。一步完成"听+译"。
时间戳
输出每句话/每个词的时间戳,方便做字幕、定位和剪辑。
多种格式
支持 mp3、mp4、mpeg、mpga、m4a、wav、webm 等音频格式,最大 25MB。
Whisper 的使用方式
API 调用(推荐)
通过 OpenAI Audio API 上传音频文件,秒级返回转录结果。无需GPU,按时长计费。通过AI的那些事儿国内直连。
本地部署
开源模型,pip install openai-whisper 即可安装。需要GPU加速(无GPU也能跑,但较慢)。数据不出本地。
集成在ChatGPT
ChatGPT的语音输入功能底层就是Whisper。说话即可与AI对话。
Whisper 的应用场景
会议纪要
录音→文字,自动生成会议记录。配合GPT-4o可进一步总结要点。
视频字幕
为视频自动生成字幕(含时间戳),支持多语言。
播客转录
将播客音频转为可搜索的文字,方便SEO和内容复用。
语音助手
作为语音输入模块,将用户语音转为文字后交给大模型处理。
客服质检
将客服通话录音转为文字,用AI分析服务质量和客户情绪。
无障碍
为听障人士提供实时字幕,提升信息无障碍体验。
实战:调用 Whisper API
- 获取 AI的那些事儿 API Key。
- 在代码中把 base_url 改为
https://api.example.com/v1。 - 上传音频文件,调用 Audio Transcriptions API。
Python 示例:语音转文字
from openai import OpenAI
client = OpenAI(
api_key="你的Key",
base_url="https://api.example.com/v1"
)
# 语音转文字
with open("meeting.mp3", "rb") as audio_file:
r = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="zh" # 指定中文,提高准确率
)
print(r.text)
# 语音翻译(任意语言→英文)
with open("japanese_audio.mp3", "rb") as audio_file:
r = client.audio.translations.create(
model="whisper-1",
file=audio_file
)
print(r.text) # 输出英文翻译
Node.js 示例
import OpenAI from "openai";
import fs from "fs";
const client = new OpenAI({
apiKey: "你的Key",
baseURL: "https://api.example.com/v1",
});
const r = await client.audio.transcriptions.create({
model: "whisper-1",
file: fs.createReadStream("podcast.mp3"),
});
console.log(r.text);
常见问题
Whisper 是什么?
Whisper 是 OpenAI 的开源语音识别模型,能将语音转为文字。支持99种语言,准确率接近人类。可通过API调用或本地部署。
Whisper 免费吗?
模型开源免费(可本地部署)。通过API调用按音频时长计费($0.006/分钟)。通过AI的那些事儿调用更便宜,国内直连。
Whisper 支持中文吗?
支持,且中文识别效果很好。建议在API调用时指定 language="zh" 参数,可进一步提高准确率。
怎么调用 Whisper API?
通过 AI的那些事儿,用 OpenAI Audio API 上传音频文件,model填"whisper-1"即可。支持mp3/wav/m4a等格式,最大25MB。国内直连免代理。
语音转文字,一个 API 搞定
Whisper API 国内直连,99种语言,准确率接近人类。