Whisper 是什么?OpenAI 语音识别模型全解

WhisperOpenAI 开发的开源语音识别模型,能将语音精准转为文字。支持 99 种语言,准确率接近人类转录员。它既可以通过 API 调用,也可以本地部署。本文带你了解 Whisper 的能力、使用方式,以及如何通过 AI的那些事儿 调用 Whisper API。

阅读时长:约 6 分钟 难度:入门 含实战代码

发布: 更新:

Whisper 简介

Whisper 是一个通用语音识别(ASR,Automatic Speech Recognition)模型:

  • 开源:模型权重完全公开,可本地部署,无需联网
  • 多语言:支持 99 种语言的语音识别和翻译
  • 高准确率:在多个基准测试上接近人类转录水平
  • 鲁棒性强:对口音、背景噪音、专业术语有良好容忍度
  • 多任务:语音转文字、语音翻译(任意语言→英文)、语言检测

Whisper 的能力

语音转文字

将音频/视频中的语音转为对应语言的文字。支持中文、英文、日文等99种语言。

语音翻译

将任意语言的语音直接翻译为英文文字。一步完成"听+译"。

时间戳

输出每句话/每个词的时间戳,方便做字幕、定位和剪辑。

多种格式

支持 mp3、mp4、mpeg、mpga、m4a、wav、webm 等音频格式,最大 25MB。

Whisper 的使用方式

API 调用(推荐)

通过 OpenAI Audio API 上传音频文件,秒级返回转录结果。无需GPU,按时长计费。通过AI的那些事儿国内直连。

本地部署

开源模型,pip install openai-whisper 即可安装。需要GPU加速(无GPU也能跑,但较慢)。数据不出本地。

集成在ChatGPT

ChatGPT的语音输入功能底层就是Whisper。说话即可与AI对话。

Whisper 的应用场景

会议纪要

录音→文字,自动生成会议记录。配合GPT-4o可进一步总结要点。

视频字幕

为视频自动生成字幕(含时间戳),支持多语言。

播客转录

将播客音频转为可搜索的文字,方便SEO和内容复用。

语音助手

作为语音输入模块,将用户语音转为文字后交给大模型处理。

客服质检

将客服通话录音转为文字,用AI分析服务质量和客户情绪。

无障碍

为听障人士提供实时字幕,提升信息无障碍体验。

实战:调用 Whisper API

  1. 获取 AI的那些事儿 API Key。
  2. 在代码中把 base_url 改为 https://api.example.com/v1。
  3. 上传音频文件,调用 Audio Transcriptions API。

Python 示例:语音转文字

from openai import OpenAI

client = OpenAI(
    api_key="你的Key",
    base_url="https://api.example.com/v1"
)

# 语音转文字
with open("meeting.mp3", "rb") as audio_file:
    r = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        language="zh"  # 指定中文,提高准确率
    )
print(r.text)

# 语音翻译(任意语言→英文)
with open("japanese_audio.mp3", "rb") as audio_file:
    r = client.audio.translations.create(
        model="whisper-1",
        file=audio_file
    )
print(r.text)  # 输出英文翻译

Node.js 示例

import OpenAI from "openai";
import fs from "fs";

const client = new OpenAI({
  apiKey: "你的Key",
  baseURL: "https://api.example.com/v1",
});

const r = await client.audio.transcriptions.create({
  model: "whisper-1",
  file: fs.createReadStream("podcast.mp3"),
});
console.log(r.text);

常见问题

Whisper 是什么?

Whisper 是 OpenAI 的开源语音识别模型,能将语音转为文字。支持99种语言,准确率接近人类。可通过API调用或本地部署。

Whisper 免费吗?

模型开源免费(可本地部署)。通过API调用按音频时长计费($0.006/分钟)。通过AI的那些事儿调用更便宜,国内直连。

Whisper 支持中文吗?

支持,且中文识别效果很好。建议在API调用时指定 language="zh" 参数,可进一步提高准确率。

怎么调用 Whisper API?

通过 AI的那些事儿,用 OpenAI Audio API 上传音频文件,model填"whisper-1"即可。支持mp3/wav/m4a等格式,最大25MB。国内直连免代理。

语音转文字,一个 API 搞定

Whisper API 国内直连,99种语言,准确率接近人类。