Whisper-1 音频转录

概述

Whisper-1 是 OpenAI 的语音识别模型，能够准确地将音频转录为文本，支持多种语言和音频格式。

支持的功能

多语言识别

支持 99+ 种语言的自动识别

时间戳

可选的词级或段级时间戳

说话人分离

区分不同说话人（测试功能）

格式转换

支持多种输出格式

请求参数

file

required

要转录的音频文件。支持的格式：mp3, mp4, mpeg, mpga, m4a, wav, webm最大文件大小：25 MB

model

string

required

模型 ID，使用 whisper-1。

language

string

音频的语言代码（ISO-639-1），如 zh 或 en。指定语言可以提高准确度和速度。

prompt

string

可选的文本，用于引导模型的风格或提供上下文。提示词应与音频语言匹配。

response_format

string

default:"json"

输出格式：

json - JSON 格式
text - 纯文本
srt - 字幕文件格式
verbose_json - 包含时间戳的详细 JSON
vtt - WebVTT 字幕格式

temperature

number

default:0

采样温度，范围 0-1。

timestamp_granularities

array

时间戳粒度：

segment - 段级时间戳
word - 词级时间戳

请求示例

curl https://ai.kaiho.cc/v1/audio/transcriptions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@audio.mp3" \
  -F "model=whisper-1" \
  -F "language=zh" \
  -F "response_format=verbose_json" \
  -F "timestamp_granularities[]=word"

响应格式

基础 JSON 格式

{
  "text": "你好，欢迎使用 Whisper 语音识别服务。"
}

详细 JSON 格式（verbose_json）

{
  "task": "transcribe",
  "language": "chinese",
  "duration": 15.5,
  "text": "你好，欢迎使用 Whisper 语音识别服务。",
  "segments": [
    {
      "id": 0,
      "seek": 0,
      "start": 0.0,
      "end": 2.5,
      "text": "你好，",
      "tokens": [25341, 254],
      "temperature": 0.0,
      "avg_logprob": -0.3,
      "compression_ratio": 1.2,
      "no_speech_prob": 0.01
    },
    {
      "id": 1,
      "seek": 0,
      "start": 2.5,
      "end": 5.8,
      "text": "欢迎使用 Whisper 语音识别服务。",
      "tokens": [...],
      "temperature": 0.0,
      "avg_logprob": -0.25,
      "compression_ratio": 1.3,
      "no_speech_prob": 0.02
    }
  ],
  "words": [
    {
      "word": "你好",
      "start": 0.0,
      "end": 0.8
    },
    {
      "word": "欢迎",
      "start": 2.5,
      "end": 3.2
    }
  ]
}

SRT 字幕格式

1
00:00:00,000 --> 00:00:02,500
你好，

2
00:00:02,500 --> 00:00:05,800
欢迎使用 Whisper 语音识别服务。

使用提示词优化

提示词可以帮助纠正特定词汇的识别：

transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    language="zh",
    prompt="本次会议讨论了人工智能、机器学习和深度学习的应用。专有名词：GPT-4、Claude、Gemini。"
)

支持的语言

查看所有支持的语言

阿拉伯语、中文、英语、法语、德语、日语、韩语、西班牙语、俄语、葡萄牙语、意大利语、荷兰语、波兰语、土耳其语、越南语、泰语、印尼语、马来语、印地语、希伯来语等 99+ 种语言。

最佳实践

音频质量

使用清晰的音频源
减少背景噪音
采样率至少 16kHz
单声道或立体声均可

文件大小

单个文件最大 25MB
超大文件请先分割
使用压缩格式（如 mp3）节省空间

指定语言

指定正确的语言代码提高准确度
混合语言时可以不指定
提示词应与音频语言一致

时间戳用途

生成字幕：使用 srt 或 vtt 格式
精确定位：使用词级时间戳
分段处理：使用段级时间戳

应用场景

视频字幕

自动为视频生成准确的字幕

会议记录

将会议录音转换为文字记录

播客转录

为播客内容生成文字稿

语音助手

实现语音命令识别

定价

类型	价格
转录	$0.006 / 分钟

准确度提升： 指定正确的语言代码，并在提示词中包含专有名词或技术术语，可显著提高转录准确度。

文本系列

图像系列

视频系列

音频系列

任务管理

概述

支持的功能

多语言识别

时间戳

说话人分离

格式转换

请求参数

请求示例

响应格式

基础 JSON 格式

详细 JSON 格式（verbose_json）

SRT 字幕格式

使用提示词优化

支持的语言

最佳实践

应用场景

视频字幕

会议记录

播客转录

语音助手

定价

文本系列

图像系列

视频系列

音频系列

任务管理

​概述

​支持的功能

多语言识别

时间戳

说话人分离

格式转换

​请求参数

​请求示例

​响应格式

​基础 JSON 格式

​详细 JSON 格式（verbose_json）

​SRT 字幕格式

​使用提示词优化

​支持的语言

​最佳实践

​应用场景

视频字幕

会议记录

播客转录

语音助手

​定价

概述

支持的功能

请求参数

请求示例

响应格式

基础 JSON 格式

详细 JSON 格式（verbose_json）

SRT 字幕格式

使用提示词优化

支持的语言

最佳实践

应用场景

定价