Skip to main content
POST
/
v1
/
audio
/
transcriptions
Whisper-1 音频转录
curl --request POST \
  --url https://ai.kaiho.cc/v1/audio/transcriptions \
  --header 'Content-Type: application/json' \
  --data '{
  "model": "<string>",
  "language": "<string>",
  "prompt": "<string>",
  "response_format": "<string>",
  "temperature": 123,
  "timestamp_granularities": [
    {}
  ]
}'

概述

Whisper-1 是 OpenAI 的语音识别模型,能够准确地将音频转录为文本,支持多种语言和音频格式。

支持的功能

多语言识别

支持 99+ 种语言的自动识别

时间戳

可选的词级或段级时间戳

说话人分离

区分不同说话人(测试功能)

格式转换

支持多种输出格式

请求参数

file
file
required
要转录的音频文件。支持的格式:mp3, mp4, mpeg, mpga, m4a, wav, webm最大文件大小:25 MB
model
string
required
模型 ID,使用 whisper-1
language
string
音频的语言代码(ISO-639-1),如 zhen指定语言可以提高准确度和速度。
prompt
string
可选的文本,用于引导模型的风格或提供上下文。提示词应与音频语言匹配。
response_format
string
default:"json"
输出格式:
  • json - JSON 格式
  • text - 纯文本
  • srt - 字幕文件格式
  • verbose_json - 包含时间戳的详细 JSON
  • vtt - WebVTT 字幕格式
temperature
number
default:0
采样温度,范围 0-1。
timestamp_granularities
array
时间戳粒度:
  • segment - 段级时间戳
  • word - 词级时间戳

请求示例

curl https://ai.kaiho.cc/v1/audio/transcriptions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@audio.mp3" \
  -F "model=whisper-1" \
  -F "language=zh" \
  -F "response_format=verbose_json" \
  -F "timestamp_granularities[]=word"

响应格式

基础 JSON 格式

{
  "text": "你好,欢迎使用 Whisper 语音识别服务。"
}

详细 JSON 格式(verbose_json)

{
  "task": "transcribe",
  "language": "chinese",
  "duration": 15.5,
  "text": "你好,欢迎使用 Whisper 语音识别服务。",
  "segments": [
    {
      "id": 0,
      "seek": 0,
      "start": 0.0,
      "end": 2.5,
      "text": "你好,",
      "tokens": [25341, 254],
      "temperature": 0.0,
      "avg_logprob": -0.3,
      "compression_ratio": 1.2,
      "no_speech_prob": 0.01
    },
    {
      "id": 1,
      "seek": 0,
      "start": 2.5,
      "end": 5.8,
      "text": "欢迎使用 Whisper 语音识别服务。",
      "tokens": [...],
      "temperature": 0.0,
      "avg_logprob": -0.25,
      "compression_ratio": 1.3,
      "no_speech_prob": 0.02
    }
  ],
  "words": [
    {
      "word": "你好",
      "start": 0.0,
      "end": 0.8
    },
    {
      "word": "欢迎",
      "start": 2.5,
      "end": 3.2
    }
  ]
}

SRT 字幕格式

1
00:00:00,000 --> 00:00:02,500
你好,

2
00:00:02,500 --> 00:00:05,800
欢迎使用 Whisper 语音识别服务。

使用提示词优化

提示词可以帮助纠正特定词汇的识别:
transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    language="zh",
    prompt="本次会议讨论了人工智能、机器学习和深度学习的应用。专有名词:GPT-4、Claude、Gemini。"
)

支持的语言

阿拉伯语、中文、英语、法语、德语、日语、韩语、西班牙语、俄语、葡萄牙语、意大利语、荷兰语、波兰语、土耳其语、越南语、泰语、印尼语、马来语、印地语、希伯来语等 99+ 种语言。

最佳实践

  • 使用清晰的音频源
  • 减少背景噪音
  • 采样率至少 16kHz
  • 单声道或立体声均可
  • 单个文件最大 25MB
  • 超大文件请先分割
  • 使用压缩格式(如 mp3)节省空间
  • 指定正确的语言代码提高准确度
  • 混合语言时可以不指定
  • 提示词应与音频语言一致
  • 生成字幕:使用 srt 或 vtt 格式
  • 精确定位:使用词级时间戳
  • 分段处理:使用段级时间戳

应用场景

视频字幕

自动为视频生成准确的字幕

会议记录

将会议录音转换为文字记录

播客转录

为播客内容生成文字稿

语音助手

实现语音命令识别

定价

类型价格
转录$0.006 / 分钟
准确度提升: 指定正确的语言代码,并在提示词中包含专有名词或技术术语,可显著提高转录准确度。
I