概述
Whisper-1 是 OpenAI 的语音识别模型,能够准确地将音频转录为文本,支持多种语言和音频格式。支持的功能
多语言识别
支持 99+ 种语言的自动识别
时间戳
可选的词级或段级时间戳
说话人分离
区分不同说话人(测试功能)
格式转换
支持多种输出格式
请求参数
要转录的音频文件。支持的格式:mp3, mp4, mpeg, mpga, m4a, wav, webm最大文件大小:25 MB
模型 ID,使用
whisper-1。音频的语言代码(ISO-639-1),如
zh 或 en。指定语言可以提高准确度和速度。可选的文本,用于引导模型的风格或提供上下文。提示词应与音频语言匹配。
输出格式:
json- JSON 格式text- 纯文本srt- 字幕文件格式verbose_json- 包含时间戳的详细 JSONvtt- WebVTT 字幕格式
采样温度,范围 0-1。
时间戳粒度:
segment- 段级时间戳word- 词级时间戳
请求示例
响应格式
基础 JSON 格式
详细 JSON 格式(verbose_json)
SRT 字幕格式
使用提示词优化
提示词可以帮助纠正特定词汇的识别:支持的语言
查看所有支持的语言
查看所有支持的语言
阿拉伯语、中文、英语、法语、德语、日语、韩语、西班牙语、俄语、葡萄牙语、意大利语、荷兰语、波兰语、土耳其语、越南语、泰语、印尼语、马来语、印地语、希伯来语等 99+ 种语言。
最佳实践
音频质量
音频质量
- 使用清晰的音频源
- 减少背景噪音
- 采样率至少 16kHz
- 单声道或立体声均可
文件大小
文件大小
- 单个文件最大 25MB
- 超大文件请先分割
- 使用压缩格式(如 mp3)节省空间
指定语言
指定语言
- 指定正确的语言代码提高准确度
- 混合语言时可以不指定
- 提示词应与音频语言一致
时间戳用途
时间戳用途
- 生成字幕:使用 srt 或 vtt 格式
- 精确定位:使用词级时间戳
- 分段处理:使用段级时间戳
应用场景
视频字幕
自动为视频生成准确的字幕
会议记录
将会议录音转换为文字记录
播客转录
为播客内容生成文字稿
语音助手
实现语音命令识别
定价
| 类型 | 价格 |
|---|---|
| 转录 | $0.006 / 分钟 |
准确度提升: 指定正确的语言代码,并在提示词中包含专有名词或技术术语,可显著提高转录准确度。
