概述
TTS(Text-to-Speech)API 使用先进的语音合成技术,将文本转换为自然、流畅的人声,支持多种语言和音色。支持的声音
Alloy
中性、平衡的声音
Echo
男性、稳重的声音
Fable
男性、富有表现力
Onyx
男性、深沉有力
Nova
女性、友好温暖
Shimmer
女性、柔和甜美
请求参数
TTS 模型:
tts-1- 标准质量,速度快tts-1-hd- 高清质量,更自然
要转换为语音的文本,最多 4096 个字符。
使用的声音:
alloy, echo, fable, onyx, nova, shimmer音频格式:
mp3- MP3 格式(默认)opus- Opus 格式,适合流媒体aac- AAC 格式flac- FLAC 无损格式wav- WAV 格式pcm- 原始 PCM 格式
语速,范围 0.25 - 4.0。
- 1.0 = 正常速度
- 0.5 = 半速
- 2.0 = 双速
请求示例
流式输出
对于实时播放,可以使用流式输出:声音特点对比
| 声音 | 性别 | 特点 | 适用场景 |
|---|---|---|---|
| Alloy | 中性 | 清晰、专业 | 新闻、教育、客服 |
| Echo | 男性 | 稳重、权威 | 商务、播报 |
| Fable | 男性 | 生动、富有表现力 | 故事讲述、广告 |
| Onyx | 男性 | 深沉、有力 | 纪录片、严肃内容 |
| Nova | 女性 | 友好、温暖 | 助手、引导 |
| Shimmer | 女性 | 柔和、甜美 | 儿童内容、轻松场景 |
文本优化建议
使用标点符号
使用标点符号
标点符号会影响语音的停顿和语气:
- 句号(。):较长停顿
- 逗号(,):短暂停顿
- 问号(?):上扬语调
- 感叹号(!):强调语气
SSML 标记(实验性)
SSML 标记(实验性)
使用 SSML 标记控制语音细节:
多语言混合
多语言混合
TTS 支持自动识别并正确发音混合语言:
数字和符号
数字和符号
数字和特殊符号会被智能转换:
- 123 → “一百二十三”
- $100 → “一百美元”
- 50% → “百分之五十”
质量对比
| 模型 | 质量 | 速度 | 延迟 | 价格 |
|---|---|---|---|---|
| tts-1 | 标准 | 快 | ~200ms | $15/1M 字符 |
| tts-1-hd | 高清 | 较慢 | ~500ms | $30/1M 字符 |
支持的语言
查看所有支持的语言
查看所有支持的语言
中文(普通话)、英语、西班牙语、法语、德语、日语、韩语、葡萄牙语、意大利语、荷兰语、俄语、阿拉伯语、土耳其语、波兰语、瑞典语、菲律宾语、马来语、罗马尼亚语、乌克兰语、希腊语、捷克语、丹麦语、芬兰语、保加利亚语、克罗地亚语等。
应用场景
有声读物
将书籍、文章转换为音频
语音助手
为应用添加语音交互
内容创作
为视频、播客生成旁白
无障碍访问
帮助视障人士获取信息
多语言配音
为产品提供多语言语音
电话客服
自动化客服语音应答
最佳实践
1
选择合适的声音
根据内容类型和目标受众选择声音
2
优化文本格式
使用标点符号控制节奏和语气
3
选择合适的质量
播客、有声书使用 HD 质量,实时应用使用标准质量
4
调整语速
教育内容适当放慢,广告内容可以加快
5
测试和迭代
尝试不同的声音和参数找到最佳效果
使用限制
- 单次请求最大 4096 个字符
- 长文本请分段处理
- 生成的音频自动返回,不需要轮询
使用规范: 请确保生成的语音内容符合当地法律法规,不得用于欺诈、冒充他人等非法用途。
性能优化: 对于实时应用,使用
tts-1 模型和 opus 格式可以获得最低延迟。