Skip to main content
POST
/
v1
/
audio
/
speech
TTS 文本转语音
curl --request POST \
  --url https://ai.kaiho.cc/v1/audio/speech \
  --header 'Content-Type: application/json' \
  --data '{
  "model": "<string>",
  "input": "<string>",
  "voice": "<string>",
  "response_format": "<string>",
  "speed": 123
}'

概述

TTS(Text-to-Speech)API 使用先进的语音合成技术,将文本转换为自然、流畅的人声,支持多种语言和音色。

支持的声音

Alloy

中性、平衡的声音

Echo

男性、稳重的声音

Fable

男性、富有表现力

Onyx

男性、深沉有力

Nova

女性、友好温暖

Shimmer

女性、柔和甜美

请求参数

model
string
required
TTS 模型:
  • tts-1 - 标准质量,速度快
  • tts-1-hd - 高清质量,更自然
input
string
required
要转换为语音的文本,最多 4096 个字符。
voice
string
required
使用的声音:alloy, echo, fable, onyx, nova, shimmer
response_format
string
default:"mp3"
音频格式:
  • mp3 - MP3 格式(默认)
  • opus - Opus 格式,适合流媒体
  • aac - AAC 格式
  • flac - FLAC 无损格式
  • wav - WAV 格式
  • pcm - 原始 PCM 格式
speed
number
default:1
语速,范围 0.25 - 4.0。
  • 1.0 = 正常速度
  • 0.5 = 半速
  • 2.0 = 双速

请求示例

curl https://ai.kaiho.cc/v1/audio/speech \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1-hd",
    "input": "欢迎使用 Kaihoxz 文本转语音服务,我们提供最自然的 AI 语音合成技术。",
    "voice": "nova",
    "speed": 1.0
  }' \
  --output speech.mp3

流式输出

对于实时播放,可以使用流式输出:
from openai import OpenAI
import pyaudio

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://ai.kaiho.cc/v1"
)

# 初始化音频播放
p = pyaudio.PyAudio()
stream = p.open(format=pyaudio.paInt16, channels=1, rate=24000, output=True)

# 流式生成并播放
with client.audio.speech.with_streaming_response.create(
    model="tts-1",
    voice="nova",
    input="这是一段实时生成并播放的语音。",
    response_format="pcm"
) as response:
    for chunk in response.iter_bytes(chunk_size=1024):
        stream.write(chunk)

stream.stop_stream()
stream.close()
p.terminate()

声音特点对比

声音性别特点适用场景
Alloy中性清晰、专业新闻、教育、客服
Echo男性稳重、权威商务、播报
Fable男性生动、富有表现力故事讲述、广告
Onyx男性深沉、有力纪录片、严肃内容
Nova女性友好、温暖助手、引导
Shimmer女性柔和、甜美儿童内容、轻松场景

文本优化建议

标点符号会影响语音的停顿和语气:
  • 句号(。):较长停顿
  • 逗号(,):短暂停顿
  • 问号(?):上扬语调
  • 感叹号(!):强调语气
使用 SSML 标记控制语音细节:
<speak>
  这是<emphasis>重要</emphasis>的内容。
  <break time="1s"/>
  这是一秒钟后的内容。
</speak>
TTS 支持自动识别并正确发音混合语言:
欢迎使用 Kaihoxz API,这是一个 powerful 的 AI 平台。
数字和特殊符号会被智能转换:
  • 123 → “一百二十三”
  • $100 → “一百美元”
  • 50% → “百分之五十”

质量对比

模型质量速度延迟价格
tts-1标准~200ms$15/1M 字符
tts-1-hd高清较慢~500ms$30/1M 字符

支持的语言

中文(普通话)、英语、西班牙语、法语、德语、日语、韩语、葡萄牙语、意大利语、荷兰语、俄语、阿拉伯语、土耳其语、波兰语、瑞典语、菲律宾语、马来语、罗马尼亚语、乌克兰语、希腊语、捷克语、丹麦语、芬兰语、保加利亚语、克罗地亚语等。

应用场景

有声读物

将书籍、文章转换为音频

语音助手

为应用添加语音交互

内容创作

为视频、播客生成旁白

无障碍访问

帮助视障人士获取信息

多语言配音

为产品提供多语言语音

电话客服

自动化客服语音应答

最佳实践

1

选择合适的声音

根据内容类型和目标受众选择声音
2

优化文本格式

使用标点符号控制节奏和语气
3

选择合适的质量

播客、有声书使用 HD 质量,实时应用使用标准质量
4

调整语速

教育内容适当放慢,广告内容可以加快
5

测试和迭代

尝试不同的声音和参数找到最佳效果

使用限制

  • 单次请求最大 4096 个字符
  • 长文本请分段处理
  • 生成的音频自动返回,不需要轮询
使用规范: 请确保生成的语音内容符合当地法律法规,不得用于欺诈、冒充他人等非法用途。
性能优化: 对于实时应用,使用 tts-1 模型和 opus 格式可以获得最低延迟。
I