TTS 文本转语音

概述

TTS（Text-to-Speech）API 使用先进的语音合成技术，将文本转换为自然、流畅的人声，支持多种语言和音色。

支持的声音

Alloy

中性、平衡的声音

Echo

男性、稳重的声音

Fable

男性、富有表现力

Onyx

男性、深沉有力

Nova

女性、友好温暖

Shimmer

女性、柔和甜美

请求参数

model

string

required

TTS 模型：

tts-1 - 标准质量，速度快
tts-1-hd - 高清质量，更自然

input

string

required

要转换为语音的文本，最多 4096 个字符。

voice

string

required

使用的声音：alloy, echo, fable, onyx, nova, shimmer

response_format

string

default:"mp3"

音频格式：

mp3 - MP3 格式（默认）
opus - Opus 格式，适合流媒体
aac - AAC 格式
flac - FLAC 无损格式
wav - WAV 格式
pcm - 原始 PCM 格式

speed

number

default:1

语速，范围 0.25 - 4.0。

1.0 = 正常速度
0.5 = 半速
2.0 = 双速

请求示例

curl https://ai.kaiho.cc/v1/audio/speech \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1-hd",
    "input": "欢迎使用 Kaihoxz 文本转语音服务，我们提供最自然的 AI 语音合成技术。",
    "voice": "nova",
    "speed": 1.0
  }' \
  --output speech.mp3

流式输出

对于实时播放，可以使用流式输出：

from openai import OpenAI
import pyaudio

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://ai.kaiho.cc/v1"
)

# 初始化音频播放
p = pyaudio.PyAudio()
stream = p.open(format=pyaudio.paInt16, channels=1, rate=24000, output=True)

# 流式生成并播放
with client.audio.speech.with_streaming_response.create(
    model="tts-1",
    voice="nova",
    input="这是一段实时生成并播放的语音。",
    response_format="pcm"
) as response:
    for chunk in response.iter_bytes(chunk_size=1024):
        stream.write(chunk)

stream.stop_stream()
stream.close()
p.terminate()

声音特点对比

声音	性别	特点	适用场景
Alloy	中性	清晰、专业	新闻、教育、客服
Echo	男性	稳重、权威	商务、播报
Fable	男性	生动、富有表现力	故事讲述、广告
Onyx	男性	深沉、有力	纪录片、严肃内容
Nova	女性	友好、温暖	助手、引导
Shimmer	女性	柔和、甜美	儿童内容、轻松场景

文本优化建议

使用标点符号

标点符号会影响语音的停顿和语气：

句号（。）：较长停顿
逗号（，）：短暂停顿
问号（？）：上扬语调
感叹号（！）：强调语气

SSML 标记（实验性）

使用 SSML 标记控制语音细节：

<speak>
  这是<emphasis>重要</emphasis>的内容。
  <break time="1s"/>
  这是一秒钟后的内容。
</speak>

多语言混合

TTS 支持自动识别并正确发音混合语言：

欢迎使用 Kaihoxz API，这是一个 powerful 的 AI 平台。

数字和符号

数字和特殊符号会被智能转换：

123 → “一百二十三”
$100 → “一百美元”
50% → “百分之五十”

质量对比

模型	质量	速度	延迟	价格
tts-1	标准	快	~200ms	$15/1M 字符
tts-1-hd	高清	较慢	~500ms	$30/1M 字符

支持的语言

查看所有支持的语言

中文（普通话）、英语、西班牙语、法语、德语、日语、韩语、葡萄牙语、意大利语、荷兰语、俄语、阿拉伯语、土耳其语、波兰语、瑞典语、菲律宾语、马来语、罗马尼亚语、乌克兰语、希腊语、捷克语、丹麦语、芬兰语、保加利亚语、克罗地亚语等。

应用场景

有声读物

将书籍、文章转换为音频

语音助手

为应用添加语音交互

内容创作

为视频、播客生成旁白

无障碍访问

帮助视障人士获取信息

多语言配音

为产品提供多语言语音

电话客服

自动化客服语音应答

最佳实践

选择合适的声音

根据内容类型和目标受众选择声音

优化文本格式

使用标点符号控制节奏和语气

选择合适的质量

播客、有声书使用 HD 质量，实时应用使用标准质量

调整语速

教育内容适当放慢，广告内容可以加快

测试和迭代

尝试不同的声音和参数找到最佳效果

使用限制

单次请求最大 4096 个字符
长文本请分段处理
生成的音频自动返回，不需要轮询

使用规范： 请确保生成的语音内容符合当地法律法规，不得用于欺诈、冒充他人等非法用途。

性能优化： 对于实时应用，使用 tts-1 模型和 opus 格式可以获得最低延迟。

文本系列

图像系列

视频系列

音频系列

任务管理

概述

支持的声音

Alloy

Echo

Fable

Onyx

Nova

Shimmer

请求参数

请求示例

流式输出

声音特点对比

文本优化建议

质量对比

支持的语言

应用场景

有声读物

语音助手

内容创作

无障碍访问

多语言配音

电话客服

最佳实践

使用限制

文本系列

图像系列

视频系列

音频系列

任务管理

​概述

​支持的声音

Alloy

Echo

Fable

Onyx

Nova

Shimmer

​请求参数

​请求示例

​流式输出

​声音特点对比

​文本优化建议

​质量对比

​支持的语言

​应用场景

有声读物

语音助手

内容创作

无障碍访问

多语言配音

电话客服

​最佳实践

​使用限制

概述

支持的声音

请求参数

请求示例

流式输出

声音特点对比

文本优化建议

质量对比

支持的语言

应用场景

最佳实践

使用限制