Pixelle-Video TTS 语音合成工作流

# Pixelle-Video TTS 语音合成工作流

## TTS 概述

TTS(Text-to-Speech)是将文字转换为语音的技术。Pixelle-Video 支持多种 TTS 引擎,生成自然流畅的语音解说。

## 支持的 TTS 引擎

### Edge-TTS

微软 Edge 浏览器的语音合成技术。

**特点**
– 免费使用
– 支持多种语言和声音
– 生成速度快
– 音质良好

**可用声音(中文)**
– 云希(女声)
– 云扬(男声)
– 晓晓(女声)

**配置**
选择 Edge-TTS 工作流即可使用,无需额外配置。

### Index-TTS

支持声音克隆的高级 TTS 引擎。

**特点**
– 支持声音克隆
– 音色自然
– 需要上传参考音频
– 部分功能收费

**声音克隆步骤**
1. 选择 Index-TTS 工作流
2. 上传参考音频(支持 MP3/WAV/FLAC)
3. 系统学习声音特征
4. 生成具有相同音色的语音

**参考音频要求**
– 时长:10-60 秒
– 格式:MP3、WAV、FLAC
– 内容:清晰的语言表达
– 质量:无背景音乐、无噪音

### 自定义 TTS 工作流

如果你熟悉 ComfyUI,可以创建自定义 TTS 工作流。

**工作流存放位置**
`workflows/` 文件夹

**工作流要求**
– 输入:文本内容
– 输出:音频文件(MP3/WAV)
– 遵循 ComfyUI 工作流规范

## 界面操作

### 选择 TTS 工作流
1. 在「语音设置」中找到「TTS 工作流」下拉菜单
2. 选择所需的 TTS 引擎
3. 系统自动扫描 workflows/ 文件夹中的自定义工作流

### 上传参考音频(Index-TTS)
1. 找到「参考音频」上传区域
2. 点击上传按钮
3. 选择音频文件(MP3/WAV/FLAC)
4. 上传成功后可试听

### 预览语音
1. 在测试框中输入文本
2. 点击「预览语音」按钮
3. 系统生成并播放语音
4. 确认效果后进行正式生成

## TTS 参数设置

| 参数 | 说明 | 推荐值 |
|——|——|——–|
| 语速 | 语音播放速度 | 1.0(正常) |
| 音调 | 语音音调高低 | 1.0(正常) |
| 音量 | 输出音量 | 1.0(正常) |

## 优化语音效果

### 提升自然度
– 使用标点符号分隔句子
– 避免过长的段落
– 适当添加停顿描述(如”……”)

### 声音克隆效果优化
– 参考音频质量要高
– 内容以正常语速朗读
– 避免多人对话或唱歌

## 常见问题

**Q:Edge-TTS 生成失败**
A:检查网络连接,确认微软 TTS 服务可访问

**Q:声音克隆效果不理想**
A:使用更清晰的参考音频,增加音频时长

**Q:语音不同步**
A:检查分镜文案长度,适当调整语速

Scroll to Top