# Pixelle-Video 工作原理详解
## 整体架构
Pixelle-Video 的工作流程分为四个核心阶段:**文案生成 → 图像生成 → 语音合成 → 视频合成**
“`
用户输入主题 → LLM 生成文案 → AI 生成配图 → TTS 合成语音 → FFmpeg 合成视频
“`
## 第一阶段:AI 文案生成
### LLM 集成
系统支持多种大语言模型 API:
– 通义千问(Qwen)
– GPT-4o / GPT-4
– DeepSeek
– Ollama(本地部署)
### 工作流程
1. 用户输入视频主题或直接提供文案
2. 系统调用 LLM API 生成结构化文案
3. 文案被分割成多个分镜(scenes)
4. 每个分镜包含独立的文本内容
## 第二阶段:AI 图像生成
### ComfyUI 工作流
系统深度集成 ComfyUI,支持多种图像生成方式:
**本地部署(推荐)**
– ComfyUI URL:`http://127.0.0.1:8188`
– 支持 Flux、SDXL 等模型
– 完全免费
**云端部署**
– RunningHub API
– 无需本地配置
### 图像生成过程
1. 读取分镜文案
2. 结合用户设置的 Prompt Prefix(风格提示词)
3. 调用 ComfyUI 工作流生成图像
4. 支持自定义图像尺寸(默认 1024×1024)
## 第三阶段:语音合成(TTS)
### 支持的 TTS 引擎
– **Edge-TTS**:微软 Edge 浏览器的语音合成技术
– **Index-TTS**:支持声音克隆的高级 TTS
– 自定义 ComfyUI TTS 工作流
### 声音克隆功能
1. 用户上传参考音频(MP3/WAV/FLAC)
2. Index-TTS 学习声音特征
3. 生成具有相同音色的语音
## 第四阶段:视频合成
### FFmpeg 视频处理
系统使用 FFmpeg 将所有素材合成为最终视频:
1. 图像 + 语音同步
2. 添加背景音乐(BGM)
3. 应用视频模板样式
4. 输出 MP4 格式
### 模板系统
– `static_*.html`:纯文字静态模板
– `image_*.html`:AI 生成图片背景模板
– `video_*.html`:视频背景模板
– 支持竖屏、横屏、方形多种尺寸
## 关键技术栈
| 组件 | 技术 |
|——|——|
| Web 界面 | Streamlit |
| LLM 调用 | OpenAI 兼容 API |
| 图像生成 | ComfyUI API |
| 语音合成 | Edge-TTS / Index-TTS |
| 视频处理 | FFmpeg |
| Python 版本管理 | uv |
## 总结
Pixelle-Video 通过模块化设计,将多个 AI 能力串联起来,形成完整的视频生成流水线。用户可以根据需求选择本地部署(免费)或云端服务(便捷)。