Pixelle-Video 工作原理详解

# Pixelle-Video 工作原理详解

## 整体架构

Pixelle-Video 的工作流程分为四个核心阶段：**文案生成 → 图像生成 → 语音合成 → 视频合成**

“`
用户输入主题 → LLM 生成文案 → AI 生成配图 → TTS 合成语音 → FFmpeg 合成视频
“`

## 第一阶段：AI 文案生成

### LLM 集成
系统支持多种大语言模型 API：
– 通义千问（Qwen）
– GPT-4o / GPT-4
– DeepSeek
– Ollama（本地部署）

### 工作流程
1. 用户输入视频主题或直接提供文案
2. 系统调用 LLM API 生成结构化文案
3. 文案被分割成多个分镜（scenes）
4. 每个分镜包含独立的文本内容

## 第二阶段：AI 图像生成

### ComfyUI 工作流
系统深度集成 ComfyUI，支持多种图像生成方式：

**本地部署（推荐）**
– ComfyUI URL：`http://127.0.0.1:8188`
– 支持 Flux、SDXL 等模型
– 完全免费

**云端部署**
– RunningHub API
– 无需本地配置

### 图像生成过程
1. 读取分镜文案
2. 结合用户设置的 Prompt Prefix（风格提示词）
3. 调用 ComfyUI 工作流生成图像
4. 支持自定义图像尺寸（默认 1024×1024）

## 第三阶段：语音合成（TTS）

### 支持的 TTS 引擎
– **Edge-TTS**：微软 Edge 浏览器的语音合成技术
– **Index-TTS**：支持声音克隆的高级 TTS
– 自定义 ComfyUI TTS 工作流

### 声音克隆功能
1. 用户上传参考音频（MP3/WAV/FLAC）
2. Index-TTS 学习声音特征
3. 生成具有相同音色的语音

## 第四阶段：视频合成

### FFmpeg 视频处理
系统使用 FFmpeg 将所有素材合成为最终视频：
1. 图像 + 语音同步
2. 添加背景音乐（BGM）
3. 应用视频模板样式
4. 输出 MP4 格式

### 模板系统
– `static_*.html`：纯文字静态模板
– `image_*.html`：AI 生成图片背景模板
– `video_*.html`：视频背景模板
– 支持竖屏、横屏、方形多种尺寸

## 关键技术栈

## 总结

Pixelle-Video 通过模块化设计，将多个 AI 能力串联起来，形成完整的视频生成流水线。用户可以根据需求选择本地部署（免费）或云端服务（便捷）。