返回目錄
A
從零到偶像:生成式 AI 與虛擬人物的跨域實踐 - 第 3 章
第 3 章:生成式 AI 基礎與工具選型
發布於 2026-03-02 17:24
# 第 3 章:生成式 AI 基礎與工具選型
本章旨在說明 **生成式 AI 的核心概念、技術分類**,並提供 **選型指引**,協助讀者在虛擬偶像專案中挑選最適合的模型與平台。內容分為三大區塊:
1. 文本生成(LLM)
2. 圖像生成(Diffusion 系列)
3. 聲音生成(Vocoder / TTS)
每個區塊皆涵蓋理論基礎、主流模型、開源與商業服務、選型矩陣與實務操作範例,讓你能在概念與落地之間建立一條清晰的技術路徑。
---
## 1. 文本生成模型(LLM)
### 1.1 基本概念
- **LLM(Large Language Model)**:基於 Transformer 架構、以海量語料預訓練的語言模型,能完成 **自然語言理解(NLU)** 與 **自然語言生成(NLG)** 兩大任務。
- **自回歸(Autoregressive)**:模型一次產生一個 token,前一個 token 會作為下一步的輸入。代表模型如 GPT 系列。
- **編碼-解碼(Encoder‑Decoder)**:如 T5、BART,可同時支援生成與抽取任務,較適合 **摘要、翻譯** 等多樣化需求。
### 1.2 主流模型概覽
| 模型 | 參數規模 | 開源授權 | 特色 | 推薦使用情境 |
|------|----------|----------|------|----------------|
| **GPT‑3.5** | 175B | 商業 API(OpenAI) | 高度通用、對話式最佳化 | 快速原型、客服機器人 |
| **GPT‑4** | > 500B(估計) | 商業 API(OpenAI) | 多模態支援、推理能力提升 | 高階內容策劃、智慧腳本 |
| **LLaMA 2** | 7B/13B/70B | Meta (CC‑BY‑4.0) | 可自行部署、成本可控 | 私有化服務、資料隱私高度需求 |
| **Mistral‑7B** | 7B | Apache‑2.0 | 速度快、指令遵循佳 | 小型實驗、嵌入式應用 |
| **Claude 2** | 未公開 | 商業 API(Anthropic) | 「安全」對話設計、可控性高 | 需要安全審核的粉絲互動 |
### 1.3 平台與服務比較
| 平台 | 免費額度 | 計費方式 | 支援的模型 | 特色功能 |
|------|----------|----------|------------|----------|
| **OpenAI** | 5美元試算 | 按 token 計費 | GPT‑3.5、GPT‑4 | Chat Completion、Fine‑tune(付費) |
| **Azure OpenAI** | 依合約 | 按使用量 | 同 OpenAI | 企業級 SLA、與 Azure 生態整合 |
| **Google Vertex AI** | $300 試用金 | 按分鐘/API 次數 | Gemini、PaLM2 | 端到端 MLOps、AutoML 支援 |
| **AWS Bedrock** | 無免費額度 | 按 token 計費 | Claude、Jurassic、Titan | IAM 控制、VPC PrivateLink |
| **HF Inference API** | 30 天免費(限 30 M token) | 按請求次數 | 多種開源模型 | 直接部署自有 LoRA、Endpoint 分層 |
### 1.4 選型要點
1. **資料隱私**:若角色對白涉及商業機密,建議自行部署 LLaMA 2、Mistral 等開源模型。
2. **成本**:GPT‑4 價格較高,若預算有限,可先以 **GPT‑3.5** 或 **Mistral‑7B** 為基礎,後期再升級。
3. **可微調性**:OpenAI、Claude 需要付費才能微調;開源模型可自行使用 LoRA、QLoRA 等低資源微調技術。
4. **多語言支援**:中文表現優於多數模型,LLaMA‑2‑Chat、Gemini Pro 皆提供良好中文對話。
---
## 2. 圖像生成模型(Diffusion)
### 2.1 Diffusion 基礎
- **Diffusion Model**:透過逐步「噪聲化」與「去噪」的過程學習資料分佈,最終可從純噪聲還原出高品質圖像。
- **條件 Diffusion**:在噪聲去除過程中加入文字、圖形或姿態等條件,實現文字到圖(Text‑to‑Image)或圖到圖(Image‑to‑Image)生成。
### 2.2 主要模型與特性
| 模型 | 參數規模 | 開源授權 | 主流應用 | 代表性平台 |
|------|----------|----------|----------|------------|
| **Stable Diffusion 2.1** | 860M | CC‑BY‑4.0 | 文字→圖、圖→圖、Inpainting | DreamStudio、Automatic1111 |
| **Stable Diffusion XL (SDXL)** | 2B+ | CC‑BY‑4.0 | 高解析度(1024×1024)+ 多風格 | Stability AI API |
| **Midjourney** | 未公開(專有) | 商業授權 | 藝術風格、快速迭代 | Discord Bot |
| **DALL·E 3** | 未公開(專有) | 商業授權 | 文字→圖、風格化控制 | OpenAI API |
| **DeepFloyd IF** | 3B | MIT | 多階段高解析度生成 | HuggingFace Hub |
| **Playground‑v2 (Flux)** | 9B | CC‑BY‑4.0 | 文字→圖、超高真實感 | Playground AI |
### 2.3 開源工具與 UI
- **Automatic1111**:最完整的 Web UI,支援 LoRA、ControlNet、Prompt 擴充。
- **InvokeAI**:適合批次產出、CLI‑first 工作流。
- **ComfyUI**:視覺化節點編排,適合複雜管線(圖像→姿態→光影控制)。
- **Diffusers(🤗)**:Python SDK,便於在程式中嵌入 Diffusion 推理與微調。
### 2.4 模型選型矩陣
| 評估面向 | 穩定性 & 社群 | 成本 | 畫質 & 解析度 | 可微調性 (LoRA/ControlNet) | 推薦情境 |
|----------|---------------|------|--------------|----------------------------|----------|
| **Stable Diffusion 1.5** | 巨大(超過 30k 星) | 本地 GPU (免費) | 512‑768px,風格多樣 | 支援 LoRA、ControlNet | 初期概念驗證、低成本原型 |
| **Stable Diffusion 2.1** | 大社群、官方支援 | 本地 GPU (免費) | 768‑1024px,細節提升 | 完全支援 LoRA | 角色立繪、服裝變體 |
| **SDXL** | 新興但快速成長 | 需要較高顯存(≥ 12GB) | 1024‑2048px,真實感強 | 支援 LoRA(需較大顯存) | 高品質海報、商品圖 |
| **Midjourney** | 專有、Discord 社群活躍 | 訂閱制(月 $10‑$30) | 1024‑2048px,藝術風格突出 | 無法自行微調 | 快速概念驗證、藝術探索 |
| **DALL·E 3** | OpenAI 官方支援 | 按圖計費($0.02/圖) | 1024‑2048px,語意對齊度高 | 無法微調 | 商業廣告素材、跨語言文字圖 |
### 2.5 實務操作範例(Python + Diffusers)
```python
from diffusers import StableDiffusionPipeline, StableDiffusionXLPipeline
import torch
# 以 SDXL 為例(需 12GB 以上顯存)
pipe = StableDiffusionXLPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
torch_dtype=torch.float16
).to("cuda")
prompt = "一位穿著未來感銀色機甲的虛擬偶像,在星河背景下微笑,高清,8k"
image = pipe(prompt, num_inference_steps=30, guidance_scale=7.5).images[0]
image.save("idol_sdxl.png")
```
> **小技巧**:在 `guidance_scale` 參數上調可以提升文字與圖像的對齊度;`num_inference_steps` 越高畫質提升有限但推理時間線性增長。
---
## 3. 聲音生成模型(Vocoder / TTS)
### 3.1 生成式聲音概念
- **TTS(Text‑to‑Speech)**:將文字轉換為語音,主要技術包括 **Tacotron‑2**、**FastSpeech**、**VITS** 系列。
- **Vocoder**:將頻譜(spectrogram)轉為波形的最後一步,常見的有 **WaveNet、HiFi‑GAN、WaveGlow**。
- **歌聲合成(Voice‑Singing)**:在 TTS 基礎上加入音高與時值控制,代表模型如 **RVC、Clone‑Voice、Suno AI**。
### 3.2 主流模型與服務
| 模型 / 服務 | 授權 | 支援語言 | 特點 | 推薦使用情境 |
|--------------|------|-----------|------|----------------|
| **OpenAI Whisper + ChatGPT‑4o‑audio** | 商業 API | 多語言(超過 90) | 端到端語音辨識 + 合成(即時) | 直播字幕、語音互動 |
| **Google Cloud Text‑to‑Speech** | 商業 | 30+ 語言 | WaveNet 高品質、SSML 控制 | 多平台應用、金融客服 |
| **Microsoft Azure Speech** | 商業 | 75+ 語言 | Neural Voice, Custom Voice (付費) | 本土化虛擬偶像、商業廣告 |
| **ElevenLabs** | 商業 (免費配額) | 英文、日文、韓文等 | 風格化 Voice Cloning、情感參數 | 英文/日文歌唱、角色配音 |
| **Bark (OpenAI)** | 開源 MIT | 英文、中文測試版 | 文本→語音+音效 | 原型驗證、短片敘事 |
| **RVC (Retrieval‑based Voice Conversion)** | 開源 GPL‑3.0 | 以訓練資料語言為限 | 少量樣本即可克隆聲線 | 角色歌聲、二次創作 |
| **CosyVoice** (Alibaba) | 開源 Apache‑2.0 | 中文、英文 | 多說話人微調、低資源適配 | 中國市場角色聲線 |
### 3.3 工具與平台比較
| 平台 | 免費額度 | 計費模式 | 支援自訂聲線 | API 延遲 | 適用場景 |
|------|----------|----------|--------------|----------|-----------|
| **ElevenLabs** | 10 分鐘/月 | 按字元 | 有(付費) | < 300 ms | 直播即時朗讀 |
| **Azure Speech** | $5 USD 首月 | 按分鐘 | 有(Custom Voice) | 200‑400 ms | 大規模線上課程 |
| **Google TTS** | 4 M 字符 | 按字符 | 有(Voice Studio) | 150‑300 ms | 手機 App |
| **RVC** | 完全免費 | 無 | 完全自建模型 | 視硬體而定 | 角色歌唱、短音頻 |
| **CosyVoice** | 免費(開源) | 無 | 完全自建 | GPU 推理時間 | 中文角色配音 |
### 3.4 建立專屬聲線的工作流程(以 RVC 為例)
1. **蒐集樣本**:至少 5‑10 秒的乾淨語音,總時長 10‑20 分鐘最佳。
2. **音訊前處理**:
- 去噪(`ffmpeg -i raw.wav -af afftdn output.wav`)
- 正規化 (`ffmpeg -i output.wav -filter:a "volume=0.9" norm.wav`)
3. **切片與特徵提取**:使用 `rvc` 內建腳本切成 0.5 秒的片段,生成 mel‑spectrogram。
4. **微調模型**:
```bash
python train.py \
--data_dir ./samples \
--model_path ./pretrained/rvc_base.pth \
--epochs 30 \
--batch_size 8 \
--lr 0.0005
```
5. **推理測試**:
```python
from rvc import RVC
model = RVC('output_checkpoint.pth')
wav = model.infer('你好,我是虛擬偶像星瀾。')
wav.save('test.wav')
```
6. **上線部署**:將 `model` 包裝成 Flask/FASTAPI,供 OBS 或 Discord Bot 呼叫。
---
## 4. 綜合選型指引 & 案例對照
### 4.1 需求矩陣(角色、互動、製作規模)
| 需求 | 文本生成 | 圖像生成 | 聲音生成 |
|------|----------|----------|----------|
| **即時互動**(直播、粉絲聊天) | GPT‑4o/Claude 2(低延遲) | SDXL API(Fast Diffusion) | ElevenLabs Streaming |
| **高度客製化**(專屬風格) | LLaMA‑2‑Chat + LoRA | SD 1.5 + LoRA + ControlNet | RVC / CosyVoice 自建 |
| **成本敏感**(小團隊、預算 < $2k) | Mistral‑7B (HF) | SD 1.5 (本地) | Open‑source VITS + HiFi‑GAN |
| **跨語言**(中、英、日) | Gemini Pro(多語) | SDXL + multilingual prompts | Azure Speech (Custom Voice) |
| **品牌安全**(資料不外流) | 自部署 LLaMA‑2 | 本地 Stable Diffusion | 本地 RVC / CosyVoice |
### 4.2 實務案例對照
| 案例 | 文本模型 | 圖像模型 | 聲音模型 | 為什麼這樣選?
|------|----------|----------|----------|----------------|
| **新創偶像 A**(預算 15k) | GPT‑3.5 API | Stable Diffusion 1.5 (local) | ElevenLabs (免費配額) | 低成本、快速上線,文字與圖像可透過 API 整合,聲音使用雲端服務降低硬體門檻 |
| **大型娛樂公司 B**(跨平台) | Gemini Pro (Google Cloud) | SDXL via Stability AI | Azure Custom Voice | 需要高可靠性、品牌保護,選擇企業級雲服務,且支援多語言與高解析度圖像 |
| **獨立創作者 C**(高度個性) | LLaMA‑2‑Chat + LoRA | SD 2.1 + ControlNet | RVC 自建 | 完全自建流程,避免任何外部資料流出,並可透過 LoRA 微調呈現獨特風格 |
---
## 5. 小結與行動指南
1. **先定義需求**:即時互動、品牌安全、成本上限、語言範圍。
2. **挑選模型**:根據上表的特性匹配,先在雲端試驗(免費額度),再決定是否搬遷至本地部署。
3. **建置測試環境**:
- 文本:Python + `openai` / `transformers` 套件。
- 圖像:Docker 內部部署 `automatic1111`,或使用 `diffusers` 直接呼叫 API。
- 聲音:若採用 RVC,建議搭配 `CUDA 11.8` + `torch 2.0` 環境。
4. **迭代驗證**:每個模組先產出 **MVP(最小可行產品)**,收集內部測試回饋,再進行微調與優化。
5. **文檔化**:將模型版本、Prompt、微調參數、API 金鑰管理方式寫入 `03_Toolkit_Selection.md`,確保團隊透明化運作。
> **下一步**:完成本章學習後,請於 **第 2 週** 前完成「工具選型矩陣」表,並在 **第 3 週** 前完成「文本模型 API 測試」與「Diffusion 本地部署」的最小化實驗。
---
*本章結束,接下來第 4 章將深入探討 **數據收集與模型微調** 的實作細節,帶你從原始素材到專屬 LoRA 完整流程。*