第 3 章：生成式 AI 基礎與工具選型

發布於 2026-03-02 17:24

# 第 3 章：生成式 AI 基礎與工具選型本章旨在說明 **生成式 AI 的核心概念、技術分類**，並提供 **選型指引**，協助讀者在虛擬偶像專案中挑選最適合的模型與平台。內容分為三大區塊： 1. 文本生成（LLM） 2. 圖像生成（Diffusion 系列） 3. 聲音生成（Vocoder / TTS）每個區塊皆涵蓋理論基礎、主流模型、開源與商業服務、選型矩陣與實務操作範例，讓你能在概念與落地之間建立一條清晰的技術路徑。 --- ## 1. 文本生成模型（LLM） ### 1.1 基本概念 - **LLM（Large Language Model）**：基於 Transformer 架構、以海量語料預訓練的語言模型，能完成 **自然語言理解（NLU）** 與 **自然語言生成（NLG）** 兩大任務。 - **自回歸（Autoregressive）**：模型一次產生一個 token，前一個 token 會作為下一步的輸入。代表模型如 GPT 系列。 - **編碼-解碼（Encoder‑Decoder）**：如 T5、BART，可同時支援生成與抽取任務，較適合 **摘要、翻譯** 等多樣化需求。 ### 1.2 主流模型概覽 | 模型 | 參數規模 | 開源授權 | 特色 | 推薦使用情境 | |------|----------|----------|------|----------------| | **GPT‑3.5** | 175B | 商業 API（OpenAI） | 高度通用、對話式最佳化 | 快速原型、客服機器人 | | **GPT‑4** | > 500B（估計） | 商業 API（OpenAI） | 多模態支援、推理能力提升 | 高階內容策劃、智慧腳本 | | **LLaMA 2** | 7B/13B/70B | Meta (CC‑BY‑4.0) | 可自行部署、成本可控 | 私有化服務、資料隱私高度需求 | | **Mistral‑7B** | 7B | Apache‑2.0 | 速度快、指令遵循佳 | 小型實驗、嵌入式應用 | | **Claude 2** | 未公開 | 商業 API（Anthropic） | 「安全」對話設計、可控性高 | 需要安全審核的粉絲互動 | ### 1.3 平台與服務比較 | 平台 | 免費額度 | 計費方式 | 支援的模型 | 特色功能 | |------|----------|----------|------------|----------| | **OpenAI** | 5美元試算 | 按 token 計費 | GPT‑3.5、GPT‑4 | Chat Completion、Fine‑tune（付費） | | **Azure OpenAI** | 依合約 | 按使用量 | 同 OpenAI | 企業級 SLA、與 Azure 生態整合 | | **Google Vertex AI** | $300 試用金 | 按分鐘/API 次數 | Gemini、PaLM2 | 端到端 MLOps、AutoML 支援 | | **AWS Bedrock** | 無免費額度 | 按 token 計費 | Claude、Jurassic、Titan | IAM 控制、VPC PrivateLink | | **HF Inference API** | 30 天免費（限 30 M token） | 按請求次數 | 多種開源模型 | 直接部署自有 LoRA、Endpoint 分層 | ### 1.4 選型要點 1. **資料隱私**：若角色對白涉及商業機密，建議自行部署 LLaMA 2、Mistral 等開源模型。 2. **成本**：GPT‑4 價格較高，若預算有限，可先以 **GPT‑3.5** 或 **Mistral‑7B** 為基礎，後期再升級。 3. **可微調性**：OpenAI、Claude 需要付費才能微調；開源模型可自行使用 LoRA、QLoRA 等低資源微調技術。 4. **多語言支援**：中文表現優於多數模型，LLaMA‑2‑Chat、Gemini Pro 皆提供良好中文對話。 --- ## 2. 圖像生成模型（Diffusion） ### 2.1 Diffusion 基礎 - **Diffusion Model**：透過逐步「噪聲化」與「去噪」的過程學習資料分佈，最終可從純噪聲還原出高品質圖像。 - **條件 Diffusion**：在噪聲去除過程中加入文字、圖形或姿態等條件，實現文字到圖（Text‑to‑Image）或圖到圖（Image‑to‑Image）生成。 ### 2.2 主要模型與特性 | 模型 | 參數規模 | 開源授權 | 主流應用 | 代表性平台 | |------|----------|----------|----------|------------| | **Stable Diffusion 2.1** | 860M | CC‑BY‑4.0 | 文字→圖、圖→圖、Inpainting | DreamStudio、Automatic1111 | | **Stable Diffusion XL (SDXL)** | 2B+ | CC‑BY‑4.0 | 高解析度（1024×1024）+ 多風格 | Stability AI API | | **Midjourney** | 未公開（專有） | 商業授權 | 藝術風格、快速迭代 | Discord Bot | | **DALL·E 3** | 未公開（專有） | 商業授權 | 文字→圖、風格化控制 | OpenAI API | | **DeepFloyd IF** | 3B | MIT | 多階段高解析度生成 | HuggingFace Hub | | **Playground‑v2 (Flux)** | 9B | CC‑BY‑4.0 | 文字→圖、超高真實感 | Playground AI | ### 2.3 開源工具與 UI - **Automatic1111**：最完整的 Web UI，支援 LoRA、ControlNet、Prompt 擴充。 - **InvokeAI**：適合批次產出、CLI‑first 工作流。 - **ComfyUI**：視覺化節點編排，適合複雜管線（圖像→姿態→光影控制）。 - **Diffusers（🤗）**：Python SDK，便於在程式中嵌入 Diffusion 推理與微調。 ### 2.4 模型選型矩陣 | 評估面向 | 穩定性 & 社群 | 成本 | 畫質 & 解析度 | 可微調性 (LoRA/ControlNet) | 推薦情境 | |----------|---------------|------|--------------|----------------------------|----------| | **Stable Diffusion 1.5** | 巨大（超過 30k 星） | 本地 GPU (免費) | 512‑768px，風格多樣 | 支援 LoRA、ControlNet | 初期概念驗證、低成本原型 | | **Stable Diffusion 2.1** | 大社群、官方支援 | 本地 GPU (免費) | 768‑1024px，細節提升 | 完全支援 LoRA | 角色立繪、服裝變體 | | **SDXL** | 新興但快速成長 | 需要較高顯存（≥ 12GB） | 1024‑2048px，真實感強 | 支援 LoRA（需較大顯存） | 高品質海報、商品圖 | | **Midjourney** | 專有、Discord 社群活躍 | 訂閱制（月 $10‑$30） | 1024‑2048px，藝術風格突出 | 無法自行微調 | 快速概念驗證、藝術探索 | | **DALL·E 3** | OpenAI 官方支援 | 按圖計費（$0.02/圖） | 1024‑2048px，語意對齊度高 | 無法微調 | 商業廣告素材、跨語言文字圖 | ### 2.5 實務操作範例（Python + Diffusers） ```python from diffusers import StableDiffusionPipeline, StableDiffusionXLPipeline import torch # 以 SDXL 為例（需 12GB 以上顯存） pipe = StableDiffusionXLPipeline.from_pretrained( "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16 ).to("cuda") prompt = "一位穿著未來感銀色機甲的虛擬偶像，在星河背景下微笑，高清，8k" image = pipe(prompt, num_inference_steps=30, guidance_scale=7.5).images[0] image.save("idol_sdxl.png") ``` > **小技巧**：在 `guidance_scale` 參數上調可以提升文字與圖像的對齊度；`num_inference_steps` 越高畫質提升有限但推理時間線性增長。 --- ## 3. 聲音生成模型（Vocoder / TTS） ### 3.1 生成式聲音概念 - **TTS（Text‑to‑Speech）**：將文字轉換為語音，主要技術包括 **Tacotron‑2**、**FastSpeech**、**VITS** 系列。 - **Vocoder**：將頻譜（spectrogram）轉為波形的最後一步，常見的有 **WaveNet、HiFi‑GAN、WaveGlow**。 - **歌聲合成（Voice‑Singing）**：在 TTS 基礎上加入音高與時值控制，代表模型如 **RVC、Clone‑Voice、Suno AI**。 ### 3.2 主流模型與服務 | 模型 / 服務 | 授權 | 支援語言 | 特點 | 推薦使用情境 | |--------------|------|-----------|------|----------------| | **OpenAI Whisper + ChatGPT‑4o‑audio** | 商業 API | 多語言（超過 90） | 端到端語音辨識 + 合成（即時） | 直播字幕、語音互動 | | **Google Cloud Text‑to‑Speech** | 商業 | 30+ 語言 | WaveNet 高品質、SSML 控制 | 多平台應用、金融客服 | | **Microsoft Azure Speech** | 商業 | 75+ 語言 | Neural Voice, Custom Voice (付費) | 本土化虛擬偶像、商業廣告 | | **ElevenLabs** | 商業 (免費配額) | 英文、日文、韓文等 | 風格化 Voice Cloning、情感參數 | 英文/日文歌唱、角色配音 | | **Bark (OpenAI)** | 開源 MIT | 英文、中文測試版 | 文本→語音+音效 | 原型驗證、短片敘事 | | **RVC (Retrieval‑based Voice Conversion)** | 開源 GPL‑3.0 | 以訓練資料語言為限 | 少量樣本即可克隆聲線 | 角色歌聲、二次創作 | | **CosyVoice** (Alibaba) | 開源 Apache‑2.0 | 中文、英文 | 多說話人微調、低資源適配 | 中國市場角色聲線 | ### 3.3 工具與平台比較 | 平台 | 免費額度 | 計費模式 | 支援自訂聲線 | API 延遲 | 適用場景 | |------|----------|----------|--------------|----------|-----------| | **ElevenLabs** | 10 分鐘/月 | 按字元 | 有（付費） | < 300 ms | 直播即時朗讀 | | **Azure Speech** | $5 USD 首月 | 按分鐘 | 有（Custom Voice） | 200‑400 ms | 大規模線上課程 | | **Google TTS** | 4 M 字符 | 按字符 | 有（Voice Studio） | 150‑300 ms | 手機 App | | **RVC** | 完全免費 | 無 | 完全自建模型 | 視硬體而定 | 角色歌唱、短音頻 | | **CosyVoice** | 免費（開源） | 無 | 完全自建 | GPU 推理時間 | 中文角色配音 | ### 3.4 建立專屬聲線的工作流程（以 RVC 為例） 1. **蒐集樣本**：至少 5‑10 秒的乾淨語音，總時長 10‑20 分鐘最佳。 2. **音訊前處理**： - 去噪（`ffmpeg -i raw.wav -af afftdn output.wav`） - 正規化 (`ffmpeg -i output.wav -filter:a "volume=0.9" norm.wav`) 3. **切片與特徵提取**：使用 `rvc` 內建腳本切成 0.5 秒的片段，生成 mel‑spectrogram。 4. **微調模型**： ```bash python train.py \ --data_dir ./samples \ --model_path ./pretrained/rvc_base.pth \ --epochs 30 \ --batch_size 8 \ --lr 0.0005 ``` 5. **推理測試**： ```python from rvc import RVC model = RVC('output_checkpoint.pth') wav = model.infer('你好，我是虛擬偶像星瀾。') wav.save('test.wav') ``` 6. **上線部署**：將 `model` 包裝成 Flask/FASTAPI，供 OBS 或 Discord Bot 呼叫。 --- ## 4. 綜合選型指引 & 案例對照 ### 4.1 需求矩陣（角色、互動、製作規模） | 需求 | 文本生成 | 圖像生成 | 聲音生成 | |------|----------|----------|----------| | **即時互動**（直播、粉絲聊天） | GPT‑4o/Claude 2（低延遲） | SDXL API（Fast Diffusion） | ElevenLabs Streaming | | **高度客製化**（專屬風格） | LLaMA‑2‑Chat + LoRA | SD 1.5 + LoRA + ControlNet | RVC / CosyVoice 自建 | | **成本敏感**（小團隊、預算 < $2k） | Mistral‑7B (HF) | SD 1.5 (本地) | Open‑source VITS + HiFi‑GAN | | **跨語言**（中、英、日） | Gemini Pro（多語） | SDXL + multilingual prompts | Azure Speech (Custom Voice) | | **品牌安全**（資料不外流） | 自部署 LLaMA‑2 | 本地 Stable Diffusion | 本地 RVC / CosyVoice | ### 4.2 實務案例對照 | 案例 | 文本模型 | 圖像模型 | 聲音模型 | 為什麼這樣選? |------|----------|----------|----------|----------------| | **新創偶像 A**（預算 15k） | GPT‑3.5 API | Stable Diffusion 1.5 (local) | ElevenLabs (免費配額) | 低成本、快速上線，文字與圖像可透過 API 整合，聲音使用雲端服務降低硬體門檻 | | **大型娛樂公司 B**（跨平台） | Gemini Pro (Google Cloud) | SDXL via Stability AI | Azure Custom Voice | 需要高可靠性、品牌保護，選擇企業級雲服務，且支援多語言與高解析度圖像 | | **獨立創作者 C**（高度個性） | LLaMA‑2‑Chat + LoRA | SD 2.1 + ControlNet | RVC 自建 | 完全自建流程，避免任何外部資料流出，並可透過 LoRA 微調呈現獨特風格 | --- ## 5. 小結與行動指南 1. **先定義需求**：即時互動、品牌安全、成本上限、語言範圍。 2. **挑選模型**：根據上表的特性匹配，先在雲端試驗（免費額度），再決定是否搬遷至本地部署。 3. **建置測試環境**： - 文本：Python + `openai` / `transformers` 套件。 - 圖像：Docker 內部部署 `automatic1111`，或使用 `diffusers` 直接呼叫 API。 - 聲音：若採用 RVC，建議搭配 `CUDA 11.8` + `torch 2.0` 環境。 4. **迭代驗證**：每個模組先產出 **MVP（最小可行產品）**，收集內部測試回饋，再進行微調與優化。 5. **文檔化**：將模型版本、Prompt、微調參數、API 金鑰管理方式寫入 `03_Toolkit_Selection.md`，確保團隊透明化運作。 > **下一步**：完成本章學習後，請於 **第 2 週** 前完成「工具選型矩陣」表，並在 **第 3 週** 前完成「文本模型 API 測試」與「Diffusion 本地部署」的最小化實驗。 --- *本章結束，接下來第 4 章將深入探討 **數據收集與模型微調** 的實作細節，帶你從原始素材到專屬 LoRA 完整流程。*

第 2 章：概念設計與角色定位

第 4 章數據收集與模型微調