第 3 章：AI 劇本生成與語音合成

發布於 2026-02-22 01:46

# 第 3 章：AI 劇本生成與語音合成本章將帶您踏入虛擬演員創作流程中最具創造性與挑戰性的兩個技術環節：\n1. **自然語言生成（NLG）**：如何利用 AI 產生多樣化、富有情感、符合角色設定的劇本。\n2. **語音合成（TTS）**：如何將文字轉換為自然、可表達情緒且具個人特色的語音，並同步到虛擬人物的口型與動作。 > **實務案例**：本章最後將以「偶像 Yuki」的虛擬演唱會腳本為例，示範完整從劇本生成到語音合成的工作流程。 --- ## 3.1 自然語言生成（NLG）概述 ### 3.1.1 NLG 何謂？自然語言生成是一種把結構化資料、意圖或上下文轉換為可閱讀文字的 AI 技術。對於虛擬演員而言，NLG 主要負責： | 功能 | 具體需求 | |------|----------| | 角色對話 | 產生符合角色語氣、語速與情緒的台詞 | | 故事脈絡 | 建構場景、事件、對白連貫性 | | 多輪對話 | 維持上下文、回應觀眾互動 | ### 3.1.2 主要模型與技術 | 模型 | 基本架構 | 特色 | |------|----------|------| | GPT‑3 / GPT‑4 | Transformer | 大規模語料訓練，擁有極高語言多樣性 | | T5 | Encoder‑Decoder | 支持多種語言任務，能同時執行文本生成與摘要 | | BART | Encoder‑Decoder | 具備強健的復原能力，適合劇本編輯 | | ChatGPT‑style fine‑tuning | 角色特定調整 | 可針對虛擬演員語氣、口癖進行微調 | ### 3.1.3 角色化生成流程 1. **角色卡設計**：定義角色屬性（語調、情緒、語速、詞彙偏好）。 2. **資料蒐集**：收集角色的原始對話、演出音頻、文字稿。 | 3. **微調模型**：使用 3.1.2 中的模型，進行角色化微調。 | 4. **腳本生成**：輸入場景描述、情緒指令，模型產出台詞。 | 5. **後製審稿**：人工審查語句語法、文化適切性，必要時進行微調。 | > **提示**：為避免生成不當內容，可在微調時加入**安全指令**（如 `!禁止任何種族歧視語句`）並使用**多輪審查**機制。 ### 3.1.4 評估指標 | 指標 | 定義 | |------|------| | BLEU | 句子相似度 | | ROUGE | 召回率 | | Perplexity | 模型預測困難度 | | **情感一致性** | 角色情緒是否與指令對應 | | **多樣性指標** | 句型、詞彙多樣化 | > **實際數值範例**：在 GPT‑4 微調後，角色對話 BLEU = 0.45，情感一致性 92%。 --- ## 3.2 語音合成（TTS）技術 ### 3.2.1 TTS 系統組成 | 位置 | 主要技術 | |------|----------| | 文本前處理 | 分詞、標點、語調符號 | | 音素轉換 | Grapheme‑to‑Phoneme（G2P） | | 音素序列到聲學特徵 | 声学模型（Tacotron‑2, FastSpeech） | | 声学特征到波形 | 神经声码器（WaveNet, Parallel WaveGAN） | ### 3.2.2 主流 TTS 模型 | 模型 | 特色 | |------|------| | **Tacotron‑2** | RNN‑based，音素到梅爾頻譜 | | **FastSpeech / FastSpeech 2** | Transformer‑based，並行生成，速度快 | | **WaveNet** | 高品質神經聲碼器，延遲較高 | | **Parallel WaveGAN** | 低延遲、可離線部署 | | **VITS** | End‑to‑end 整合音素到波形 | ### 3.2.3 角色聲音克隆 1. **資料蒐集**：收集 30–60 分鐘的高品質音頻，涵蓋多種情緒與速度。 2. **特徵提取**：使用 MFCC 或 Mel‑Spectrogram。 3. **聲碼器訓練**：利用 VITS 或 FastSpeech‑2 + Parallel WaveGAN。 4. **情緒調節**：在聲學模型輸入情緒向量（如 `happy:0.8, sad:0.2`）。 > **示例**：以下為使用 HuggingFace 的 VITS 範例（Python） python from transformers import VITSProcessor, VITSTransformer processor = VITSProcessor.from_pretrained("google/vits-zh") model = VITSTransformer.from_pretrained("google/vits-zh") text = "今天的太陽真美，感謝大家的支持！" inputs = processor(text, return_tensors="pt") output = model.generate(**inputs) processor.save_audio(output, "yuki_today.wav") ### 3.2.4 Lip‑Sync 與情緒同步 | 步驟 | 技術 | |------|------| | 文字到音素 | G2P | | 音素到音節時間 | 音頻對齊（如 Montreal Forced Aligner） | | 音節到口型關鍵點 | 與動作捕捉同步的 IK 方案 | | 情緒調節 | 在音頻輸出前加入情緒向量，或直接改變音色 | > **實作提醒**：為確保 30 FPS 的即時 lip‑sync，建議使用 **FastSpeech 2 + Parallel WaveGAN** 的結合。 --- ## 3.3 完整工作流程示範：偶像 Yuki 的虛擬演唱會 1. **角色設定**： - 語氣：親切、偶像化 - 情緒曲線：從激昂到柔和 - 特殊口癖：結尾多加「～」 2. **劇本生成**： - **輸入**：`場景：舞台光影變換，觀眾起立，情緒：激昂` - **輸出**（GPT‑4 微調）：「大家好～今天是什麼節奏？我已準備好，讓我們一起跳舞吧～」 3. **台詞編輯**：人工審稿，確定台詞符合舞台節奏。 4. **音頻合成**： - **文本前處理**：加上 `!親切 30%` 與 `!偶像語氣` - **TTS**：FastSpeech 2 + Parallel WaveGAN，情緒向量 `excited:1.0` - **Lip‑Sync**：使用 M4F‑Aligner 對齊，IK 控制口型。 5. **動作同步**： - 舞蹈動作已透過 3D 建模 IK 補齊，音頻時間碼確保同步。 6. **後期製作**： - 檢查口型準確度、情緒傳遞 - 最後渲染：`Yuki_today.wav` 與 `Yuki_motion.fbx` 進行合成渲染。 > **渲染時常**：整場 45 分鐘演唱會，使用離線 VITS + Parallel WaveGAN，平均延遲 < 50 ms。 --- ## 3.4 評估與優化 | 指標 | 目標值 | |------|--------| | **音質** | MOS > 4.0 | | **情緒一致** | 95% | | **Lip‑Sync 精度** | 99.5% 齊聲 | | **生成速度** | 1.5×實時 | > **優化技巧**： > 1. **模型量化**（Int8）可降低 GPU 記憶體需求。 > 2. **混合精度訓練**（AMP）提升訓練速度。 > 3. **多線程資料流**：分別處理文本生成與聲碼器輸出，避免瓶頸。 --- ## 3.4 AI 劇本與語音的倫理考量 | 問題 | 風險 | 措施 | |------|------|------| | 語音模仿不當 | 声音盜用、版權爭議 | 取得授權，使用聲音合成時加上 `!聲音授權` 指令 | | 資料偏見 | 性別、種族偏見 | 進行數據清洗，加入反偏見訓練 | | 情緒誤導 | 讓觀眾產生過度情感投入 | 在劇本生成時加入 `安全情緒標籤` | > **結論**：雖 AI 劇本生成與 TTS 能大幅提升虛擬演員的表現力，但設計者必須兼顧技術與倫理，確保作品既創新又負責。 --- ## 3.5 小結本章展示了 AI 劇本生成與語音合成的完整技術路線，並提供實務範例與評估指標，助您在虛擬演員的創作過程中，從文字到聲音、從情緒到動作，實現高度一致且富有個人風格的演出。

第2章動作捕捉與姿勢重建

第4章影像合成與渲染管線