第二章技術基礎：CGI、深度學習與動作捕捉

發布於 2026-02-21 21:07

# 第二章技術基礎：CGI、深度學習與動作捕捉虛擬偶像的核心在於其可視化與表現力。這一章將拆解三項關鍵技術：**GPU 渲染**、**GAN 生成模型**與**動作捕捉流程**。透過實際例子、表格與程式碼片段，我們將呈現從硬體到演算法，再到實務應用的完整圖景。 ## 2.1 GPU 渲染技術 | 階段 | 主要工作 | 典型工具/框架 | 重要參數 | 典型應用場景 | |------|----------|----------------|----------|--------------| | 1️⃣ 頂點處理 | 將 3D 模型座標轉換為 2D 影像 | OpenGL, DirectX, Vulkan | 頂點著色器、世界矩陣 | 角色模型變形 | | 2️⃣ 光栅化 | 將多邊形轉成像素 | GPU, 內建光栅化管線 | 細節保留、法線貼圖 | 角色表面細節 | | 3️⃣ 片段處理 | 計算像素顏色 | Fragment Shader, Compute Shader | 著色器語法、貼圖采樣 | 光照、色彩校正 | | 4️⃣ 後期處理 | 加入光暈、HDR、雜訊抑制 | NVIDIA DLSS, AMD FidelityFX | 解析度提升 | 影像品質提升 | ### 2.1.1 重要概念 - **Shader**：在 GPU 上運行的小程式，分為頂點著色器（Vertex Shader）、片段著色器（Fragment Shader）等。 - **Ray Tracing**：利用光線追蹤計算光照，近年 NVIDIA RTX 系列卡開始商用，常見於虛擬偶像的高光效果。 - **Render Pipeline**：渲染流程，分為傳統的「固定功能」管線與「可編程」管線。虛擬偶像多採用可編程管線以便快速調整。 ### 2.1.2 程式碼範例（GLSL） glsl // 簡易頂點著色器 #version 460 core layout(location = 0) in vec3 aPos; layout(location = 1) in vec3 aNormal; uniform mat4 model; uniform mat4 view; uniform mat4 projection; out vec3 FragPos; out vec3 Normal; void main() { FragPos = vec3(model * vec4(aPos, 1.0)); Normal = mat3(transpose(inverse(model))) * aNormal; gl_Position = projection * view * vec4(FragPos, 1.0); } // 簡易片段著色器 #version 460 core in vec3 FragPos; in vec3 Normal; out vec4 FragColor; uniform vec3 lightPos; uniform vec3 viewPos; void main() { // Diffuse vec3 norm = normalize(Normal); vec3 lightDir = normalize(lightPos - FragPos); float diff = max(dot(norm, lightDir), 0.0); // Specular vec3 viewDir = normalize(viewPos - FragPos); vec3 reflectDir = reflect(-lightDir, norm); float spec = pow(max(dot(viewDir, reflectDir), 0.0), 32.0); vec3 result = (diff + spec) * vec3(1.0, 0.8, 0.6); FragColor = vec4(result, 1.0); } ### 2.1.3 實務技巧 | 技巧 | 說明 | |------|------| | **Batch Rendering** | 合併多個 Draw Call，減少 CPU 負擔，提升 FPS。 | | **Level of Detail (LOD)** | 根據距離自動切換模型細節，節省 GPU 資源。 | | **Shader Optimization** | 適當使用 `#ifdef` 以減少不必要分支，優化 GPU 佈局。 | | **GPU Ray Tracing** | 在 RTX 卡上開啟 RT 模式，可大幅提升光影真實感，適用於舞台表演。 | ## 2.2 GAN 生成模型 GAN（Generative Adversarial Network）是生成式深度學習模型的代表。其結構由兩個子網路構成：生成器（Generator）與鑑別器（Discriminator）。在虛擬偶像領域，GAN 常用於： 1. **高解析度圖像合成**：如將低解析度模型升級為 4K 或更高。 | 2. **姿勢變換**：根據目標姿勢生成相應圖像，配合動作捕捉。 | 3. **表情生成**：快速合成多種面部表情，支援即時互動。 | ### 2.2.1 基礎架構 Generator: Z -> Image Discriminator: Image -> Probability Loss: L_G = -E[log(D(G(Z)))] L_D = -E[log(D(x))] - E[log(1-D(G(Z)))] - **Z**：隨機向量，作為生成器的輸入。 - **D(x)**：鑑別器判斷真實影像的機率。 - **L_G**、**L_D**：分別是生成器與鑑別器的損失函數。 ### 2.2.2 典型模型 | 模型 | 特色 | 主要應用 | |------|------|----------| | **StyleGAN2** | 高解析度圖像，風格控制 | 角色服裝變換、背景生成 | | **PGAN** | 漸進式訓練，穩定性高 | 3D 角色材質合成 | | **CycleGAN** | 雙向轉換，無需配對數據 | 影像到影像的風格轉換 | ### 2.2.3 參數調整技巧 | 參數 | 說明 | 建議範圍 | |------|------|----------| | **Learning Rate** | 影響收斂速度 | 2e-4 ~ 1e-3 | | **Batch Size** | 內存佔用 | 4 ~ 32 | | **Beta1, Beta2** | Adam 優化器 | 0.5, 0.999 | | **Progressive Growing** | 訓練過程逐步增大解析度 | 8x8 → 512x512 | ## 2.3 動作捕捉流程動作捕捉（Motion Capture, MoCap）是將實體演員的動作資訊轉為虛擬角色的關鍵。現行技術可大致分為**傳統光學系統**與**無線慣性系統**，以及結合 AI 的 **深度學習優化**。 ### 2.3.1 傳統光學系統 | 優點 | 缺點 | |------|------| | 高精度、低延遲 | 成本高，需專業場景 | | 可捕捉細微動作 | 必須貼上反射標記，對演員造成負擔 | - **工作原理**：多台攝像機同時捕捉演員身上貼布的光學標記，透過三角定位計算 3D 位移。 - **主流設備**：Vicon, OptiTrack, Qualisys | ### 2.3.2 無線慣性系統 | 優點 | 缺點 | |------|------| | 可於戶外或極限環境使用 | 精度受慣性漂移影響 | | 減少場景佈置成本 | 延遲較高，需後期校正 | - **核心組件**：慣性測量單元（IMU）、加速度計、陀螺儀。 - **後期處理**：常使用 **Kalman Filter** 或 **Pose Estimation** 進行平滑。 ### 2.3.3 AI 之後的優化 1. **自動標記擺放**：使用 CNN 直接將視頻輸入，輸出 3D 位置，避免手動標記。 2. **姿勢補全**：對缺失部位使用 **Graph Neural Network** 進行推斷，減少標記數量。 3. **姿勢微調**：利用 **PoseNet** 或 **OpenPose** 進行即時姿勢校正。 ### 2.3.4 一體化工作流程 mermaid flowchart TD A[演員佩戴感測器] -->|數據流| B[捕捉硬體 (光學/慣性)] B --> C{資料後處理} C -->|傳統算法| D[三角定位 / 姿勢重建] C -->|AI 加速| E[姿勢微調 & 缺失補全] D --> F[骨架資料 (.bvh/.c3d)] E --> F F --> G[動畫綁定] G --> H[虛擬偶像引擎 (Unreal/Unity)] ### 2.3.5 實務部署建議 | 步驟 | 重點 | |------|------| | **場景設置** | 確保攝像機覆蓋範圍，避免遮擋 | | **標記貼布** | 高光反射、均勻分佈 | 目標部位 15~30 個 | | **同步時間碼** | 使用 NTP 或 LTC 確保多設備同步 | | **後期檢查** | 觀察骨架重疊、關節角度異常 | | **AI 補強** | 使用 PoseNet 或 SMPLify 進行錯誤修正 | ## 小結本章梳理了虛擬偶像的三大技術支柱： 1. **GPU 渲染** – 透過可編程著色器與 RTX 光線追蹤，實現高質量即時影像。 2. **GAN 生成模型** – 以高解析度圖像合成、姿勢與表情生成為核心，為角色外觀提供無限可能。 3. **動作捕捉流程** – 從光學到慣性，再結合 AI，將演員動作精準轉換至虛擬角色。掌握這些基礎後，讀者便能在下一章進一步探討 **角色動畫、材質與互動邏輯** 的整合與優化。

1. 虛擬偶像的起源

3. 行為模擬：情感、語音與互動

聊天視窗

第二章 技術基礎：CGI、深度學習與動作捕捉

第二章技術基礎：CGI、深度學習與動作捕捉