第 3 章視覺感知：電腦視覺與動作捕捉

發布於 2026-02-21 02:47

# 第 3 章視覺感知：電腦視覺與動作捕捉虛擬演員的生命力不僅來源於聲音合成，更取決於「視覺感知」的精準度。透過電腦視覺與動作捕捉技術，能將真實世界的光影、姿態、表情轉譯成三維數據，進而驅動虛擬角色的即時互動。本章將從影像處理、三維重建、動作捕捉以及資料前處理四大面向，逐步闡述如何將視覺訊號轉化為可用於虛擬演員的數位資產。 ## 3.1 影像處理：從原始像素到可用特徵影像處理是視覺感知的基礎，主要工作流程包括 1. **圖像預處理**：去除噪聲、做光照補償、直方圖均衡化。 2. **特徵提取**：利用卷積神經網路（CNN）提取多尺度特徵，或使用傳統算子（SIFT、ORB）進行關鍵點匹配。 3. **語義分割**：對畫面進行像素級分類，得到人物、背景、道具等分層。 4. **時間同步**：對多相機、RGB‑Depth 影像做時序對齊，確保後續 3D 重建的精準度。 | 步驟 | 技術方案 | 典型模型 | 應用示例 | |------|----------|----------|----------| | 影像預處理 | Gaussian blur、CLAHE | — | 低光照環境下的姿態估計 | | 特徵提取 | ResNet‑50、EfficientNet | 物件檢測 | 人臉辨識、手勢偵測 | | 語義分割 | DeepLabV3、UNet | — | 背景剔除、遮罩合成 | | 時間同步 | 輸入時間戳、光照補償 | — | 多相機同步，避免影像延遲 | ### 3.1.1 典型程式碼片段 python import cv2 import torch from torchvision import transforms # 1. 讀取影像並進行預處理 frame = cv2.imread('frame.png') frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB) frame = cv2.resize(frame, (512, 512)) frame = transforms.ToTensor()(frame).unsqueeze(0) # 2. 前向傳遞至語義分割模型 model = torch.hub.load('pytorch/vision', 'deeplabv3_resnet50', pretrained=True) model.eval() with torch.no_grad(): output = model(frame)['out'] # 3. 取出預測分割圖 seg_mask = torch.argmax(output.squeeze(), dim=0).cpu().numpy() > **實務提示**：在實時應用中，往往需要將深度學習模型部署至 GPU 或 Edge 裝置；此時可考慮使用 TensorRT 或 ONNX Runtime 進行模型優化，以減少 1–3 ms 的推論延遲。 ## 3.2 三維重建：從影像到幾何模型三維重建是將 2D 視覺資訊轉化為可渲染 mesh 的關鍵步驟。主要方法有 - **多相機立體視覺**：結合多台相機的圖像做三角測量。 - **深度相機**：利用 RGB‑Depth 影像直接獲得深度圖。 - **結構光 / ToF（Time‑of‑Flight）**：主動光源生成 3D 資訊。 - **光束掃描（LiDAR）**：高精度點雲捕捉，適合大型場景。 - **重建算法**：稀疏重建（SIFT‑SFM）、密集重建（PMVS）、深度學習法（DenseDepth、MVSNet）。 ### 3.2.1 點雲處理流程 1. **點雲配準**：使用 ICP（Iterative Closest Point）或 FPFH（Fast Point Feature Histograms）進行配準。 2. **點雲濾波**：Voxel Downsampling、Statistical Outlier Removal。 3. **網格重建**：Poisson Surface Reconstruction、Ball Pivoting Algorithm。 4. **貼圖映射**：將 2D 影像投影到 3D 表面，生成 UV Map。 | 技術 | 優缺點 | 適用場景 | |------|--------|----------| | ICP | 速度快，精度高 | 小尺度姿態校正 | | Poisson | 生成光滑網格 | 複雜曲面重建 | | MVSNet | 深度學習，能處理稀疏視訊 | 大型景物重建 | > **實務案例**：Apple ARKit 在 iOS 上結合 LiDAR 掃描器，實時生成室內點雲，並用於虛擬家具投影，提升使用者沉浸感。 ## 3.3 動作捕捉技術與資料前處理 ### 3.3.1 主動式光學系統（Optical） - **標記式（Marker‑Based）**：使用反光貼紙或 LED 標記，配合多相機系統。優點是定位精度高（≤ 1 mm）。 - **標記式缺點**：需在被捕捉者身上貼標記，且在複雜環境下遮蔽較多。 - **標記式解決方案**：使用 DeepLab‑style 人體分割模型在圖像上自動檢測標記位置，減少人工檢測。 ### 3.3.2 無標記光學系統（Marker‑Less） - 透過姿勢估計（OpenPose、MediaPipe）直接從 RGB 圖像推斷關節位置。速度快，成本低，但精度受限於相機視角與光照。 ### 3.3.3 惯性系統（IMU） - 以加速度計與陀螺儀測量身體運動，常用於手勢捕捉、體感遊戲。 - **融合技術**：卡爾曼濾波、Madgwick Filter、Optitrack‑IMU 融合，能彌補單一傳感器的盲點。 ### 3.3.4 資料前處理與清洗 | 步驟 | 目的 | 技術手段 | |------|------|----------| | 去噪 | 消除量測噪聲 | Low‑pass 滤波、Gaussian smoothing | | 對齊 | 確保多模態資料同步 | 時間戳對齊、延遲補償 | | 標定 | 校正關節參數 | 參考姿勢、正交校正 | | 補值 | 處理遮擋、缺失點 | 3D Inpainting、IMU 插值 | > **小技巧**：在 Marker‑Based 系統中，對於相機視角造成的遮擋，可利用 **marker‑less pose estimation** 補全遮蔽部位，並以 **Kalman Filter** 融合兩者資料，提升完整性。 ## 3.4 案例與實務應用 | 類型 | 方案 | 主要公司 / 系統 | 成本 (USD) | 精度 | 典型應用 | |------|------|-----------------|-----------|------|----------| | Marker‑Based Optical | Vicon/Qualisys + LED marker | Hollywood 動作捕捉 | 1 000 – 5 000 | 0.5–1 mm | 電影《阿凡達》動作捕捉 | | Marker‑Less Optical | MediaPipe Pose + RGB camera | Google ARCore | < 50 | 5–10 mm | 360° 直播互動 | | IMU‑Based | Xsens MT‑40 | VR 遊戲 | 200–500 | 1–3 mm | 手部互動 | | Marker‑Less + IMU | Fusion via Kalman Filter | HTC Vive Tracking | < 100 | 2–5 mm | 體感遊戲 | > **實務建議**：在小型工作室中，常用的解決方案是結合 Marker‑Based 與 Marker‑Less：在關鍵關節處放置 2–3 mm 反光標記，並利用 MediaPipe 追蹤遮蔽部位，最後透過 Kalman Filter 融合 IMU 資料，達到 ≈ 2 mm 的總體精度，足以支援高級動畫與表情捕捉。 ## 3.5 小結本章概述了虛擬演員視覺感知的完整流程： 1. **影像處理**：將原始像素轉為可用的特徵與語義分割，為後續步驟提供高品質輸入。 2. **三維重建**：利用多相機、深度相機或 LiDAR 生成點雲，並通過配準、濾波、網格重建與貼圖映射產生可渲染 mesh。 3. **動作捕捉**：根據場景需求選擇 Marker‑Based、Marker‑Less 或 IMU 系統，並透過資料前處理與融合確保運動訊號的精度與完整性。 4. **整合實務**：將上述流程部署於 GPU 或 Edge 裝置，並使用模型優化工具降低推論延遲，確保虛擬演員能以 60 fps 以上的速度回應使用者動作。 > **關鍵點回顧**： > - 影像處理的「時間同步」是 3D 重建成功的前提。 > - 在三維重建中，配準算法（ICP、FPFH）決定了點雲精度。 > - 動作捕捉資料前處理（Kalman Filter、Marker‑Detection）可大幅提升姿態追蹤的穩定性。 > **後續閱讀**：第 4 章將進一步探討「深度學習在三維重建與動作捕捉中的應用」，並提供實作範例與部署指南。

第 2 章人工智慧基礎：機器學習與深度學習

第 4 章聲音合成與情感傳遞

聊天視窗

第 3 章 視覺感知：電腦視覺與動作捕捉

第 3 章視覺感知：電腦視覺與動作捕捉