第 6 章：深度學習與大資料

發布於 2026-03-04 03:22

# 第 6 章：深度學習與大資料本章將帶領讀者從基礎的卷積神經網絡（CNN）與循環神經網絡（RNN）談起，深入探討 GPU 加速、分布式訓練以及模型壓縮等關鍵技術。透過實際範例與最佳實踐，說明如何在大規模資料環境下構建、訓練與部署高效能模型。 --- ## 6.1 基礎概念回顧 | 項目 | 定義 | 常見應用 | 參考框架 | |------|------|----------|----------| | CNN | 利用卷積核提取局部特徵的網絡結構 | 影像分類、物件偵測、語音辨識（聲學特徵） | TensorFlow, PyTorch, Keras | | RNN | 遞迴結構，能處理變長序列 | 自然語言處理、時間序列預測、音樂生成 | TensorFlow, PyTorch, MXNet | | LSTM/GRU | 針對長期依賴改進的 RNN | 文本生成、機器翻譯、股票預測 | 同上 | | Transformer | 基於自注意力的序列模型，無循環結構 | BERT, GPT, T5, 多語言翻譯 | PyTorch (HuggingFace), TensorFlow | > **小提醒**：在選擇模型結構時，先從資料類型與任務需求入手，再考慮計算成本與可解釋性。 --- ## 6.2 GPU 加速基礎 ### 6.2.1 CUDA & cuDNN | 內容 | 說明 | |------|------| | CUDA | NVIDIA GPU 的程式開發框架，支援大規模 SIMD 計算 | | cuDNN | 深度學習專用的 GPU 加速函式庫，優化卷積、池化等運算 | | NCCL | 多 GPU 間通訊協定，支援分布式訓練 | #### 典型加速技巧 - **Batch Size**：調整 Batch Size 能直接影響 GPU memory 與吞吐量。常用規則：Batch Size 為 2 的冪次方（如 32、64、128）。 - **Mixed Precision**：使用 FP16/FP32 混合精度可節省 50% 記憶體，速度提升 2‑3 倍。 - **Gradient Checkpointing**：在 GPU 記憶體受限時，保存部分中間結果，減少記憶體佔用。 python # PyTorch 混合精度範例 import torch from torch.cuda.amp import autocast, GradScaler model = MyModel().cuda() optimizer = torch.optim.Adam(model.parameters(), lr=1e-4) scaler = GradScaler() for inputs, targets in train_loader: optimizer.zero_grad() with autocast(): outputs = model(inputs.cuda()) loss = criterion(outputs, targets.cuda()) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() --- ## 6.3 分布式訓練 ### 6.3.1 PyTorch 分布式 | 技術 | 作用 | |------|------| | DataParallel | 同時在多 GPU 上復製模型，簡易使用 | | DistributedDataParallel (DDP) | 真正的分布式訓練，節省梯度同步時間 | | TorchElastic | 在多節點、可動態失效環境中自動擴縮 | #### 典型配置 bash # 啟動 4 個 GPU 進行 DDP python -m torch.distributed.launch \ --nproc_per_node=4 \ train_ddp.py python # train_ddp.py import torch import torch.distributed as dist from torch.nn.parallel import DistributedDataParallel as DDP def main(): dist.init_process_group(backend='nccl') local_rank = int(os.environ['LOCAL_RANK']) torch.cuda.set_device(local_rank) model = MyModel().cuda(local_rank) model = DDP(model, device_ids=[local_rank]) # … training loop … ### 6.3.2 Spark 與 TensorFlow Extended (TFX) 在處理 TB 級資料時，可將資料分散於 Spark Cluster，使用 `tf.data` 建立分布式輸入 pipeline，結合 `tf.distribute.Strategy` 進行分布式訓練。 --- ## 6.4 大資料環境下的深度學習 Pipeline | 步驟 | 工具 | 主要功能 | |------|------|----------| | 資料存取 | Apache Parquet / ORC | 壓縮、列式存取 | | 資料預處理 | Pandas, Dask, Spark | 大量資料的批次轉換 | | 特徵工程 | Featuretools, scikit‑learn | 自動化特徵生成 | | 模型訓練 | PyTorch, TensorFlow, MXNet | 端到端訓練 | | 監控 | MLflow, Weights & Biases | 實驗追蹤、參數管理 | | 部署 | TensorRT, ONNX Runtime, TorchServe, TensorFlow Serving | 離線 / 在線推論 | > **案例**：某大型零售商利用 Spark 進行每日 5 TB 的交易數據清洗，轉換為 Parquet 格式，然後使用 Dask DataFrame 進行特徵工程，最後在 8 個 NVIDIA A100 GPU 上使用 PyTorch DDP 訓練一個多層感知器（MLP），平均推論延遲 12 ms。 --- ## 6.5 模型壓縮與推論優化 | 技術 | 目標 | 主要實作 | |------|------|----------| | 參數剪枝 | 降低模型尺寸 | 針對卷積層權重的稀疏化 | | 量化 | 轉為低精度 | FP32 → INT8 或 BFP | | 知識蒸餾 | 輕量模型學習 | 大模型「教師」→ 小模型「學生」 | | 模型融合 | 同時部署多模型 | Ensembling, Stack LSTM | | Edge 部署 | 運行於手機 / IoT | TensorFlow Lite, ONNX Runtime Mobile | python # TensorFlow 量化範例 import tensorflow as tf converter = tf.lite.TFLiteConverter.from_saved_model('saved_model') converter.optimizations = [tf.lite.Optimize.DEFAULT] quantized_tflite_model = converter.convert() with open('model_quant.tflite', 'wb') as f: f.write(quantized_tflite_model) --- ## 6.6 典型深度學習應用 | 行業 | 典型模型 | 目標 | 主要挑戰 | |------|----------|------|----------| | 醫療影像 | ResNet, U‑Net | 病灶檢測、分割 | 大規模訓練、資料隱私 | | 自然語言 | BERT, GPT | 文本分類、生成 | 訓練成本、模型尺寸 | | 金融風險 | LSTM, Transformer | 欺詐偵測、信用評分 | 時間序列長期依賴、監管合規 | | 自動駕駛 | YOLO, EfficientNet | 物件偵測 | 硬體限制、實時性 | > **洞察**：在任何應用中，**資料品質**往往比模型複雜度更能決定最終表現。始終先投入時間於資料清洗與特徵工程，然後再進行模型優化。 --- ## 6.7 實戰：簡易物件偵測 Pipeline python # 1. 數據準備 import albumentations as A from albumentations.pytorch import ToTensorV2 train_transforms = A.Compose([ A.RandomCrop(512, 512), A.HorizontalFlip(p=0.5), A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), ToTensorV2(), ]) # 2. 模型定義（YOLOv5） import torch from yolov5 import YOLOv5 model = YOLOv5('yolov5s.yaml', device='cuda') # 3. 訓練循環（使用 PyTorch Lightning） from pytorch_lightning import Trainer trainer = Trainer(gpus=2, precision=16, accelerator='ddp') trainer.fit(model, train_dataloader, val_dataloader) # 4. 推論 & 優化 exported = torch.onnx.export(model, dummy_input, 'yolov5s.onnx') # 量化 import onnxruntime as ort sess = ort.InferenceSession('yolov5s.onnx') --- ## 6.8 進階閱讀與工具 | 資源 | 類型 | 連結 | |------|------|------| | DeepLearning.ai Coursera | 线上课程 | https://www.coursera.org/specializations/deep-learning | | TensorFlow Extended (TFX) | 开源框架 | https://www.tensorflow.org/tfx | | NVIDIA Deep Learning SDK | GPU 工具链 | https://developer.nvidia.com/deep-learning-sdk | | ONNX | 互操作格式 | https://onnx.ai | | HuggingFace Transformers | NLP 模型 | https://huggingface.co/transformers | --- ## 6.9 小結 - **深度學習模型**：CNN 與 RNN 為基礎，Transformer 正在重塑 NLP 與視覺領域。 - **GPU 加速**：CUDA、cuDNN、混合精度與梯度累積是提升訓練速度的關鍵。 - **分布式訓練**：DDP、Spark + TF，能有效處理 TB 級資料。 - **模型壓縮**：剪枝、量化與蒸餾，將高效能模型部署至邊緣設備。 - **資料品質**：始終是決定模型表現的首要因素。 > **實務建議**：在實際專案中，先建立 **可重現的實驗框架**（MLflow/Weights & Biases），再逐步加入 GPU、分布式與壓縮技術，避免一次性投入過多複雜度。 --- ## 6.10 練習題 1. **GPU 追蹤**：使用 NVIDIA Nsight Systems 或 TensorBoard 的 Profile 功能，找出在訓練 `ResNet‑50` 時 GPU 的瓶頸，並提出三項優化建議。 2. **分布式實作**：在 2 個 GPU 上使用 PyTorch DDP 訓練 `LSTM` 時，觀測訓練速度提升與梯度一致性，並撰寫一段小結報告。 3. **模型壓縮挑戰**：將一個已經訓練好的 `YOLOv5s` 模型量化為 INT8，並在 Jetson Nano 上測試推論延遲。比較未量化模型與量化模型的推論結果，討論量化帶來的利弊。 --- > 以上即為第六章內容，期盼透過實作與案例，讀者能將深度學習技術落地於實際業務，並掌握在大資料環境中高效訓練與部署的關鍵。

5. 特徵工程：從原始數據到可用特徵

第 7 章：模型評估、選擇與部署