第七章：模型部署與實時決策

發布於 2026-03-06 15:16

# 第七章：模型部署與實時決策 > **學習目標** > - 了解模型從實驗室到生產環境的完整部署流程。 > - 掌握模型壓縮、微服務化、容器化、Kubernetes、A/B 測試與監控等關鍵技術。 > - 能夠設計並實現一套可觀測、可迭代的實時決策系統。 --- ## 7.1 何謂模型部署？部署（Deployment）是將訓練好的模型轉換成可被終端用戶或其他系統直接使用的服務。部署的目標不僅是「跑起來」，更要實現以下三大能力： 1. **可擴展**：隨流量增長自動調整資源。 2. **可觀測**：能即時檢測性能、錯誤、偏差。 3. **可迭代**：快速迭代模型、版本控制與回滾。典型的部署流程可視作「模型 → 容器化 → 編排 → 服務化 → 監控」。 ## 7.2 模型壓縮：提升推理效能 | 壓縮方式 | 原理 | 優缺點 | |-----------|------|--------| | **權重剪枝 (Pruning)** | 刪除權重較小的連接 | 減少參數量，速度提升；可能需要微調 | | **量化 (Quantization)** | 將浮點權重轉為低精度整數 | 大幅減小模型大小，速度提升；精度略降 | | **知識蒸餾 (Knowledge Distillation)** | 用大模型訓練小模型 | 保持高精度，適合邊緣設備 | | **低秩分解 (Low‑Rank Approximation)** | 近似矩陣分解 | 對線性模型效果好 | > **實戰示例**：使用 `TensorFlow Lite` 進行 8‑bit 量化。 > bash > tflite_convert \ > --graph_def_file=model.pb \ > --output_file=model.tflite \ > --inference_type=QUANTIZED_UINT8 \ > --input_arrays=input \ > --output_arrays=output > ## 7.3 微服務化與容器化 ### 7.3.1 為何選擇微服務？ - **獨立部署**：每個服務可單獨升級、回滾。 - **語言多樣**：可根據模型技術選擇最佳框架。 - **彈性伸縮**：根據流量調整實例數量。 ### 7.3.2 常見的模型服務框架 | 框架 | 語言 | 特色 | |------|------|------| | **TensorFlow Serving** | C++/Python | 針對 TensorFlow 模型優化、REST & gRPC | | **TorchServe** | Python | 針對 PyTorch、內建模型管理 | | **FastAPI + ONNX Runtime** | Python | 高性能 REST API，跨框架模型 | | **TF.js** | JavaScript | 可在瀏覽器推理 | ### 7.3.3 Docker 化示例 dockerfile # 基礎鏡像 FROM python:3.10-slim # 安裝依賴 RUN pip install fastapi uvicorn onnxruntime==1.13.1 # 複製模型 COPY model.onnx /app/model.onnx # 複製 API 代碼 COPY app.py /app/app.py WORKDIR /app # 啟動服務 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "80"] #### app.py python from fastapi import FastAPI, Request import onnxruntime as ort import numpy as np app = FastAPI() session = ort.InferenceSession("model.onnx") @app.post("/predict") async def predict(req: Request): data = await req.json() input_tensor = np.array(data["input"]).astype(np.float32) result = session.run(None, {"input": input_tensor}) return {"prediction": result[0].tolist()} ## 7.4 Kubernetes 版模型服務 Kubernetes（k8s）是目前最主流的容器編排系統。利用 **Deployment + Service** 可實現高可用、負載均衡。 ### 7.4.1 Deployment 範例 yaml apiVersion: apps/v1 kind: Deployment metadata: name: ml-model-deploy spec: replicas: 3 selector: matchLabels: app: ml-model template: metadata: labels: app: ml-model spec: containers: - name: ml-server image: registry.example.com/ml-model:latest ports: - containerPort: 80 resources: limits: cpu: "1" memory: 2Gi env: - name: MODEL_PATH value: /app/model.onnx ### 7.4.2 Service + Ingress yaml apiVersion: v1 kind: Service metadata: name: ml-model-service spec: selector: app: ml-model ports: - protocol: TCP port: 80 targetPort: 80 type: ClusterIP --- apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: ml-model-ingress spec: rules: - host: ml.example.com http: paths: - path: /predict pathType: Prefix backend: service: name: ml-model-service port: number: 80 ## 7.5 A/B 測試與藍綠部署在正式推向全部用戶之前，先進行 A/B 測試（也稱為 **Canary Release**）可降低風險。 ### 7.5.1 典型流程 1. **版本 1**（現行）持續服務。 2. **版本 2**（新模型）佔少量流量（例如 5%）。 3. 收集性能、錯誤、用戶行為指標。 4. 若滿足 KPI，漸增流量；否則回滾。 ### 7.5.2 Istio 進行流量分配 yaml apiVersion: networking.istio.io/v1alpha3 kind: VirtualService metadata: name: ml-virtualservice spec: hosts: - ml.example.com http: - route: - destination: host: ml-model-service subset: v1 weight: 95 - destination: host: ml-model-service subset: v2 weight: 5 ## 7.6 監控、日誌與可觀測性 | 監控工具 | 主要功能 | 使用情境 | |-----------|----------|----------| | **Prometheus + Grafana** | 指標收集、可視化 | CPU、記憶體、延遲、錯誤率 | | **ELK/EFK** | 日誌聚合、搜索 | 請求日誌、異常排查 | | **OpenTelemetry** | 追蹤、指標、日誌統一框架 | 微服務間的呼叫鏈路追蹤 | | **SLO/SLI** | 服務水平指標 | 以服務可用性作為 KPI | ### 7.6.1 Prometheus 指標範例 python from prometheus_client import Counter, Histogram, start_http_server REQUEST_COUNT = Counter("http_requests_total", "Total HTTP requests") REQUEST_LATENCY = Histogram("http_request_latency_seconds", "HTTP request latency") @REQUEST_LATENCY.time() async def handler(request): REQUEST_COUNT.inc() # ... logic ... ### 7.6.2 日誌示例（ELK） { "timestamp": "2026-03-06T14:30:12Z", "level": "INFO", "service": "ml-model", "message": "Prediction received", "request_id": "abcd1234", "input_shape": [1, 224, 224, 3], "prediction": [0.12, 0.88], "latency_ms": 12 } ## 7.7 CI/CD Pipeline 與版本管理 ### 7.7.1 CI 步驟 1. **代碼檢查**：linters、單元測試。 2. **模型驗證**：評估指標（RMSE, AUC 等）是否符合門檻。 3. **容器化**：自動構建 Docker 映像。 4. **安全掃描**：Trivy、Clair。 5. **部署至 Staging**：K8s 測試環境。 ### 7.7.2 CD 步驟 1. **灰度發佈**：A/B 測試。 2. **可觀測性驗證**：確保延遲、錯誤率未上升。 3. **正式升級**：更新 Deployment replicas。 4. **監控**：持續收集 SLO 指標。 > **工具鏈示例**：GitHub Actions + Argo CD + Helm > > yaml > name: Deploy ML Service > on: > push: > branches: [main] > jobs: > build: > runs-on: ubuntu-latest > steps: > - uses: actions/checkout@v3 > - name: Build Docker image > run: docker build -t registry.example.com/ml-model:${{ github.sha }} . > - name: Push to registry > run: docker push registry.example.com/ml-model:${{ github.sha }} > deploy: > needs: build > runs-on: ubuntu-latest > steps: > - uses: actions/checkout@v3 > - name: Argo CD sync > run: argocd app sync ml-model-app > ## 7.8 實務案例：電商即時推薦系統 | 步驟 | 內容 | 技術選型 | |------|------|----------| | **數據管道** | 事件流（clickstream）→ Kafka → Flink | Kafka, Flink, Snowflake | | **特徵工程** | 近時行為 + 個人化特徵 | Spark, Delta Lake | | **模型訓練** | 協同過濾 + 深度協同 | PyTorch, Optuna | | **部署** | TensorFlow Serving + Istio | TensorFlow, Istio | | **A/B 測試** | 10% 流量使用新模型 | Istio, Prometheus | | **監控** | 召回率、CTR、延遲 | Prometheus, Grafana | | **迭代** | 每週一次回測、回滾策略 | CI/CD, Argo CD | > **亮點**：利用實時特徵計算與流式模型更新，將推薦延遲控制在 50 ms 內，同時提升 15% CTR。 ## 7.9 小結 1. **模型部署** 不僅是「放進容器」，更是一套完整的生產流程。 2. 壓縮技術（剪枝、量化、蒸餾）能在保持精度的同時大幅提升推理效能。 3. 微服務化 + Docker + Kubernetes 是實現可擴展、可觀測服務的主流組合。 4. A/B 測試與藍綠部署保障了風險可控，確保每一次迭代都以數據為基礎。 5. 監控、日誌、追蹤與 SLO 讓團隊能即時發現偏差並快速修復。 6. CI/CD 與版本管理確保開發到部署的每一步都可復現、可追溯。 > **延伸閱讀**： > - 《Kubernetes In Action》 > - 《Designing Data-Intensive Applications》 > - 《Machine Learning Engineering》 > - 《Observability Engineering》 --- > **下一章**：數據倫理、隱私與合規。

第六章：深度學習與神經網路

第 8 章：數據倫理、隱私與合規