第七章：模型部署與運維

發布於 2026-03-05 20:52

# 第七章：模型部署與運維在資料科學的整個生命週期中，**部署與運維**是把模型從實驗室搬到實際業務場景的關鍵環節。本章將以 MLOps 為核心，從容器化、雲原生部署、持續監控，到自動化更新與版本管理，提供完整的實務流程與可執行範例。 ## 7.1 MLOps 基本概念 | 項目 | 說明 | |------|------| | **Model Lifecycle** | 從資料收集、特徵工程、模型訓練、評估到部署、監控、更新的全流程。 | | **CI/CD** | 將資料科學工作流與軟體工程同樣對待，透過 Git、CI 任務、測試、打包與部署自動化。 | | **Observability** | 包含日誌、度量、追蹤（Logs, Metrics, Traces）以及模型特定指標（延遲、吞吐、準確率、漂移）。 | | **Governance** | 模型卡、合規審核、版本控制、可解釋性檢查。 | ## 7.2 容器化與編排 ### 7.2.1 Docker 化模型服務以 **FastAPI + PyTorch** 為例，展示如何將訓練好的模型封裝成輕量級容器。 dockerfile # 基底鏡像 FROM python:3.10-slim # 系統依賴 RUN apt-get update && apt-get install -y \ build-essential \ && rm -rf /var/lib/apt/lists/* # 工作目錄 WORKDIR /app # 安裝 Python 依賴 COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt # 複製程式碼 COPY . . # 入口指令 CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"] ### 7.2.2 Kubernetes 部署 yaml apiVersion: apps/v1 kind: Deployment metadata: name: churn-prediction spec: replicas: 3 selector: matchLabels: app: churn-prediction template: metadata: labels: app: churn-prediction spec: containers: - name: model image: registry.example.com/churn:latest ports: - containerPort: 8000 resources: limits: cpu: "500m" memory: "1Gi" env: - name: MODEL_PATH value: "/app/model.pt" ## 7.3 持續監控與漂移偵測 ### 7.3.1 監控指標 | 指標 | 重要性 | |------|--------| | **Latency** | 服務可用性。 | | **Throughput** | 系統吞吐量。 | | **Accuracy / AUC** | 模型表現。 | | **Feature Drift** | 特徵分佈變化。 | | **Concept Drift** | 目標變化（如流失率變化）。 | ### 7.3.2 監控工具 | 工具 | 功能 | |------|------| | Prometheus + Grafana | 監控收集、可視化。 | | Evidently | Python 套件，支援概念漂移偵測。 | | MLflow Tracking | 模型實驗、版本、指標。 | ### 7.3.3 漂移偵測範例 python import evidently from evidently.model.profile import Profile from evidently.metric_preset import DataDriftPreset # 假設 train_df, test_df 為兩個時間窗口的特徵資料 profile = Profile(metrics=[DataDriftPreset()]) profile.calculate(train_df, test_df) profile.show() 若 **Feature Drift** 或 **Concept Drift** 超過預設閾值，即觸發模型再訓練或回滾。 ## 7.4 自動化更新流程 ### 7.4.1 版本控制與模型卡 - **模型卡**：包含模型目標、評估指標、部署環境、風險評估。 - **版本管理**：使用 **Git + Git LFS** 或 **DVC** 追蹤資料與模型檔案。 ### 7.4.2 CI Pipeline 範例（GitHub Actions） yaml name: ML Deploy on: push: branches: [main] jobs: train: runs-on: ubuntu-latest steps: - uses: actions/checkout@v3 - name: Set up Python uses: actions/setup-python@v4 with: python-version: '3.10' - name: Install deps run: pip install -r requirements.txt - name: Train & Export run: python train.py - name: Build Docker run: docker build -t registry.example.com/churn:${{ github.sha }} . - name: Push Docker run: | echo ${{ secrets.DOCKER_PASSWORD }} | docker login registry.example.com -u ${{ secrets.DOCKER_USERNAME }} --password-stdin docker push registry.example.com/churn:${{ github.sha }} - name: Deploy to K8s uses: azure/k8s-set-context@v1 with: kube-config: ${{ secrets.KUBE_CONFIG }} # 更新 Deployment image run: | kubectl set image deployment/churn-prediction model=registry.example.com/churn:${{ github.sha }} kubectl rollout status deployment/churn-prediction ## 7.5 可靠性與可恢復性 ### 7.5.1 Blue/Green 與 Canary - **Blue/Green**：兩個相同環境，切換時幾乎無停機。 - **Canary**：逐步推送新版本給一小部分流量，觀察指標後再全面部署。 ### 7.5.2 監控與自動回滾 yaml # 以 Kubernetes 監控延遲與錯誤率為例 apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: model-health spec: groups: - name: model.rules rules: - alert: HighLatency expr: histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le)) > 0.5 for: 5m labels: severity: warning annotations: description: "Model latency above 95th percentile" 若發出警報，可透過 CI 觸發自動回滾腳本。 ## 7.6 合規與安全 - **資料保護**：確保模型部署不泄露敏感特徵。 - **身份驗證**：使用 OAuth2 / JWT 限制 API 存取。 - **審計日誌**：所有請求與模型輸出需完整記錄，便於追蹤。 ## 7.7 實務建議與常見陷阱 | 事項 | 建議 | |------|------| | **1. 監控度量** | 先確定「關鍵指標」再設定告警閾值。 | | **2. 漂移偵測** | 定期回顧漂移報告，必要時調整漂移檢測演算法。 | | **3. 版本管理** | 采用 **Semantic Versioning** (MAJOR.MINOR.PATCH)。 | | **4. 回滾機制** | 事先寫好自動回滾腳本並在 CI 上測試。 | | **5. 文檔化** | 所有部署腳本、模型卡、監控設定均應保持版本同步。 | ## 7.8 案例回顧：金融風控模型 | 階段 | 做法 | 成效 | |------|------|------| | **部署** | Docker + K8s + Istio | 延遲 15 ms，平均每秒 2000 次請求 | | **監控** | Prometheus + Grafana + Evidently | 概念漂移發現後 1 天內完成再訓練 | | **運維** | Blue/Green + 自動化回滾 | 0% 服務中斷，合規通過 | ## 小結模型部署不是「一次完成」的工作，而是一個連續的、可觀測的、可治理的生命週期。透過 MLOps 的最佳實踐，企業能夠以最小的風險把資料科學成果推向商業價值，同時維護透明度與合規性，確保「自由」與「尊嚴」不被數據驅動的過程所侵蝕。

第六章從洞見到決策：模型部署與業務價值落地

第八章：案例研討：從零開始到產品化