第七章：模型部署與持續運營

發布於 2026-02-25 11:57

# 第七章：模型部署與持續運營 ## 7.1 為何要將模型推向生產？ - **商業價值落地**：一個模型若只停留在實驗室，永遠無法轉化為收益。部署是將洞察轉化為行動的關鍵環節。 - **即時決策**：線上預測能讓營運團隊即時調整行銷、庫存、風險控制等決策。 - **驗證假設**：實際部署可觀測模型在真實流量下的表現，驗證訓練階段的假設。 ## 7.2 部署前的準備工作 | 步驟 | 目的 | 重要工具 | |------|------|----------| | 模型封裝 | 讓模型獨立於開發環境 | Docker、conda、venv | | 版本管理 | 追蹤不同版本效能 | git、DVC、MLflow Models | | 測試環境 | 確保部署不破壞其他服務 | pytest、tox | | 性能基準 | 評估推理延遲、併發 | ab、wrk | > **案例**：我們將 `scikit‑learn` 的 `RandomForestClassifier` 封裝成 Docker 映像，並在 Dockerfile 中安裝 `joblib` 以加速序列化。 dockerfile FROM python:3.11-slim WORKDIR /app COPY requirements.txt . RUN pip install -r requirements.txt COPY model.joblib ./ CMD ["python", "serve.py"] ## 7.3 選擇部署平台 | 平台 | 適用場景 | 特色 | |------|----------|------| | **雲原生（Kubernetes）** | 大規模、彈性伸縮 | 支援自動縮放、服務網格 | | **伺服器無服務（Serverless）** | 低頻或事件驅動 | 只需付費按需執行 | | **專用服務（SageMaker, Vertex AI）** | 一站式解決方案 | 內建 MLOps 功能 | | **內部服務** | 私有網路、合規需求 | 可自定義監控與治理 | > **選擇依據**：團隊技術棧、預算、合規需求。若你擁有 Kubernetes 叢集，KNative 或 Knative Serving 可快速部署。 ## 7.4 建立 CI/CD 迴路 1. **源碼提交** → GitLab CI / GitHub Actions 觸發。 2. **建構 Docker 映像** → 推送至 Docker Registry。 3. **自動化測試** → 單元測試、集成測試、性能測試。 4. **部署** → 透過 Helm 或 kustomize 部署至 Kubernetes。 5. **監控 & 回報** → Grafana、Prometheus、Alertmanager。 yaml # .gitlab-ci.yml 範例 stages: - build - test - deploy build: stage: build script: - docker build -t registry.example.com/ml-model:${CI_COMMIT_SHA} . - docker push registry.example.com/ml-model:${CI_COMMIT_SHA} test: stage: test script: - pytest tests/ deploy: stage: deploy script: - helm upgrade --install ml-model ./helm-chart --set image.tag=${CI_COMMIT_SHA} ## 7.5 實時監控與漂移偵測 | 監控項目 | 目標 | 典型工具 | |----------|------|----------| | **預測準確度** | 確保模型效能未下降 | Prometheus、Grafana | | **輸入分佈漂移** | 檢測特徵分佈變化 | Evidently AI、Alibi Detect | | **延遲與吞吐量** | 維持 SLA | Grafana、k6 | | **異常率** | 及時排查問題 | Sentry、New Relic | > **漂移偵測實作**：使用 `evidently` 的 `DataDriftAlert` 與 `ClassificationReport` 生成告警。 python from evidently.dashboard import Dashboard from evidently.tabs import DataDriftTab, ClassificationReportTab dashboard = Dashboard(tabs=[DataDriftTab(), ClassificationReportTab()]) dashboard.calculate(reference_data, current_data) print(dashboard.show()) ## 7.6 A/B 測試與灰度發布 - **灰度策略**：先在 1% 流量上測試新模型，再漸增至 10%、30% 直至 100%。 - **AB 測試指標**：CTR、營收、客戶留存率。使用 `statsmodels` 進行假設檢驗。 - **快速回滾**：若指標顯著下降，即可透過 Helm rollback 或 CloudWatch Alarms 進行回滾。 python import statsmodels.stats.weightstats as sw # 假設檢驗範例 obs1 = 0.125 # 版本 A obs2 = 0.140 # 版本 B n1, n2 = 1000, 1000 t_stat, p_value = sw.ttest_ind(obs1, obs2, df= n1 + n2 - 2) print(f"t-stat: {t_stat:.3f}, p-value: {p_value:.4f}") ## 7.7 合規與治理 1. **模型存檔**：將模型、特徵工程、訓練腳本打包於 `model.artifact`，存於 Artefact Repository。 2. **審計追蹤**：使用 MLflow 或 Weights & Biases 的 `run history` 追蹤每一次模型變更。 3. **隱私保護**：確保資料在部署前已進行匿名化、合規性審查。 4. **安全性**：使用 OAuth2、API Gateway 的限速、IP 白名單等機制。 ## 7.8 常見陷阱與解決方案 | 陷阱 | 可能原因 | 解決方案 | |------|----------|----------| | **資料泄漏** | 訓練集與測試集共用特徵預處理 | 使用 `Pipeline` 進行全流程封裝 | | **漂移忽視** | 監控頻率過低 | 設定每日或每小時刷新 | | **回滾困難** | 版本依賴複雜 | 使用容器化、明確標記版本 | | **性能瓶頸** | 模型過大或推理耗時 | 采用模型壓縮、GPU 推理 | ## 7.9 小結 - **部署是策略落地的門戶**：把模型從實驗室轉到商業環境，才能產生真實價值。 - **CI/CD、監控、治理** 是 MLOps 的三大支柱，缺一不可。 - **漂移偵測與 A/B 測試** 能讓你在風險可控的前提下快速迭代。 - **合規與安全** 保障了企業的長期可持續發展。在下一章，我們將深入探討 **模型更新策略**，從 **增量學習** 到 **終身學習**，並說明如何在不斷變化的商業環境中保持模型的競爭力。

第 6 章：模型評估與驗證

第 8 章模型更新策略：從增量學習到終身學習