第五章：模型部署、監控與可重複性

發布於 2026-02-27 02:20

# 第五章：模型部署、監控與可重複性在前四章中，我們已經完成了數據清洗、探索性分析、統計推斷、機器學習模型設計與評估。至此，核心算法已經證明可行，下一步就是將模型真正投放到實際業務環境中。這一步不僅僅是技術部署，更涉及模型監控、可重複性管理以及合規與倫理審查。以下將以實際工作流程為藍本，逐一說明。 ## 1. 為什麼需要監控 * **漂移（Drift）**：訓練集與實際輸入數據分佈不一致，導致預測偏離。 * **概念漂移（Concept Drift）**：業務規則或市場環境改變，模型邏輯失效。 * **性能退化**：模型隨時間變慢或準確度下降。若不監控，模型可能在「正常」的時候表現不佳，甚至引發嚴重業務損失。故建議在部署前就構建完整的監控機制。 ## 2. Great Expectations：部署前的數據驗證 Great Expectations（GE）是一個開源框架，專門用於數據質量驗證。它在數據管道中扮演「數據品質守衛」的角色。部署前，我們可以用 GE 生成**期望**（Expectation Suites）來驗證即將輸入模型的數據是否符合訓練時的分佈。 ```python import great_expectations as ge # 讀取即將投放的數據 df = ge.read_csv("/data/incoming/new_data.csv") # 匯入訓練時的 Expectation Suite suite = ge.load_expectation_suite("/configs/training_expectations.yml") # 驗證 validation_result = df.validate(expectation_suite=suite) print(validation_result.success) ``` 如果 `validation_result.success` 為 False，則可以立即中斷部署流程，通知數據工程師修復。 ## 3. MLflow：模型追蹤與版本管理 MLflow 是一個全面的模型生命週期管理平台。它涵蓋了實驗管理、模型託管、部署與追蹤。使用 MLflow 我們可以做到： 1. **實驗記錄**：每一次模型訓練都被儲存為一個 Run，包含參數、指標、 artefacts。 2. **模型版本**：同一模型可有多個版本，方便迭代。 3. **部署**：直接從 MLflow Registry 部署到各種環境（Docker、K8s、Azure ML 等）。 ```python import mlflow import mlflow.sklearn mlflow.start_run() mlflow.log_param("n_estimators", 100) mlflow.log_param("max_depth", 5) # 訓練模型 from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(n_estimators=100, max_depth=5) model.fit(X_train, y_train) mlflow.sklearn.log_model(model, "model") mlflow.end_run() ``` ### 部署到 Docker ```bash mlflow models serve -m runs:/<run-id>/model -h 0.0.0.0 -p 5000 --no-conda ``` ## 4. A/B 測試與在線評估部署模型後，建議先進行 **藍綠部署** 或 **A/B 測試**： | 測試類型 | 說明 | |---|---| | **藍綠部署** | 同時維持舊版（藍）與新版（綠），逐步切換流量。 | | **A/B 測試** | 隨機將用戶分配到兩個版本，統計比較 KPI。 | ### 監控指標範例 | 指標 | 定義 | |---|---| | **RMSE** | 根均方誤差，用於回歸模型 | | **AUC-ROC** | 用於二分類模型 | | **延遲（Latency）** | 預測平均時間 | | **錯誤率（Error Rate）** | 預測錯誤比例 | 利用 Prometheus + Grafana 進行實時可視化，設置警報門檻。 ## 5. 合規與倫理考量 > **參考：** Rojas‑Bustos, C. (2021). *Fairness in Machine Learning*. 在實際部署中，模型往往牽涉到個人隱私與公平性。建議採取以下措施： 1. **資料匿名化**：在模型輸入前去除可識別資訊。 2. **公平性檢測**：使用 `fairlearn` 或 `aif360` 進行歧視測試。 3. **模型可解釋性**：對關鍵決策提供 SHAP 或 LIME 解釋。 4. **合規審核**：確保符合 GDPR、CCPA 等法律。 ```python from fairlearn.metrics import demographic_parity_difference from sklearn.metrics import accuracy_score # 假設 y_true, y_pred, group dp_diff = demographic_parity_difference(y_true, y_pred, group) print("Demographic Parity Difference:", dp_diff) ``` ## 6. 實際案例：電商推薦系統的模型投放 | 步驟 | 內容 | |---|---| | **1. 數據驗證** | 用 GE 檢查即時購物車數據，確保商品ID、價格、客戶屬性均符合期望。 | | **2. 模型訓練** | 使用 MLflow 記錄特徵工程、模型參數。 | | **3. 部署** | 先在藍綠環境中運行，監測 CTR、購買率。 | | **4. A/B 測試** | 10% 用戶測試新版模型，10% 為基準。 | | **5. 監控** | 以 Grafana 顯示實時 CTR、延遲；若新模型 CTR 下滑 5%，自動回退。 | | **6. 合規** | 所有個人資料經匿名化；每月審查公平性指標。 | > **結果**：經過三個月的循環，CTR 提升 7%，但無明顯偏見。模型延遲保持在 120 ms 以下。 ## 7. 總結 - **監控是模型生命週期不可或缺的一環**：能即時發現漂移與性能退化。 - **Great Expectations 讓數據驗證成為自動化流程**：避免「先跑模型再發現數據問題」。 - **MLflow 方便追蹤、版本管理與部署**：提高可重複性。 - **A/B 測試與在線評估**：降低部署風險，確保 KPI。 - **合規與倫理審查**：保障企業聲譽與用戶信任。下一章，我們將深入探討如何將模型轉化為商業價值，並以實際 KPI 連結決策。

第4章機器學習模型設計與評估

第六章機器學習基礎