第5章：模型監控與自動化再訓練

發布於 2026-02-27 22:11

# 第5章：模型監控與自動化再訓練在前幾章中，我們已完成從資料清理到模型部署的完整流程。模型在實際運營中會受到多種變數的影響，導致預測性能逐漸下降。為了確保系統的長期穩定與持續效益，本章將帶你深入了解模型監控的核心概念、實際指標、工具選型，並構建自動化再訓練管線，實現真正的「即時洞察」。 --- ## 5.1 監控概念與目標 | 監控維度 | 目的 | 典型指標 | |----------|------|----------| | 服務可用性 | 保證 API 的響應時間與正常率 | HTTP 200/5xx、延遲（ms） | | 預測品質 | 檢測模型性能下滑 | AUC、RMSE、漂移指標 | | 特徵漂移 | 追蹤輸入特徵分佈變化 | KS 變化、KL Divergence | | 資料品質 | 確保資料符合預期格式 | Null Rate、Outlier Rate | > **核心觀點**：監控不只是看是否「發生錯誤」，更是觀測「預測價值是否衰減」。 --- ## 5.2 監控指標設計 1. **延遲 & 可用性**： python from prometheus_client import Summary, Counter request_latency = Summary('api_request_latency_seconds', 'Latency of API requests') request_errors = Counter('api_request_errors_total', 'Total API errors') 2. **模型輸出分佈**： - 將模型預測值寫入 Kafka，使用 Spark Structured Streaming 計算滑動窗口的分位數。 3. **特徵漂移**： python from scipy.stats import ks_2samp def ks_test(old, new): return ks_2samp(old, new).pvalue 4. **漂移閾值**：根據歷史 AUC 變動設定自動警報。例如，AUC 下降 > 2% 且持續 3 個批次即觸發。 --- ## 5.3 監控工具與架構 | 工具 | 角色 | 優勢 | |------|------|------| | Prometheus + Grafana | 服務指標收集與可視化 | 開源、插件豐富 | | MLflow | 版本控制、指標儲存 | 內建訓練、推理整合 | | Airflow | 工作流調度 | DAG 支援、可擴展 | | Amazon SageMaker | 雲端模型托管、漂移監控 | 完整服務、內建 SageMaker Monitor | | Grafana Loki | 日誌聚合 | 與 Prometheus 同源、水平擴展 | > **示意圖**： > 1️⃣ API → 2️⃣ Prometheus + Loki 收集指標與日誌 > 3️⃣ Grafana 進行可視化 > 4️⃣ 當閾值被觸發 → Airflow 觸發再訓練工作流 > 5️⃣ 新模型部署至 SageMaker / Docker Compose --- ## 5.4 特徵漂移偵測 ### 5.4.1 漂移度量 - **KS**：適用於單變量。 - **PCA + Hotelling T²**：多維特徵。 - **Causal Forest**：評估因果關係變化。 ### 5.4.2 自動化偵測流程 1. 每日批次抓取最近 24 小時資料。 2. 計算特徵分佈與歷史基線的 KS 分數。 3. 若 KS 分數 > 0.1 且連續 2 天，寫入 `feature_drift_alerts` 表。 4. 將此表作為 Airflow 觸發條件。 --- ## 5.5 預測偏差與模型漂移 - **偏差監控**：透過 `mean_squared_error` 追蹤回歸模型。 - **漂移檢測**：使用 `scikit-multiflow` 的 DriftDetectionMethod (DDM) 監測預測分佈變化。 - **Alerting**：當 DDM 診斷為 **Drift**，發送 Slack 或 Email 通知。 --- ## 5.6 自動化再訓練管線 yaml # Airflow DAG (train_dag.py) from datetime import datetime, timedelta from airflow import DAG from airflow.operators.python import PythonOperator default_args = { 'owner': 'data_science', 'depends_on_past': False, 'retries': 1, 'retry_delay': timedelta(minutes=5), } def fetch_new_data(**context): # 取得新標記資料 pass def train_model(**context): # 重新訓練，並存入 MLflow pass def deploy_model(**context): # 推送至 Docker Compose 或 SageMaker pass def notify(**context): # Slack 通知 pass with DAG( 'retrain_pipeline', default_args=default_args, schedule_interval=None, start_date=datetime(2026, 2, 27), catchup=False, ) as dag: fetch = PythonOperator(task_id='fetch_new_data', python_callable=fetch_new_data) train = PythonOperator(task_id='train_model', python_callable=train_model) deploy = PythonOperator(task_id='deploy_model', python_callable=deploy_model) notify = PythonOperator(task_id='notify', python_callable=notify) fetch >> train >> deploy >> notify > **關鍵點**： > - **觸發條件**：特徵漂移 & 模型性能下滑。 > - **版本管理**：MLflow 的 `experiment_id` 確保可回溯。 > - **藍綠部署**：使用 Docker Compose 的 `deploy: { replicas: 2 }` 減少停機時間。 --- ## 5.7 實戰案例：電商推薦系統 | 步驟 | 描述 | |------|------| | 1. 監控 | 每 5 分鐘抓取最近 30 分鐘推薦結果，計算 AUC。當 AUC 下降 > 1% 時觸發。 | | 2. 漂移偵測 | 監測用戶行為特徵 `click_rate` 與 `purchase_rate` 的 KS 分數。 | | 3. 再訓練 | Airflow DAG 會自動拉取新標記（實際購買與否），使用 LightGBM 重新訓練。 | | 4. 部署 | 模型推送至 SageMaker Endpoint，並用藍綠部署無縫切換。 | | 5. 評估 | 24 小時內重新收集 AUC，確認提升。 | > **結果**：平均 AUC 從 0.83 提升至 0.87，推薦精準率提升 12%。 --- ## 5.8 挑戰與最佳實踐 1. **數據漂移與概念漂移**：漂移檢測需區分；概念漂移往往需要更深層次的因果分析。 2. **警報噪音**：設定適當的閾值與滑動窗口，避免頻繁誤報。 3. **再訓練成本**：使用多 GPU 或雲端 Spot Instances 降低成本。 4. **模型驗證**：在推送前使用 A/B 測試確認性能提升。 5. **合規性**：確保資料收集、存儲符合 GDPR／個資法規。 --- ## 5.9 小結 - **監控**：從服務指標到特徵漂移，建立完整的指標矩陣。 - **自動化**：Airflow + MLflow 的結合，實現「監測 → 觸發 → 訓練 → 部署」的全自動化流程。 - **實務洞察**：實戰案例顯示，持續監控與再訓練可顯著提升業務價值。 > **結語**：模型監控不是一次性部署，而是一個持續演進的循環。透過結合前端可視化、後端自動化與雲端彈性擴容，您將能在資料驅動的世界中保持領先。

第4章：機器學習模型選型、評估與部署

第六章：模型部署與運營自動化