章節四：模型選擇與評估—從預測到洞察的關鍵橋樑

發布於 2026-02-24 17:14

# 章節四：模型選擇與評估—從預測到洞察的關鍵橋樑 ## 4.1 模型選擇的原則在資料科學的旅程中，模型就像是導航系統。選對模型能讓你快速抵達洞察的終點，選錯則可能在途中迷路。以下三項原則幫你把握方向： 1. **問題性質**：回歸、分類、聚類、序列預測等。每種模型都有其設計哲學，與問題類型匹配才是第一要務。 2. **資料規模與特徵維度**：高維度、稀疏資料往往適合線性模型；大量樣本則能支撐複雜的深度網路。 3. **可解釋性需求**：商業決策常需解釋模型輸出。此時，決策樹、線性模型或SHAP值能提供透明度；若可解釋性較次要，則可選擇提升預測力的黑盒模型。 > **案例提示**：在零售客戶流失預測中，隨機森林能兼顧性能與特徵重要性，可作為基準模型；若業務更關注實時預測，可考慮 XGBoost 或 LightGBM。 ## 4.2 交叉驗證與性能評估單一訓練/測試拆分往往帶來「樣本偏差」。交叉驗證（Cross‑Validation）則能有效估算模型泛化能力。常見方法： | 方法 | 典型分割 | 適用場景 | |------|-----------|-----------| | K‑Fold CV | 把資料分成 K 份，輪流作驗證集 | 大多數資料集 | | Stratified K‑Fold | 保持類別比例 | 分類問題 | | Time‑Series Split | 以時間順序切分 | 時間序列預測 | ### 評估指標 | 任務 | 指標 | |------|------| | 二分類 | Accuracy、Precision、Recall、F1、ROC‑AUC | | 多分類 | Accuracy、Macro‑/Micro‑F1 | | 回歸 | MSE、RMSE、MAE、R² | > **實作小技巧**：在 scikit‑learn 中，`cross_validate` 允許同時回傳多項指標，並支援 `scoring` 字典。若需自訂指標，只需寫一個 `sklearn.metrics` 風格的函式。 ## 4.3 參數調整技巧模型的「魔法」往往藏於參數調整。三種常用策略： 1. **網格搜尋（Grid Search）**：明確定義參數範圍，穩健但計算量大。 2. **隨機搜尋（Random Search）**：從參數空間隨機抽樣，適合高維度參數。 3. **貝葉斯優化（Bayesian Optimization）**：利用 Gaussian Process 或 Tree‑structured Parzen Estimator（TPE）估計最佳參數，節省試驗次數。 > **實戰範例**：以下使用 `Optuna` 進行 XGBoost 的參數搜尋。 > python > import optuna > import xgboost as xgb > from sklearn.model_selection import cross_val_score > > def objective(trial): > param = { > 'max_depth': trial.suggest_int('max_depth', 3, 10), > 'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.3, log=True), > 'n_estimators': trial.suggest_int('n_estimators', 100, 500), > 'subsample': trial.suggest_float('subsample', 0.5, 1.0), > 'colsample_bytree': trial.suggest_float('colsample_bytree', 0.5, 1.0), > 'objective': 'binary:logistic', > 'eval_metric': 'auc', > } > model = xgb.XGBClassifier(**param) > score = cross_val_score(model, X, y, cv=5, scoring='roc_auc').mean() > return score > > study = optuna.create_study(direction='maximize') > study.optimize(objective, n_trials=50) > print(study.best_params) > ## 4.4 監控模型表現模型部署後，表現可能因資料漂移（Data Drift）或概念漂移（Concept Drift）而下降。建議建立以下監控機制： - **特徵分佈檢測**：使用 KS‑test、Chi‑square 監測特徵分佈變化。 - **預測分佈檢測**：比較預測值的分佈是否偏離訓練期。 - **績效指標跟蹤**：設定門檻值，當指標跌破門檻即觸發警報。 - **定期再訓練**：設定再訓練週期（如每月一次），或當漂移指標超過閾值時即時更新模型。 > **工具推薦**：`Evidently AI`、`MLflow` 的 `Model Monitoring` 功能，可視化監測報告，輕鬆追蹤模型生命週期。 ## 4.5 案例：客戶流失預測 ### 背景某電信業者擁有 30,000 名用戶資料，目標預測 90 天內可能流失的客戶，以便進行針對性行銷。 ### 資料概覽 | 特徵 | 類型 | 觀測值 | 缺失率 | |------|------|--------|--------| | CustomerID | ID | 30,000 | 0 | | Age | 數值 | 30,000 | 1% | | Tenure | 數值 | 30,000 | 0 | | MonthlyCharge | 數值 | 30,000 | 0 | | Contract | 類別 | 30,000 | 0 | | InternetService | 類別 | 30,000 | 0 | | Churn | 目標 | 30,000 | 0 | ### 建模流程 1. **前處理**：缺失值以中位數填補；類別特徵進行 One‑Hot 編碼。 2. **特徵工程**：衍生 `TenureYears = Tenure/12`，計算 `AvgChargePerMonth = MonthlyCharge * Tenure`。 3. **模型選擇**：以 LightGBM 為基準，因其對類別特徵天然友好且訓練速度快。 4. **交叉驗證**：使用 Stratified 5‑Fold，評估 ROC‑AUC。 5. **參數調整**：使用 Optuna 進行隨機搜尋，找到最佳參數組合。 6. **評估結果**： - AUC = 0.861 - Precision@Top10% = 0.78 - Recall = 0.64 7. **解釋性**：利用 SHAP 生成特徵重要性圖，發現 `Contract:Month-to-month` 與 `InternetService:DSL` 為主要驅動因素。 8. **部署**：將模型封裝成 REST API，並使用 MLflow 追蹤版本。 9. **監控**：設定每週重新評估 AUC，若下降超過 5% 則觸發再訓練。 > **商業洞察**：透過 SHAP 分析，業務可針對「月租合約且使用 DSL」的客戶提供續約優惠，以降低流失率。 ## 4.6 小結本章節闡述了模型選擇、評估、調參與監控的完整流程。關鍵在於： - **原則驅動**：問題性質、資料特徵、可解釋性決定模型類型。 - **嚴謹驗證**：交叉驗證確保模型泛化。 - **系統化調參**：自動化搜尋提升效率與效果。 - **長期監控**：防止漂移帶來的效能衰退。結合實際案例，我們不僅得到高預測準確率，更透過解釋性產生可落地的商業洞察，為決策者提供可信賴的數據支援。

第 3 章資料探索與前處理技巧

5. 從 CI/CD 到可持續監控：數據科學全自動化工作流