第六章模型建構與調參：從基礎模型到高效預測

發布於 2026-02-28 08:15

## 6.1 開場：從實驗到決策的橋樑在上一章我們已經將特徵打磨到 30 個能帶來最高可解釋性的組合。現在，模型的建構才是將這些特徵真正轉化為商業價值的關鍵。對於風險控制決策而言，預測的精度、穩定性與解釋性同等重要。 > **案例背景**：保險業務部門希望在 30 天內識別潛在違約客戶。資料科學家陳偉接手這份 100 萬筆客戶交易記錄與個人資料的資料集，並且承諾在 4 周內交出一套可直接部署於風控系統的模型。本章將以陳偉的專案為藍本，詳細拆解模型選擇、超參數調整、交叉驗證、模型集成與落地部署等步驟，並針對商業案例提供實際的指導。 --- ## 6.2 模型選擇：先從簡單再往複雜 ### 6.2.1 基礎模型 1. **邏輯迴歸**（Logistic Regression） * 速度快，結果易於解釋。 * 先做為基準模型，檢查資料分布是否偏斜。 2. **決策樹**（Decision Tree） * 能捕捉非線性關係。 * 但易過擬合，需設定深度、最小樣本分割等限制。 3. **隨機森林**（Random Forest） * 避免單棵樹過擬合，提升穩定性。 * 提供特徵重要性作進一步驗證。 ### 6.2.2 中階模型 1. **梯度提升機**（XGBoost / LightGBM / CatBoost） * 在許多 Kaggle 競賽中表現優異。 * 需要對學習率、樹數、子樣本比例等參數細緻調整。 2. **支持向量機**（SVM） * 對於中等樣本量的高維資料效果好。 * 需要 Kernel 與 C 的調參。 ### 6.2.3 高階模型 1. **深度學習**（MLP、CNN、RNN） * 若資料包含時間序列或文本，可考慮。 * 訓練成本高，解釋性低。 2. **集成模型**（Stacking、Blending） * 透過多種基模型的預測結果做二層模型，以捕捉不同模型的長處。 > **實務提示**：先以邏輯迴歸做基準，再逐步加入複雜模型，並使用同一套交叉驗證流程比對績效。這樣能確保模型選擇的合理性與可重複性。 --- ## 6.3 超參數調優：從網格搜尋到 Bayesian 優化 ### 6.3.1 传统方法：網格搜尋（Grid Search） ```python from sklearn.model_selection import GridSearchCV param_grid = { 'n_estimators': [100, 200, 300], 'max_depth': [None, 10, 20], 'learning_rate': [0.01, 0.1, 0.2], } gs = GridSearchCV(estimator=xgb.XGBClassifier(objective='binary:logistic', eval_metric='auc'), param_grid=param_grid, scoring='f1', cv=5, n_jobs=-1) ``` > **優點**：易於理解，並行執行。 > **缺點**：參數空間大時計算成本高。 ### 6.3.2 隨機搜尋（RandomizedSearchCV）隨機抽取參數組合，降低搜尋成本。 ```python from sklearn.model_selection import RandomizedSearchCV param_distrib = { 'n_estimators': randint(100, 500), 'max_depth': randint(5, 30), 'learning_rate': uniform(0.01, 0.3), } ``` ### 6.3.3 Bayesian 優化（Optuna、Hyperopt）利用機率模型迭代探索高效參數組合。 ```python import optuna def objective(trial): params = { 'n_estimators': trial.suggest_int('n_estimators', 100, 500), 'max_depth': trial.suggest_int('max_depth', 5, 30), 'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.3), } clf = xgb.XGBClassifier(**params, objective='binary:logistic', eval_metric='auc') score = cross_val_score(clf, X, y, cv=5, scoring='f1').mean() return score study = optuna.create_study(direction='maximize') study.optimize(objective, n_trials=200) ``` > **實務建議**：先用 RandomizedSearchCV 規模搜尋，篩選大致參數區間，再進行 Optuna 進一步細調。 --- ## 6.4 交叉驗證：確保模型泛化 ### 6.4.1 K 折交叉驗證最常見，對整體資料集進行 K 折切分，確保每個樣本都被測試一次。 ### 6.4.2 時間序列交叉驗證若資料包含時間依賴，使用 TimeSeriesSplit 或 Rolling Forecast Origin。 ```python from sklearn.model_selection import TimeSeriesSplit tscv = TimeSeriesSplit(n_splits=5) for train_index, test_index in tscv.split(X): X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] clf.fit(X_train, y_train) print('F1:', f1_score(y_test, clf.predict(X_test))) ``` ### 6.4.3 交叉驗證的商業意義 * **風險估算**：不同時期的表現差異反映市場風險。 * **模型選型**：比較基準模型與複雜模型的 CV 表現，避免過度優化。 --- ## 6.5 模型集成：提升穩定性與準確率 ### 6.5.1 Bagging（Bootstrap Aggregating）隨機森林即為 Bagging 的典型實作。 ### 6.5.2 Boosting（Gradient Boosting） XGBoost、LightGBM、CatBoost：以逐步減少殘差為核心。 ### 6.5.3 Stacking（堆疊） > **結構**：多個基模型（Level‑0）輸出預測作為 Meta 模型（Level‑1）的輸入。 > > **實作範例**： > > ```python > from sklearn.ensemble import StackingClassifier > estimators = [ > ('lr', LogisticRegression()), > ('rf', RandomForestClassifier()), > ('xgb', xgb.XGBClassifier(objective='binary:logistic')) > ] > clf = StackingClassifier(estimators=estimators, final_estimator=LogisticRegression()) > clf.fit(X_train, y_train) > ``` > > **優勢**：捕捉多模型間互補訊息。 ### 6.5.4 Blending 與 Stacking 類似，但使用 hold‑out 子集作為 Level‑1 訓練資料，計算速度更快。 --- ## 6.6 實務案例：從模型到決策的落地 > **情境**：保險公司欲在申請審核流程中，對 30 天內可能違約的客戶進行預警，並自動將高風險客戶移入「審查中」列表。 > > **步驟**： > > 1. **資料準備**：已完成前五章的特徵工程，特徵數量 30。 > 2. **模型選擇**：經過 K 折驗證，XGBoost 與 Random Forest 取得最高 F1 分數，最終選擇 XGBoost。 > 3. **超參數調優**：使用 Optuna 進行 200 次調整，得到最佳參數： > * `n_estimators`: 250 > * `max_depth`: 12 > * `learning_rate`: 0.05 > 4. **交叉驗證**：TimeSeriesSplit，確保模型在未來時間段也有穩定表現。 > 5. **部署流程**： > * **模型封裝**：使用 `pickle` 或 `ONNX` 將模型序列化。 > * **API 服務**：利用 FastAPI 搭建 RESTful 端點，供審核系統即時呼叫。 > * **監控**：每小時將實際預測結果與真實違約率進行對比，若 F1 落低 5% 以上自動觸發重訓。 > 6. **倫理治理**：針對模型解釋性使用 SHAP，確保決策符合公平性與透明度原則。 > > **成效**： > * F1 Score：0.88（提升 12%） > * 處理時間：平均 0.5 秒/筆，完全符合線上審核即時需求。 > * 業務價值：年度違約損失下降 18% 以上。 --- ## 6.7 小結本章以實務專案為核心，說明了從基礎模型到高階集成模型的全流程，並深入探討了 1. **模型選擇策略**：先簡後複，確保可解釋性與效能兼顧。 2. **超參數調優工具**：網格搜尋、隨機搜尋、Bayesian 優化的結合使用。 3. **交叉驗證的商業意義**：時間序列驗證確保模型在實際環境中的穩定性。 4. **模型集成方法**：Stacking、Blending 能進一步提升預測精度。 5. **落地部署與監控**：從模型封裝到 API、監控，確保模型持續為商業決策提供價值。 > **關鍵要點**： > - **迭代調整**：模型性能不是一次性取得，而是透過不斷驗證與優化。 > - **可解釋性**：即使是複雜模型，也應該提供 SHAP 或 LIME 等解釋工具。 > - **監控機制**：模型部署後的實際表現同樣需要持續追蹤，避免性能漂移。 > - **倫理與合規**：特別在風險決策領域，必須將公平性與透明度納入模型開發流程。透過本章的實作與案例，讀者將能在實務專案中，快速搭建、評估、優化並落地可擴展的機器學習解決方案，為企業的決策提供可靠且可持續的數據洞見。

第5章特徵工程與特徵選擇

第八章：實務落地：將機器學習成果轉化為業務價值

聊天視窗

第六章 模型建構與調參：從基礎模型到高效預測

第六章模型建構與調參：從基礎模型到高效預測