5. 可解釋模型設計：從簡單到複雜

發布於 2026-02-21 06:48

# 5. 可解釋模型設計：從簡單到複雜在本章中，我們將從模型本身的可解釋性入手，介紹從最直觀的決策樹、規則基模型，到更為先進的稀疏神經網路，如何在保持模型性能的同時，保留足夠的可解釋度。隨後，我們將討論如何結合專門的解釋器（如 LIME、SHAP、Integrated Gradients 等）進一步提升模型的透明度，並以實際金融信用評分案例說明落地流程。 ## 5.1 設計原則 | 原則 | 內容 | 目的 | |---|---|---| | **可解釋性優先** | 模型結構必須易於人類理解（可視化、規則可解釋） | 讓非技術決策者也能閱讀、驗證模型輸出 | | **可擴充性** | 可在不改動核心邏輯的情況下，加入新特徵或調整規則 | 兼顧業務變化與模型迭代 | | **性能平衡** | 兼顧精度與解釋成本 | 讓可解釋模型不至於性能過低 | | **透明度可測量** | 透過指標（如可解釋度分數、規則數量）量化 | 方便內部審核與外部合規 | ## 5.2 决策树模型決策樹以「分支-葉節點」結構展示特徵決策路徑，直觀易於可視化。 ### 5.2.1 模型構建 python from sklearn.tree import DecisionTreeClassifier, export_text X, y = load_credit_data() model = DecisionTreeClassifier(max_depth=5, min_samples_split=10) model.fit(X, y) # 以文字形式輸出樹結構 print(export_text(model, feature_names=X.columns.tolist())) ### 5.2.2 可視化 - **Graphviz**：以圖形展示分支結構。 - **SHAP DeepExplainer**：對整棵樹計算每個特徵的重要度。 ### 5.2.3 優缺點 | 優點 | 缺點 | |---|---| | 直觀可解釋 | 易於過擬合，對噪聲敏感 | | 可視化簡單 | 大規模特徵時結構龐大 | | 可轉化為規則 | 不能捕捉高階交互 | ## 5.3 規則基模型（RuleFit、Mondrian Forest）規則基模型將決策樹中的路徑抽象為規則，再用線性模型學習規則權重，兼具可解釋性與高效性。 ### 5.3.1 RuleFit 範例 python from sklearn.ensemble import RandomForestClassifier from sklearn_rulefit import RuleFit rf = RandomForestClassifier(n_estimators=200, max_depth=4) rf.fit(X, y) rf_rules = RuleFit(tree_model=rf, n_min=10, binary_features=True) rf_rules.fit(X, y) # 輸出最重要的規則 print(rf_rules.get_rules()[['rule', 'feature_importance']].sort_values('feature_importance', ascending=False).head()) ### 5.3.2 優缺點 | 優點 | 缺點 | |---|---| | 規則易於解釋 | 規則數量可膨脹 | | 可用於線性模型提升 | 需要額外規則清理 | | 可轉化為簡潔報表 | 需調整超參數 | ## 5.4 稀疏神經網路傳統深度網路往往難以解釋，透過**稀疏化**（例如 L1 正則化、剪枝、硬門檻）可降低參數量，並保留關鍵特徵。 ### 5.4.1 模型結構 python import tensorflow as tf from tensorflow.keras import layers, regularizers inputs = tf.keras.Input(shape=(X.shape[1],)) x = layers.Dense(64, activation='relu', kernel_regularizer=regularizers.l1(1e-4))(inputs) x = layers.Dense(32, activation='relu', kernel_regularizer=regularizers.l1(1e-4))(x) outputs = layers.Dense(1, activation='sigmoid')(x) model = tf.keras.Model(inputs, outputs) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) model.fit(X, y, epochs=20, batch_size=32) ### 5.4.2 剪枝與規則化 - **L1 正則化**：促使權重稀疏。 - **Magnitude Pruning**：在訓練過程中將小權重設為零。 - **Structured Pruning**：按層或通道進行剪枝，保留關鍵子網路。 ### 5.4.3 典型解釋手段 - **Integrated Gradients**：計算特徵對輸出的累積梯度。 - **Grad-CAM (對圖像特徵)**：可視化對決策影響最大的區域。 - **Partial Dependence Plots**：展示單個特徵對輸出的平均效應。 ## 5.5 結合解釋器的技巧 | 技巧 | 說明 | |---|---| | **解釋器嵌入** | 例如在訓練過程中同步計算 SHAP 值，作為額外的監控指標 | | **規則優先學習** | 將決策樹生成的規則作為初始特徵，並再用神經網路進一步學習 | | **可視化一致性檢查** | 比較 LIME、SHAP 與模型內部重要度，確保不出現解釋矛盾 | | **自動規則抽象** | 利用 RuleFit 生成的稀疏規則，再作為可解釋報表 | ## 5.6 案例實戰：金融信用評分 ### 5.6.1 需求背景金融機構需要在評估個人信用風險時，既能達到高精度，又須向監管機構提供可解釋的決策報告。 ### 5.6.2 整體流程 1. **數據預處理**：缺失值補全、類別編碼、特徵縮放。\ 2. **基礎模型**：先構建深度神經網路，並加入 L1 稀疏化。 3. **規則萃取**：將深度網路中重要權重對應的特徵抽象為規則，使用 RuleFit 進行重構。 4. **模型融合**：將規則權重與深度網路權重結合，用 LightGBM 做二次擬合，形成「Rule‑Boosted Network」。 5. **解釋器驗證**：使用 SHAP 生成「模型解釋報表」，並在每個預測案例中提供 LIME 規則路徑說明。 ### 5.6.3 代碼示例（簡化版） python # 1. 訓練稀疏神經網路 model = build_sparse_network(X, y) # 2. 產生 SHAP 值（全局重要度） import shap explainer = shap.TreeExplainer(model) # 也可使用 KernelExplainer shap_values = explainer.shap_values(X) # 3. 生成報表 shap.summary_plot(shap_values, X) ### 5.6.4 成功關鍵 - **監管映射**：將模型解釋度分數納入內部審核流程。 - **版本管理**：每一次模型更新都必須保存解釋器輸出，以供追蹤。 - **多方驗證**：由數據科學家與風控部門共同審核決策路徑，避免「解釋盲點」。 ## 5.6 小結 - **決策樹**：最直觀的可解釋模型，適用於特徵數量有限、交互較簡單的場景。 - **規則基模型**：將決策樹抽象為可重構規則，兼具可解釋性與可擴充性。 - **稀疏神經網路**：在保持深度學習表現的同時，透過稀疏化降低參數量，並利用梯度基解釋器提升透明度。 - **結合解釋器**：在訓練與部署中同步考慮解釋度，形成可量化的監控指標。 ## 5.7 思考題 1. 在信用評分模型中，哪種模型（決策樹、規則基、稀疏網路）最能滿足監管機構的可解釋性需求？為什麼？ 2. 如何設計一套「可解釋度分數」評估指標，並將其納入模型選型流程？ 3. 在多特徵高維場景下，如何控制規則數量不至於失去可讀性？提出至少兩種策略。 --- **參考文獻** - Friedman, J. H. (2001). *Greedy function approximation: A gradient boosting machine*. Annals of Statistics. - Molnar, C. (2020). *Interpretable Machine Learning*. Springer. - Lundberg, S. M., & Lee, S. I. (2017). *A unified approach to interpreting model predictions*. NIPS.

第4章：可解釋深度模型的內部機制與可視化策略

第六章可解釋性在決策支援系統中的落地