第八章：案例實戰：從數據到決策

發布於 2026-03-01 16:01

# 第八章：案例實戰：從數據到決策本章以三個實務案例（市場行銷預測、供應鏈需求預測、客戶流失預測）為切入點，示範如何將資料科學流程落地於企業決策。每個案例都包含： 1. **業務背景與問題定義** 2. **資料來源與預處理** 3. **特徵工程與模型選擇** 4. **評估指標與驗證策略** 5. **部署與商業結合** 6. **後續持續優化** 最後，我們將綜合這些實務經驗，說明如何設計**決策支持系統（Decision Support System, DSS）**，將資料洞察轉化為可執行的商業決策。 --- ## 1. 市場行銷預測 ### 1.1 業務背景一家跨國零售商想預測下一季節的促銷活動對各品牌銷售額的影響，進而調整廣告投放預算。 | 指標 | 現況 | 目標 | |------|------|------| | 廣告投放成本 | 1,000 萬元 | 下降 5% | | 促銷期間銷售增長 | 12% | 15% | ### 1.2 資料來源 | 資料類型 | 描述 | |----------|------| | POS 交易 | 日交易金額、品項、時間戳 | | 媒體投放 | 廣告曝光量、點擊率、投放時間 | | 社群互動 | 轉發、留言、點讚數 | | 外部環境 | 天氣、節假日、競爭對手促銷 | #### 1.2.1 資料預處理示例（Python） python import pandas as pd from datetime import datetime # 讀取交易資料 sales = pd.read_csv('sales.csv') # 轉換時間戳為 datetime sales['date'] = pd.to_datetime(sales['date']) # 合併不同資料源 merged = sales.merge(media, on='date', how='left') merged.fillna(0, inplace=True) ### 1.3 特徵工程 | 特徵類型 | 具體說明 | |----------|----------| | 時間特徵 | 周期性（星期、月份） | 滿足度特徵 | 平均折扣、促銷覆蓋率 | 交互特徵 | 廣告曝光 × 促銷折扣 | 影響因子 | 天氣溫度、競爭對手活動 ### 1.4 模型選擇 | 模型 | 優勢 | 適用情境 | |------|------|----------| | XGBoost | 高準確度、可處理缺失值 | 需要即時預測、特徵重要性可解釋 | | Prophet | 時間序列趨勢、假日效應 | 長期銷售趨勢預測 | | LSTM | 處理長期依賴 | 需要捕捉季節性變化的複雜序列 | **實際選擇**：由於本案例需要解釋廣告投放影響，我們採用 XGBoost 並配合 SHAP 解釋。 ### 1.5 評估指標 - **MAE / RMSE**：衡量預測誤差。 - **R²**：解釋變異比例。 - **回報率（ROI）**：投資回報計算，直接映射業務 KPI。 ### 1.6 部署與商業落地 1. **模型打包**：使用 `mlflow` 或 `AWS SageMaker` 將模型封裝為 REST API。 2. **結果展示**：在 BI 工具（Power BI / Tableau）中嵌入預測圖表，實時顯示不同廣告組合的預期銷售增長。 3. **決策流程**：將 API 與行銷自動化平台（Marketo / HubSpot）連接，根據模型預測自動調整投放策略。 ### 1.7 持續優化 | 步驟 | 目的 | |------|------| | 每月回測 | 檢查模型偏移 | | A/B 測試 | 驗證預測與實際結果 | | 重新訓練 | 更新最新交易與媒體資料 | --- ## 2. 供應鏈需求預測 ### 2.1 業務背景製造業公司需要提前預測下個月的零部件需求，以避免庫存積壓或缺貨。 ### 2.2 資料來源 | 資料類型 | 描述 | |----------|------| | 歷史銷售 | 每日/每週/每月銷售量 | | 訂單 | 客戶訂單時間、數量 | | 供應商交貨 | 交貨延遲、缺貨紀錄 | | 促銷計劃 | 產品打折、促銷日 | | 行業指標 | 市場需求趨勢 | #### 2.2.1 資料預處理 python # 讀取需求歷史 sales_hist = pd.read_csv('sales_history.csv') # 轉換日期 sales_hist['date'] = pd.to_datetime(sales_hist['date']) # 計算滾動平均（30 天） sales_hist['rolling_30'] = sales_hist['qty'].rolling(window=30).mean() ### 2.3 特徵工程 | 特徵 | 作用 | |------|------| | 滾動平均 | 滿足季節性需求 | | 週期性 | 周期性波動 | | 外部事件 | 節假日、促銷 | | 供應商指標 | 交付時間、缺貨率 | ### 2.4 模型選擇 | 模型 | 優勢 | |------|------| | ARIMA | 時間序列基礎，解釋季節性 | | Prophet | 內建假日效應 | | LightGBM | 非線性關係，處理高維度特徵 | | DeepAR | 需大量資料，能捕捉長期依賴 | **實際選擇**：考慮到業務需要快速迭代，我們採用 LightGBM 並結合 30 天滾動窗口。 ### 2.5 評估指標 - **MAPE**：相對誤差，易於解釋。 - **SMAPE**：對稱 MAPE，減少極端值影響。 - **庫存成本**：計算預測誤差對庫存持有成本的影響。 ### 2.6 部署與商業落地 1. **API**：將 LightGBM 模型封裝為 RESTful 服務。 2. **自動化**：透過 ETL 系統（Airflow）每日更新資料並重新預測。 3. **視覺化**：在 ERP 系統中嵌入需求預測儀表板，供採購與生產部門使用。 ### 2.7 持續優化 - **需求驟變偵測**：當需求突增時，觸發即時警報。 - **模型再訓練**：每月結合最新數據重新訓練。 - **供應商協同**：與供應商共享預測模型，降低雙方風險。 --- ## 3. 客戶流失預測 ### 3.1 業務背景金融服務公司希望提前識別高風險客戶，針對性提供保留方案，降低流失率。 ### 3.2 資料來源 | 資料類型 | 描述 | |----------|------| | 客戶交易 | 交易頻率、金額 | | 客戶服務 | 投訴次數、客服交互 | | 產品使用 | 功能使用率 | | 生命週期 | 服務年限、開戶時間 | | 社群互動 | 會員活動參與 | #### 3.2.1 資料預處理 python # 讀取客戶資料 customer = pd.read_csv('customer_data.csv') # 生成活躍度指標 customer['active_days'] = customer['last_login'] - customer['first_login'] # 處理類別變數 customer = pd.get_dummies(customer, columns=['region', 'plan_type'], drop_first=True) ### 3.3 特徵工程 | 特徵 | 解釋 | |------|------| | 交易頻率 | 客戶活躍程度 | | 投訴頻率 | 客戶滿意度 | | 產品使用覆蓋率 | 產品黏著度 | | 客戶等級 | 分層管理 | | 社群參與 | 社群價值 | ### 3.4 模型選擇 | 模型 | 特色 | |------|------| | Logistic Regression | 易於解釋、基線模型 | | XGBoost | 高精度、特徵重要性可視化 | | CatBoost | 處理類別特徵更好 | | Deep Neural Network | 捕捉複雜非線性關係 | **實際選擇**：使用 CatBoost（因類別特徵多）並搭配 SHAP 進行特徵解釋。 ### 3.5 評估指標 - **AUC‑ROC**：區分正負樣本能力。 - **Precision/Recall / F1**：對於高成本流失預測，重視召回率。 - **成本效益**：計算預測帶來的營收差距。 ### 3.6 部署與商業落地 1. **模型服務**：使用 `FastAPI` 將模型部署至 Kubernetes。 2. **決策閘道**：若預測概率 > 0.8，觸發客戶關係管理（CRM）系統自動送出保留優惠。 3. **監控**：設置警報，當流失率異常上升時即時通報。 ### 3.7 持續優化 - **漂移檢測**：監控客戶行為特徵分佈。 - **重新訓練**：每季度更新模型。 - **A/B 測試**：測試不同保留方案的有效性。 --- ## 4. 決策支持系統設計 ### 4.1 需求分析 - **目標**：將資料科學模型與業務流程整合，形成可操作的決策支持。 - **用戶**：高層管理、行銷、供應鏈、客服團隊。 - **KPI**：營收增長、庫存周轉率、客戶滿意度、ROI 等。 ### 4.2 架構概覽 mermaid graph LR A[資料來源] -->|ETL| B[資料倉儲] B --> C[資料湖] C --> D[資料科學服務] D -->|模型| E[API Gateway] E --> F[業務應用] F --> G[BI 報表 / Dashboard] D -->|特徵重要性| H[解釋層] - **資料來源**：傳統 ERP、CRM、外部 API。 - **ETL**：使用 Airflow 或 Databricks 進行資料清洗、轉換。 - **資料湖**：存放原始、處理後資料，支持快速實驗。 - **資料科學服務**：模型訓練、驗證、部署。使用 MLflow 追蹤實驗。 - **API Gateway**：將模型封裝成 REST / gRPC 服務。 - **業務應用**：行銷自動化、訂單管理、客戶關係管理。 - **BI 報表**：利用 Tableau / Power BI 可視化模型輸出與 KPI。 ### 4.3 典型工作流 | 步驟 | 內容 | 工具/技術 | |------|------|------------| | 1. 資料蒐集 | 收集多元來源 | Kafka / S3 | | 2. 資料預處理 | 清洗、特徵工程 | PySpark / pandas | | 3. 模型訓練 | 迭代實驗 | MLflow + XGBoost/CatBoost | | 4. 模型評估 | 指標計算 | sklearn.metrics | | 5. 模型包裝 | Docker、MLflow | Docker, Kubernetes | | 6. API 服務 | 監控、版本管理 | FastAPI, Istio | | 7. 可視化 | 報表、儀表板 | Tableau, PowerBI | | 8. 持續監控 | 漂移、性能 | Prometheus, Grafana | ### 4.4 風險管理 - **資料隱私**：符合 GDPR / 個資法規，使用資料匿名化、加密。 - **模型漂移**：設置漂移檢測，並自動觸發再訓練。 - **商業連結**：確保 KPI 與業務目標一致，避免「黑盒」決策。 - **人員培訓**：提供決策者培訓，提升模型理解度。 --- ## 小結 1. **案例落地**：從行銷、供應鏈、客戶關係三大領域實際示範資料科學模型的建構、部署與商業價值。 2. **決策支持系統**：構建完整資料管道，確保模型與業務流程無縫連結。 3. **持續優化**：將資料科學視為企業持續競爭力的關鍵驅動。 > **實務建議**：在任何案例中，始終以業務 KPI 為衡量標準；確保每一步都有可驗證的商業回報，才能獲得決策者的長期支持。 --- ## 參考資料 - *Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die* – Eric Siegel - *Feature Engineering for Machine Learning* – Alice Zheng & Amanda Casari - *Machine Learning Ops* – George D. Weier & Ananda P. R. - *Data Science for Business* – Foster Provost & Tom Fawcett - **開源專案**： - [MLflow](https://mlflow.org/) - [TensorFlow Serving](https://www.tensorflow.org/tfx/serving) - [KubeFlow](https://www.kubeflow.org/) - **工具**：Airflow, Databricks, FastAPI, Grafana

第七章：模型部署與持續學習——將預測推向實際運營

第九章：從模型到商業：MLOps 的落地與監控