第二章：資料科學實務流程——從問題定義到行動落地

發布於 2026-03-07 15:07

# 第二章：資料科學實務流程——從問題定義到行動落地在前一章中，我們闡述了資料科學的核心價值與跨領域協作的重要性。這一章將把概念落實到實際流程中，幫助你在社會創新專案中系統化地從「問題」開始，一步步走向「行動」。 ## 1️⃣ 問題定義：確立目標與影響範圍 1. **領域專家面談**：先邀請政策制定者、社區領袖、學者等參與「問題探索工作坊」，收集多元視角。 2. **SMART 目標**：將問題轉化為具體、可測量、可達成、相關且有時限的指標。例如： - **S**：在台北市北投區降低青少年肥胖率 5%。 - **M**：以 BMI > 95th percentile 為基準。 - **A**：透過社區健康推廣活動實施。 - **R**：對學校營養與運動計畫產生直接影響。 - **T**：三個學期內完成。 3. **影響分析**：使用「因果圖」或「輸入-輸出模型」預測不同干預措施的潛在效益與風險。 4. **可驗證假設**：將大問題拆分為可驗證的小假設，方便後續模型迭代。 ## 2️⃣ 資料探索（EDA） 1. **資料蒐集來源**： - 政府開放資料（如衛福部健康保險資料）。 - 社群感測器（如空氣品質監測站）。 - 第三方合作（如學校測試報告）。 2. **資料質量檢查**： - 缺失值分布、異常值偵測。 - 時間序列連續性與季節性檢驗。 - 資料一致性（單位、格式）確認。 3. **可視化**：使用 Plotly、Tableau 產生交互式儀表板，便於非技術同仁即時查看。 4. **先行假設驗證**：利用簡單統計（t 檢定、相關係數）快速檢測可能的因果關係。 ## 3️⃣ 特徵工程：將原始資料轉化為模型可用信息 | 步驟 | 重點 | 具體做法 | |---|---|---| | **資料清洗** | 去除噪聲 | 以 3σ 方法移除極端值，填補缺失值使用 KNN Imputer。 | | **變量轉換** | 提升線性可解性 | 使用 Box-Cox、Yeo-Johnson 轉換分布不對稱變數。 | | **衍生特徵** | 捕捉複雜關係 | 產生「運動時間 × 飲食質量」交互特徵。 | | **特徵選擇** | 降維、提升可解性 | 運用 Recursive Feature Elimination (RFE) 與 SHAP 分析，挑選高解釋度特徵。 | | **資料正規化** | 平衡尺度 | 以 Min-Max 標準化或 Z-score 進行正規化，確保模型不偏向數值大者。 | ## 4️⃣ 模型構建與驗證 1. **模型選擇**：根據目標類別（回歸、分類）與資料特性選擇合適演算法。 常用演算法： - **回歸**：線性回歸、Lasso、XGBoost。 - **分類**：邏輯斯迴歸、隨機森林、CatBoost。 2. **交叉驗證**：採用 k-fold 或 TimeSeriesSplit，防止過擬合並保證時間序列合理性。 **評分指標**：RMSE、MAE、AUC、F1 分數等，配合業務 KPI。 3. **模型調參**：使用 Grid Search、Random Search 或 Bayesian Optimization 針對重要參數進行優化。 4. **可解釋性**：採用 SHAP、LIME 等工具，將模型內部邏輯可視化，提升決策者信任度。 5. **模型版本控制**：將模型打包為 Docker 容器，利用 MLflow 或 DVC 進行版本管理。 ## 5️⃣ 部署與監控 1. **API 部署**：使用 FastAPI 或 Flask 搭建 RESTful API，並容器化部署至 Kubernetes 或雲端。 2. **資料管道**：搭建 Airflow 或 Prefect 工作流，確保資料持續更新與模型再訓練。 3. **監控指標**：建立 Dashboard 監控模型偏移（Drift）與性能衰退。 4. **回饋迴圈**：設計「觀測→分析→更新」的迴圈，確保模型長期有效。 ## 6️⃣ 行動落地：將模型轉化為政策與服務 1. **政策建議書**：以模型預測結果撰寫具體建議（例如：在肥胖率高的學校設置免費營養午餐計畫）。 2. **數位工具**：開發手機 App 或網頁平台，讓使用者透過輸入個人資料即可收到個性化健康建議。 3. **社區推廣**：舉辦工作坊、演講，說明模型背後的科學與預測邏輯，提升透明度。 4. **效果評估**：制定 KPI（如使用者滿意度、健康指標變化），定期回顧並調整策略。 ## 7️⃣ 資料治理與倫理考量 | 事項 | 風險 | 應對措施 | |---|---|---| | 個人隱私 | 數據洩露 | GDPR/PDPA 合規、匿名化、差分隱私 | | 代表性偏差 | 決策不公平 | 多樣化樣本、再加權、正則化 | | 說明性 | 决策者不信任 | SHAP 可視化、線下解釋會議 | | 資料來源授權 | 法律糾紛 | 合約簽署、授權檢查 | ## 8️⃣ 小結 - **流程化**：從問題定義到行動落地，每一步都需建立可追蹤、可重複的工作流。 - **跨域協作**：政策制定者、領域專家與資料科學家共同參與，提升模型實用性與接受度。 - **倫理第一**：在數據蒐集、模型訓練與部署過程中，始終把隱私保護與公平性放在首位。 > **實務提示**：在每個迭代周期結束時，務必進行「成果反饋」會議，讓所有利益相關者都能看到模型對社會創新的具體貢獻，並即時調整方向。

章節 1：資料科學基礎：概念、流程與工具

3. 機器學習模型：監督式、非監督式與強化學習