第六章特徵工程與模型選擇：把社會問題量化為數據指標

發布於 2026-03-07 16:01

# 第六章特徵工程與模型選擇：把社會問題量化為數據指標 > **一句話總結**：在社會創新的世界裡，特徵工程是把「人性」轉化為「可計算」的橋樑，而模型選擇則是決定這座橋的鋼筋與支撐。 ## 1. 為什麼特徵工程如此重要？在我們的社會創新專案中，資料往往來源於多元管道：政府開放資料、社群媒體、感測器、問卷調查，甚至是非結構化的新聞稿。每一種資料都蘊藏著不同的語意與結構，而機器學習模型只能接受「乾淨且結構化」的輸入。 > **案例：台北市環保局的空氣品質監測** – 以往模型僅考慮PM2.5濃度與溫度，但在實務中，通風條件、交通流量、行人密度等隱含變數往往更能預測人群健康風險。這些變數的缺失，直接導致預測偏差。特徵工程的核心是： 1. **特徵提取**：從原始資料中擷取有意義的變數。 2. **特徵轉換**：將原始特徵映射到更適合模型學習的空間。 3. **特徵選擇**：過濾掉冗餘或噪聲特徵，降低維度。 ## 2. 社會數據的特徵挑選 ### 2.1 資料清洗（Data Cleaning） - **缺失值處理**：使用 **多重插補** 或 **隨機森林插補**，避免簡單填補造成偏差。 - **異常值偵測**：利用 **Isolation Forest** 或 **Z-Score**，識別極端值。 - **重複資料**：在大規模社群媒體資料中，重複貼文往往會扭曲情緒分析。 ### 2.2 特徵創造（Feature Engineering） | 類型 | 典型方法 | 典型案例 | |---|---|---| | 時間特徵 | 月、季、工作日/週末 | 社區活動參與度變化 | | 地理特徵 | 鄰近醫院、學校距離 | 健康事件分佈 | | 文本特徵 | TF‑IDF、BERT嵌入 | 需求熱點分析 | | 行為特徵 | 走訪次數、停留時間 | 公共空間使用率 | ### 2.3 標籤構建（Label Construction） - **二元分類**：是否發生某事件（如疫情爆發）。 - **多類別分類**：問題嚴重程度（低/中/高）。 - **迴歸**：預測量化指標（如每天人流量）。 - **序列**：時間序列預測（如預測未來六個月的交通流量）。 > **提示**：在社會科學中，標籤往往帶有主觀性。建立多元評審機制，結合領域專家與社區聲音，可減少標籤偏差。 ## 3. 交叉驗證與模型選擇 ### 3.1 交叉驗證（Cross‑Validation） - **K‑Fold**：適用於較小資料集。 - **時間序列分層**：保留時間順序，避免資料洩漏。 - **分層抽樣**：確保類別分布的一致性。 ### 3.2 模型選擇 | 模型 | 適用情境 | 優缺點 | |---|---|---| | **線性回歸 / Logistic 回歸** | 低維度、可解釋性高 | 解釋性好，易受多重共線性影響 | | **決策樹 / 隨機森林** | 高維度、非線性關係 | 具有解釋性，易過擬合 | | **梯度提升機（XGBoost, LightGBM）** | 大規模數據、非線性 | 高預測準確度，參數調整多 | | **支持向量機** | 二元分類、非線性 | 高維度表現佳，計算量大 | | **深度學習（CNN, RNN, Transformer）** | 大量標註資料、序列、圖像 | 需求高算力，解釋性較低 | | **聚類（K‑Means, DBSCAN）** | 無標籤探索 | 無需標籤，易捕捉潛在模式 | > **實務提醒**：在社會創新專案中，往往更偏好可解釋性高且部署成本低的模型，因為決策者需要能快速理解模型背後的邏輯。 ## 4. 參數調優與評估指標 ### 4.1 調參方法 - **網格搜尋（Grid Search）**：系統性探索參數空間。 - **隨機搜尋（Random Search）**：更快找到合適區間。 - **貝葉斯優化**：利用代理模型迭代尋找最佳參數。 ### 4.2 評估指標 | 任務 | 指標 | |---|---| | 二元分類 | Accuracy, Precision, Recall, F1, ROC‑AUC | | 多類別分類 | Macro‑average F1, Cohen’s Kappa | | 迴歸 | MAE, RMSE, R² | | 時間序列 | MAPE, SMAPE, MAE | > **案例**：在「青少年網路成癮預測」專案中，使用隨機森林得到 82% 的 F1 分數，但通過貝葉斯優化，將參數調整後提升至 88%。 ## 5. 風險與倫理考量 1. **偏差（Bias）**：資料來源的不平衡可能導致模型偏見。 2. **可解釋性（Explainability）**：在公共衛生決策中，模型結果需要能被非技術人員理解。 3. **隱私（Privacy）**：敏感資料須遵循 GDPR、個人資料保護法。 4. **公平性（Fairness）**：不同族群、不同社區的模型表現不應相差過大。 > **小結**：每一次特徵選擇與模型調整，都是一次道德抉擇。透過多方利益相關者參與，將科技與人文價值結合，才能真正創造可持續的社會價值。 ## 6. 實戰範例：預測社區噪音級別 | 步驟 | 具體做法 | |---|---| | 1. 資料蒐集 | 收集地方環保局噪音傳感器、交通流量、建築物高度、人口密度。 | 2. 特徵提取 | 時間特徵（時間段、節假日）、地理特徵（距離主要幹道）、交通特徵（車流量）。 | 3. 標籤構建 | 噪音級別分為「低」< 55dB，「中」55–70dB，「高」>70dB。 | 4. 模型選擇 | 隨機森林 + 交叉驗證。 | 5. 評估 | Macro‑average F1 = 0.78；透過 SHAP 分析可視化特徵重要度。 | 6. 部署 | 將模型嵌入智慧城市平台，提供即時警報與改善建議。 > **結語**：特徵工程與模型選擇是將社會數據轉化為可行動洞見的關鍵步驟。它不僅需要技術精準，更需在倫理與可解釋性間取得平衡，才能真正促進社會創新的目標。

第5章資料可視化與溝通：從洞察到行動

第七章：從資料洞見到政策制定：案例剖析與落地實踐

聊天視窗

第六章 特徵工程與模型選擇：把社會問題量化為數據指標

第六章特徵工程與模型選擇：把社會問題量化為數據指標