聊天視窗

資料科學在社會創新中的實戰指南 - 第 6 章

第六章 特徵工程與模型選擇:把社會問題量化為數據指標

發布於 2026-03-07 16:01

# 第六章 特徵工程與模型選擇:把社會問題量化為數據指標 > **一句話總結**:在社會創新的世界裡,特徵工程是把「人性」轉化為「可計算」的橋樑,而模型選擇則是決定這座橋的鋼筋與支撐。 ## 1. 為什麼特徵工程如此重要? 在我們的社會創新專案中,資料往往來源於多元管道:政府開放資料、社群媒體、感測器、問卷調查,甚至是非結構化的新聞稿。每一種資料都蘊藏著不同的語意與結構,而機器學習模型只能接受「乾淨且結構化」的輸入。 > **案例:台北市環保局的空氣品質監測** – 以往模型僅考慮PM2.5濃度與溫度,但在實務中,通風條件、交通流量、行人密度等隱含變數往往更能預測人群健康風險。這些變數的缺失,直接導致預測偏差。 特徵工程的核心是: 1. **特徵提取**:從原始資料中擷取有意義的變數。 2. **特徵轉換**:將原始特徵映射到更適合模型學習的空間。 3. **特徵選擇**:過濾掉冗餘或噪聲特徵,降低維度。 ## 2. 社會數據的特徵挑選 ### 2.1 資料清洗(Data Cleaning) - **缺失值處理**:使用 **多重插補** 或 **隨機森林插補**,避免簡單填補造成偏差。 - **異常值偵測**:利用 **Isolation Forest** 或 **Z-Score**,識別極端值。 - **重複資料**:在大規模社群媒體資料中,重複貼文往往會扭曲情緒分析。 ### 2.2 特徵創造(Feature Engineering) | 類型 | 典型方法 | 典型案例 | |---|---|---| | 時間特徵 | 月、季、工作日/週末 | 社區活動參與度變化 | | 地理特徵 | 鄰近醫院、學校距離 | 健康事件分佈 | | 文本特徵 | TF‑IDF、BERT嵌入 | 需求熱點分析 | | 行為特徵 | 走訪次數、停留時間 | 公共空間使用率 | ### 2.3 標籤構建(Label Construction) - **二元分類**:是否發生某事件(如疫情爆發)。 - **多類別分類**:問題嚴重程度(低/中/高)。 - **迴歸**:預測量化指標(如每天人流量)。 - **序列**:時間序列預測(如預測未來六個月的交通流量)。 > **提示**:在社會科學中,標籤往往帶有主觀性。建立多元評審機制,結合領域專家與社區聲音,可減少標籤偏差。 ## 3. 交叉驗證與模型選擇 ### 3.1 交叉驗證(Cross‑Validation) - **K‑Fold**:適用於較小資料集。 - **時間序列分層**:保留時間順序,避免資料洩漏。 - **分層抽樣**:確保類別分布的一致性。 ### 3.2 模型選擇 | 模型 | 適用情境 | 優缺點 | |---|---|---| | **線性回歸 / Logistic 回歸** | 低維度、可解釋性高 | 解釋性好,易受多重共線性影響 | | **決策樹 / 隨機森林** | 高維度、非線性關係 | 具有解釋性,易過擬合 | | **梯度提升機(XGBoost, LightGBM)** | 大規模數據、非線性 | 高預測準確度,參數調整多 | | **支持向量機** | 二元分類、非線性 | 高維度表現佳,計算量大 | | **深度學習(CNN, RNN, Transformer)** | 大量標註資料、序列、圖像 | 需求高算力,解釋性較低 | | **聚類(K‑Means, DBSCAN)** | 無標籤探索 | 無需標籤,易捕捉潛在模式 | > **實務提醒**:在社會創新專案中,往往更偏好可解釋性高且部署成本低的模型,因為決策者需要能快速理解模型背後的邏輯。 ## 4. 參數調優與評估指標 ### 4.1 調參方法 - **網格搜尋(Grid Search)**:系統性探索參數空間。 - **隨機搜尋(Random Search)**:更快找到合適區間。 - **貝葉斯優化**:利用代理模型迭代尋找最佳參數。 ### 4.2 評估指標 | 任務 | 指標 | |---|---| | 二元分類 | Accuracy, Precision, Recall, F1, ROC‑AUC | | 多類別分類 | Macro‑average F1, Cohen’s Kappa | | 迴歸 | MAE, RMSE, R² | | 時間序列 | MAPE, SMAPE, MAE | > **案例**:在「青少年網路成癮預測」專案中,使用隨機森林得到 82% 的 F1 分數,但通過貝葉斯優化,將參數調整後提升至 88%。 ## 5. 風險與倫理考量 1. **偏差(Bias)**:資料來源的不平衡可能導致模型偏見。 2. **可解釋性(Explainability)**:在公共衛生決策中,模型結果需要能被非技術人員理解。 3. **隱私(Privacy)**:敏感資料須遵循 GDPR、個人資料保護法。 4. **公平性(Fairness)**:不同族群、不同社區的模型表現不應相差過大。 > **小結**:每一次特徵選擇與模型調整,都是一次道德抉擇。透過多方利益相關者參與,將科技與人文價值結合,才能真正創造可持續的社會價值。 ## 6. 實戰範例:預測社區噪音級別 | 步驟 | 具體做法 | |---|---| | 1. 資料蒐集 | 收集地方環保局噪音傳感器、交通流量、建築物高度、人口密度。 | 2. 特徵提取 | 時間特徵(時間段、節假日)、地理特徵(距離主要幹道)、交通特徵(車流量)。 | 3. 標籤構建 | 噪音級別分為「低」< 55dB,「中」55–70dB,「高」>70dB。 | 4. 模型選擇 | 隨機森林 + 交叉驗證。 | 5. 評估 | Macro‑average F1 = 0.78;透過 SHAP 分析可視化特徵重要度。 | 6. 部署 | 將模型嵌入智慧城市平台,提供即時警報與改善建議。 > **結語**:特徵工程與模型選擇是將社會數據轉化為可行動洞見的關鍵步驟。它不僅需要技術精準,更需在倫理與可解釋性間取得平衡,才能真正促進社會創新的目標。