返回目錄
A
資料科學在社會創新中的實戰指南 - 第 6 章
第六章 特徵工程與模型選擇:把社會問題量化為數據指標
發布於 2026-03-07 16:01
# 第六章 特徵工程與模型選擇:把社會問題量化為數據指標
> **一句話總結**:在社會創新的世界裡,特徵工程是把「人性」轉化為「可計算」的橋樑,而模型選擇則是決定這座橋的鋼筋與支撐。
## 1. 為什麼特徵工程如此重要?
在我們的社會創新專案中,資料往往來源於多元管道:政府開放資料、社群媒體、感測器、問卷調查,甚至是非結構化的新聞稿。每一種資料都蘊藏著不同的語意與結構,而機器學習模型只能接受「乾淨且結構化」的輸入。
> **案例:台北市環保局的空氣品質監測** – 以往模型僅考慮PM2.5濃度與溫度,但在實務中,通風條件、交通流量、行人密度等隱含變數往往更能預測人群健康風險。這些變數的缺失,直接導致預測偏差。
特徵工程的核心是:
1. **特徵提取**:從原始資料中擷取有意義的變數。
2. **特徵轉換**:將原始特徵映射到更適合模型學習的空間。
3. **特徵選擇**:過濾掉冗餘或噪聲特徵,降低維度。
## 2. 社會數據的特徵挑選
### 2.1 資料清洗(Data Cleaning)
- **缺失值處理**:使用 **多重插補** 或 **隨機森林插補**,避免簡單填補造成偏差。
- **異常值偵測**:利用 **Isolation Forest** 或 **Z-Score**,識別極端值。
- **重複資料**:在大規模社群媒體資料中,重複貼文往往會扭曲情緒分析。
### 2.2 特徵創造(Feature Engineering)
| 類型 | 典型方法 | 典型案例 |
|---|---|---|
| 時間特徵 | 月、季、工作日/週末 | 社區活動參與度變化 |
| 地理特徵 | 鄰近醫院、學校距離 | 健康事件分佈 |
| 文本特徵 | TF‑IDF、BERT嵌入 | 需求熱點分析 |
| 行為特徵 | 走訪次數、停留時間 | 公共空間使用率 |
### 2.3 標籤構建(Label Construction)
- **二元分類**:是否發生某事件(如疫情爆發)。
- **多類別分類**:問題嚴重程度(低/中/高)。
- **迴歸**:預測量化指標(如每天人流量)。
- **序列**:時間序列預測(如預測未來六個月的交通流量)。
> **提示**:在社會科學中,標籤往往帶有主觀性。建立多元評審機制,結合領域專家與社區聲音,可減少標籤偏差。
## 3. 交叉驗證與模型選擇
### 3.1 交叉驗證(Cross‑Validation)
- **K‑Fold**:適用於較小資料集。
- **時間序列分層**:保留時間順序,避免資料洩漏。
- **分層抽樣**:確保類別分布的一致性。
### 3.2 模型選擇
| 模型 | 適用情境 | 優缺點 |
|---|---|---|
| **線性回歸 / Logistic 回歸** | 低維度、可解釋性高 | 解釋性好,易受多重共線性影響 |
| **決策樹 / 隨機森林** | 高維度、非線性關係 | 具有解釋性,易過擬合 |
| **梯度提升機(XGBoost, LightGBM)** | 大規模數據、非線性 | 高預測準確度,參數調整多 |
| **支持向量機** | 二元分類、非線性 | 高維度表現佳,計算量大 |
| **深度學習(CNN, RNN, Transformer)** | 大量標註資料、序列、圖像 | 需求高算力,解釋性較低 |
| **聚類(K‑Means, DBSCAN)** | 無標籤探索 | 無需標籤,易捕捉潛在模式 |
> **實務提醒**:在社會創新專案中,往往更偏好可解釋性高且部署成本低的模型,因為決策者需要能快速理解模型背後的邏輯。
## 4. 參數調優與評估指標
### 4.1 調參方法
- **網格搜尋(Grid Search)**:系統性探索參數空間。
- **隨機搜尋(Random Search)**:更快找到合適區間。
- **貝葉斯優化**:利用代理模型迭代尋找最佳參數。
### 4.2 評估指標
| 任務 | 指標 |
|---|---|
| 二元分類 | Accuracy, Precision, Recall, F1, ROC‑AUC |
| 多類別分類 | Macro‑average F1, Cohen’s Kappa |
| 迴歸 | MAE, RMSE, R² |
| 時間序列 | MAPE, SMAPE, MAE |
> **案例**:在「青少年網路成癮預測」專案中,使用隨機森林得到 82% 的 F1 分數,但通過貝葉斯優化,將參數調整後提升至 88%。
## 5. 風險與倫理考量
1. **偏差(Bias)**:資料來源的不平衡可能導致模型偏見。
2. **可解釋性(Explainability)**:在公共衛生決策中,模型結果需要能被非技術人員理解。
3. **隱私(Privacy)**:敏感資料須遵循 GDPR、個人資料保護法。
4. **公平性(Fairness)**:不同族群、不同社區的模型表現不應相差過大。
> **小結**:每一次特徵選擇與模型調整,都是一次道德抉擇。透過多方利益相關者參與,將科技與人文價值結合,才能真正創造可持續的社會價值。
## 6. 實戰範例:預測社區噪音級別
| 步驟 | 具體做法 |
|---|---|
| 1. 資料蒐集 | 收集地方環保局噪音傳感器、交通流量、建築物高度、人口密度。
| 2. 特徵提取 | 時間特徵(時間段、節假日)、地理特徵(距離主要幹道)、交通特徵(車流量)。
| 3. 標籤構建 | 噪音級別分為「低」< 55dB,「中」55–70dB,「高」>70dB。
| 4. 模型選擇 | 隨機森林 + 交叉驗證。
| 5. 評估 | Macro‑average F1 = 0.78;透過 SHAP 分析可視化特徵重要度。
| 6. 部署 | 將模型嵌入智慧城市平台,提供即時警報與改善建議。
> **結語**:特徵工程與模型選擇是將社會數據轉化為可行動洞見的關鍵步驟。它不僅需要技術精準,更需在倫理與可解釋性間取得平衡,才能真正促進社會創新的目標。