第三章：資料收集與清洗 – 從原始資料到可用信息

發布於 2026-03-05 20:09

# 第三章：資料收集與清洗 – 從原始資料到可用信息 ## 3.1 資料收集的哲學基礎資料科學不只是技術的堆砌，更是一種觀察世界的態度。當我們設計資料收集流程時，必須先問自己： - **為什麼**要收集這些資料？ - **哪些資料**真正能回答商業問題？ - **如何**確保資料的代表性與公平性？這三個問題構成了「資料倫理」的核心。正如哲學家所說，知識的首要條件是 **問題的正確性**。若從錯誤的問題開始，所有資料的處理都將無功而返。 ## 3.2 來源多樣性與統一性 | 資料來源 | 優勢 | 限制 | 整合挑戰 | |---------|------|------|----------| | **內部系統** | 實時、完整 | 僅覆蓋公司內部 | 不同子系統的數據結構差異 | | **外部 API** | 豐富、即時 | 不可控的更新頻率 | 權限與速率限制 | | **第三方數據** | 擴展視角 | 可能缺乏驗證 | 需進行額外清洗 | 在實務中，我們通常採用 **ETL + ELT** 的混合方式：先提取（Extract）外部資料，再將其載入（Load）至資料倉儲，最後再做轉換（Transform）。這種策略既能保留原始數據的可追溯性，又能在倉庫層面進行統一治理。 ## 3.3 資料清洗的三重目標 1. **消除錯誤**：缺失值、重複項、異常值。\ 2. **維持一致性**：統一日期格式、單位、命名規則。\ 3. **確保可驗證性**：建立資料線索（data lineage）與元資料（metadata）管理。 ### 3.3.1 缺失值處理策略 | 方法 | 適用場景 | 風險 | |------|----------|------| | **刪除** | 缺失比例 < 5% | 可能失去關鍵樣本 | | **填補** | 連續變數 | 可能引入偏差 | | **模型預測** | 高維度資料 | 增加模型複雜度 | 在商業場景中，缺失值往往是業務流程中的「痛點」，因此在選擇策略前，應先了解缺失的業務含義。 ### 3.3.2 異常值處理異常值既可能是數據錯誤，也可能是「商業機會」。使用 **箱形圖** 或 **Z-score** 進行初步檢測後，必須對每個異常值進行業務驗證，避免將真正有價值的信號誤剔。 ## 3.4 Feature Engineering：從原始特徵到可解釋特徵 1. **特徵衍生**：將多個原始欄位組合成新特徵，例如「用戶活躍度 = 每週瀏覽量 / 登錄次數」。 2. **特徵選擇**：使用統計檢定（ANOVA、Chi-square）或模型基礎方法（L1 正則化、Tree-based importance）剔除冗餘特徵。 3. **特徵縮放**：對於距離敏感的模型（SVM、KNN）採用 Min-Max 或 Standardization；對於樹模型則不需要。在哲學層面，**特徵工程** 是「知識提煉」的過程。它要求我們在資料的表層之下，去尋找能夠真正說明因果關係的變數。 ## 3.5 資料治理：可持續與可追蹤的流程 - **數據線索（Data Lineage）**：從來源到模型輸出，每一步的轉換都需被記錄。 - **數據品質指標**：完整性、準確性、時效性、唯一性。定期自動化報表以檢查偏差。 - **存取控制**：角色基於權限（RBAC）與敏感度分級，確保資料安全。 ## 3.6 案例實踐：零售電商的資料收集與清洗流程 > **背景**：某線上零售商欲提升「下單轉換率」。 > > **流程**： > > 1. 從訂單系統、商品庫存系統、網站日誌系統抽取資料。 > 2. 以 Snowflake 建立資料倉，使用 dbt 進行資料模型。 > 3. 針對缺失值（如商品描述缺失）使用平均值填補；對異常交易（超高金額）進行人工審核。 > 4. 透過特徵衍生產生「瀏覽-下單比率」與「瀏覽時間段」等特徵。 > 5. 使用 LightGBM 進行模型訓練，並結合 SHAP 進行特徵重要性解釋。 > > **成果**：模型提升 AUC 0.73 → 0.78，對商業決策的信任度顯著提高。 ## 3.7 小結 1. **資料來源的多元化** 能提供更全面的洞見，但同時增加統合難度。 2. **清洗與治理** 不是一次性工作，而是一個持續迭代的循環。 3. **特徵工程** 是將原始數據轉化為商業價值的關鍵步驟，要求資料科學家同時具備技術與商業敏銳度。 4. **哲學思考**：每一次資料處理都應該回到「為什麼這麼做」的問題，確保技術不偏離商業本質。 > **前瞻**：在下一章，我們將探討如何將模型部署於實際運營環境，並結合 MLOps 保障模型的長期穩定性。

第二章：從商業問題到資料問題的轉化

第四章：機器學習實務