聊天視窗

洞見未來:資料科學在商業決策中的實務與哲學 - 第 3 章

第三章:資料收集與清洗 – 從原始資料到可用信息

發布於 2026-03-05 20:09

# 第三章:資料收集與清洗 – 從原始資料到可用信息 ## 3.1 資料收集的哲學基礎 資料科學不只是技術的堆砌,更是一種觀察世界的態度。當我們設計資料收集流程時,必須先問自己: - **為什麼**要收集這些資料? - **哪些資料**真正能回答商業問題? - **如何**確保資料的代表性與公平性? 這三個問題構成了「資料倫理」的核心。正如哲學家所說,知識的首要條件是 **問題的正確性**。若從錯誤的問題開始,所有資料的處理都將無功而返。 ## 3.2 來源多樣性與統一性 | 資料來源 | 優勢 | 限制 | 整合挑戰 | |---------|------|------|----------| | **內部系統** | 實時、完整 | 僅覆蓋公司內部 | 不同子系統的數據結構差異 | | **外部 API** | 豐富、即時 | 不可控的更新頻率 | 權限與速率限制 | | **第三方數據** | 擴展視角 | 可能缺乏驗證 | 需進行額外清洗 | 在實務中,我們通常採用 **ETL + ELT** 的混合方式:先提取(Extract)外部資料,再將其載入(Load)至資料倉儲,最後再做轉換(Transform)。這種策略既能保留原始數據的可追溯性,又能在倉庫層面進行統一治理。 ## 3.3 資料清洗的三重目標 1. **消除錯誤**:缺失值、重複項、異常值。\ 2. **維持一致性**:統一日期格式、單位、命名規則。\ 3. **確保可驗證性**:建立資料線索(data lineage)與元資料(metadata)管理。 ### 3.3.1 缺失值處理策略 | 方法 | 適用場景 | 風險 | |------|----------|------| | **刪除** | 缺失比例 < 5% | 可能失去關鍵樣本 | | **填補** | 連續變數 | 可能引入偏差 | | **模型預測** | 高維度資料 | 增加模型複雜度 | 在商業場景中,缺失值往往是業務流程中的「痛點」,因此在選擇策略前,應先了解缺失的業務含義。 ### 3.3.2 異常值處理 異常值既可能是數據錯誤,也可能是「商業機會」。使用 **箱形圖** 或 **Z-score** 進行初步檢測後,必須對每個異常值進行業務驗證,避免將真正有價值的信號誤剔。 ## 3.4 Feature Engineering:從原始特徵到可解釋特徵 1. **特徵衍生**:將多個原始欄位組合成新特徵,例如「用戶活躍度 = 每週瀏覽量 / 登錄次數」。 2. **特徵選擇**:使用統計檢定(ANOVA、Chi-square)或模型基礎方法(L1 正則化、Tree-based importance)剔除冗餘特徵。 3. **特徵縮放**:對於距離敏感的模型(SVM、KNN)採用 Min-Max 或 Standardization;對於樹模型則不需要。 在哲學層面,**特徵工程** 是「知識提煉」的過程。它要求我們在資料的表層之下,去尋找能夠真正說明因果關係的變數。 ## 3.5 資料治理:可持續與可追蹤的流程 - **數據線索(Data Lineage)**:從來源到模型輸出,每一步的轉換都需被記錄。 - **數據品質指標**:完整性、準確性、時效性、唯一性。定期自動化報表以檢查偏差。 - **存取控制**:角色基於權限(RBAC)與敏感度分級,確保資料安全。 ## 3.6 案例實踐:零售電商的資料收集與清洗流程 > **背景**:某線上零售商欲提升「下單轉換率」。 > > **流程**: > > 1. 從訂單系統、商品庫存系統、網站日誌系統抽取資料。 > 2. 以 Snowflake 建立資料倉,使用 dbt 進行資料模型。 > 3. 針對缺失值(如商品描述缺失)使用平均值填補;對異常交易(超高金額)進行人工審核。 > 4. 透過特徵衍生產生「瀏覽-下單比率」與「瀏覽時間段」等特徵。 > 5. 使用 LightGBM 進行模型訓練,並結合 SHAP 進行特徵重要性解釋。 > > **成果**:模型提升 AUC 0.73 → 0.78,對商業決策的信任度顯著提高。 ## 3.7 小結 1. **資料來源的多元化** 能提供更全面的洞見,但同時增加統合難度。 2. **清洗與治理** 不是一次性工作,而是一個持續迭代的循環。 3. **特徵工程** 是將原始數據轉化為商業價值的關鍵步驟,要求資料科學家同時具備技術與商業敏銳度。 4. **哲學思考**:每一次資料處理都應該回到「為什麼這麼做」的問題,確保技術不偏離商業本質。 > **前瞻**:在下一章,我們將探討如何將模型部署於實際運營環境,並結合 MLOps 保障模型的長期穩定性。