返回目錄
A
洞悉未來:資料科學決策師的實務指南 - 第 2 章
第二章:數據採集與治理
發布於 2026-03-01 14:00
# 第二章:數據採集與治理
本章將帶領決策者了解從何處收集資料、如何確保資料質量以及如何在企業內部建立有效的治理框架。這些都是資料科學計畫能否成功落地的關鍵前置條件。
---
## 2.1 資料來源與類型
| 資料來源 | 類型 | 典型範例 | 商業價值 |
|---|---|---|---|
| **結構化內部資料** | 表格資料(如資料庫、ERP、CRM) | 交易記錄、客戶資料表 | 直接支持營運決策、客戶分析 |
| **半結構化資料** | JSON、XML、log檔 | Web 伺服器日誌、API 回應 | 用於行為分析、系統監控 |
| **非結構化資料** | 文字、影像、音訊 | 客服錄音、社群貼文、影片 | 文字情感分析、品牌聲量監測 |
| **外部市場資料** | 開放資料、第三方 API | 行業報告、社會經濟指標 | 競爭對手對比、宏觀趨勢 |
| **實時資料流** | Kafka、Spark Streaming | IoT 物聯網感測、金融交易 | 即時風險控制、需求預測 |
> **實務建議**:在決定採集哪些資料前,先對商業問題進行 *問題定義*,確定需要哪種資料才能支撐決策。避免「資料即資料」的陷阱——大量資料不等於高價值資料。
## 2.2 資料品質評估與清洗
### 2.2.1 資料品質四大維度
| 維度 | 代表性指標 | 影響範圍 |
|---|---|---|
| **完整性** | 空值比例、缺漏欄位 | 影響模型訓練、報表正確性 |
| **一致性** | 重複紀錄、跨表鍵合規 | 影響資料整合、資料倉儲一致性 |
| **準確性** | 與真實值比對、驗證規則 | 直接影響決策可信度 |
| **時效性** | 資料更新頻率、時間戳 | 影響預測模型的「即時性」 |
### 2.2.2 常見清洗技巧
1. **缺值處理**:填補、刪除、或使用模型預測填補。
2. **重複剔除**:利用主鍵或哈希值。
3. **資料標準化**:統一日期格式、統一貨幣單位。
4. **異常值檢測**:箱形圖、Z-score、IQR。
5. **資料類型轉換**:將字符串型日期轉為日期型、數字型。
### 2.2.3 範例:使用 Pandas 進行簡易清洗
python
import pandas as pd
# 讀取交易資料
orders = pd.read_csv('orders.csv')
# 1. 查看缺值
print(orders.isnull().mean())
# 2. 填補缺值(示例:使用 0 代表缺失金額)
orders['amount'] = orders['amount'].fillna(0)
# 3. 刪除重複紀錄(以 order_id 為主鍵)
orders = orders.drop_duplicates(subset='order_id')
# 4. 標準化日期
orders['order_date'] = pd.to_datetime(orders['order_date'], format='%Y-%m-%d')
# 5. 輸出清洗後資料
orders.to_csv('orders_clean.csv', index=False)
> **實務建議**:資料清洗往往是「耗時但必要」的工作。可以先做小樣本快速迭代,確定清洗規則後再批量處理;同時保留原始資料備份,以便追蹤與審計。
## 2.3 資料治理框架與合規
### 2.3.1 資料治理的三大支柱
| 支柱 | 內容 | 目標 |
|---|---|---|
| **資料策略** | 資料可用性、可存取性、資料品質目標 | 確保資料能支撐業務與法規需求 |
| **資料管理** | 資料分類、資料字典、元資料管理 | 促進跨部門共享、減少重複投入 |
| **資料安全** | 訪問控制、加密、監控 | 避免資料外洩、符合法規 |
### 2.3.2 合規框架:GDPR / CCPA
| 規定 | 主要要求 | 影響範圍 |
|---|---|---|
| **GDPR** | 資料主體權利(存取、刪除、遷移) | 歐盟境內或面向歐盟客戶的資料處理 |
| **CCPA** | 資料銷售標示、拒絕出售 | 美國加州境內或面向加州消費者的資料處理 |
> **實務建議**:在資料採集階段即加入「同意機制」,並為資料主體提供「資料檢索」與「資料刪除」入口;使用資料遮蔽或假名化技術保護敏感資訊。
### 2.3.3 資料治理工具
| 工具 | 主要功能 | 針對人群 |
|---|---|---|
| **Collibra** | 元資料管理、資料品質 | 數據治理團隊、CIO |
| **Alation** | 資料目錄、搜尋 | 企業資料使用者 |
| **Talend Data Fabric** | 數據整合、資料清洗 | 數據工程師 |
| **Azure Purview** | 資料分類、合規掃描 | 雲端環境使用者 |
### 2.3.4 建立治理流程
1. **資料分類**:將資料分為「公開」、「內部可用」、「敏感」三層。
2. **建立資料標籤**:在元資料庫中為每筆資料加入安全等級、保留期限。
3. **制定訪問權限**:基於最小權限原則,使用 RBAC(角色基礎存取控制)。
4. **定期品質檢查**:設置自動化報表,檢查缺值、異常值、重複紀錄。
5. **合規審計**:每半年進行一次資料處理審計,確保符合 GDPR/CCPA 等法規。
> **實務提示**:治理不等於「管得死死」;重點在於讓資料更易被找到、更可靠,並同時減少合規風險。
---
### 小結
資料採集與治理是資料科學計畫成功的基石。透過清晰的資料來源分類、嚴謹的品質評估與高效的治理流程,決策者能確保資料既可靠又合規,為後續的探索、建模與部署奠定堅實基礎。