返回目錄
A
洞察決策:大數據分析實務手冊 - 第 2 章
第二章 資料蒐集與治理
發布於 2026-02-28 17:59
# 第二章 資料蒐集與治理
本章聚焦於大數據工作流的第一個關鍵環節:如何高效、合規地蒐集資料,並建立可靠的治理框架,確保資料品質與隱私安全。
---
## 2.1 資料來源分類
| 資料類型 | 典型來源 | 優缺點 | 典型工具 |
|----------|----------|--------|----------|
| 結構化資料 | SQL 資料庫、ERP 系統、CRM 系統 | 方便查詢、易於驗證 | JDBC、DataGrip、Airflow |
| 半結構化資料 | JSON、XML、CSV、NoSQL 資料庫 | 柔性 schema、易於擴充 | Spark、Flink、MongoDB |
| 非結構化資料 | 影像、影片、文字、音訊、社群媒體 | 富含資訊、分析成本高 | OpenCV、Tesseract、BERT、AWS Rekognition |
> **實務提示**:在大型企業環境中,**資料湖**(Data Lake)常用於整合上述三種資料,並以 **分層存取**(Raw、Clean、Processed)方式管理。這不僅降低了成本,也方便後續的資料治理與追蹤。
---
## 2.2 數據治理框架
數據治理是確保資料品質、隱私與合規的核心。以下以 **Data Governance Canvas** 為基礎,說明五大面向:
1. **資料品質(Data Quality)**
* **準確性**:確定值與實際相符。
* **完整性**:確保關鍵欄位無缺失。
* **一致性**:不同來源資料遵循相同規則。
* **及時性**:資料更新頻率符合業務需求。
2. **資料隱私(Data Privacy)**
* 依據 GDPR、CCPA、個資法等法規制定處理原則。
* 採用 **差分隱私** 或 **同態加密** 以保護敏感資訊。
3. **資料安全(Data Security)**
* **存取控制**:基於 RBAC 或 ABAC 的權限管理。
* **監控與審計**:持續追蹤資料存取與修改行為。
4. **資料合規(Data Compliance)**
* 建立**合規清單**,確保每項資料流程符合法律規範。
* 內部審查週期:季度或半年一次。
5. **資料價值(Data Value)**
* 將資料轉化為商業洞察:KPIs、報表、模型訓練。
* 追蹤 ROI:評估資料投入與產出比。
> **治理流程圖**(文字示意)
>
> 來源 → 資料抽取 → 資料檢核 → 資料清洗 → 資料分類 → 存儲 → 共享 → 分析 → 商業決策
---
## 2.3 資料蒐集工具與最佳實踐
| 工具 | 主要功能 | 適用場景 |
|------|----------|----------|
| Apache Airflow | 工作流排程、依賴管理 | ETL、定期資料抽取 |
| Apache NiFi | 資料流管理、即時轉換 | 大規模即時資料流 |
| Kafka | 分布式訊息系統 | 事件驅動、實時處理 |
| AWS Glue / Azure Data Factory | 雲端 ETL | 雲端資料湖建置 |
### 2.3.1 典型 ETL 代码示例
python
# 使用 pandas 讀取 CSV,轉換後寫入 Parquet
import pandas as pd
df = pd.read_csv('raw_data.csv')
# 基礎清洗
df = df.drop_duplicates()
df['created_at'] = pd.to_datetime(df['created_at'])
# 將欄位轉為統一命名規則
df = df.rename(columns={
'userId': 'user_id',
'OrderAmount': 'order_amount'
})
# 儲存為 Parquet
df.to_parquet('clean_data.parquet')
> **備註**:在大型資料集上,可考慮使用 **PySpark** 以分布式方式處理,示例參見後續章節。
---
## 2.4 資料治理案例:電商平台
| 步驟 | 目標 | 具體做法 |
|------|------|-----------|
| 1. 資料映射 | 匯整多個系統資料 | 建立「資料映射表」,定義每個欄位來源、類型與映射規則 |
| 2. 資料質量監控 | 確保資料完整性 | 透過 Airflow 建立定期檢查工作流:缺失率、重複率、離群值 |
| 3. 隱私合規 | 符合法規 | 在資料湖層使用差分隱私,並在共享層僅允許匿名化後的資料 |
| 4. 版權與存取 | 防止非法使用 | 以 RBAC 控制資料集存取權限,並對敏感資料使用加密存儲 |
| 5. 資料價值最大化 | 產出洞察 | 透過 BI 工具(Tableau)連結清洗後的資料集,產生營銷 KPI 報表 |
> **學習重點**:資料治理不是一次性工作,而是 **持續迭代** 的過程。每新增一個資料來源,必須同步更新治理規則與流程。
---
## 2.5 資料治理 Checklist(快速評估表)
| 需求 | 已完成? | 相關文件 | 備註 |
|------|---------|----------|------|
| 資料來源清單 | ☐ | 來源清單.xlsx | 需更新資料庫連結 |
| 資料質量規則 | ☐ | 質量規則.docx | 規則需與資料科學團隊確認 |
| 隱私風險評估 | ☐ | 隱私評估報告.pdf | 依最新法規調整 |
| 監控指標設定 | ☐ | 監控儀表板.yaml | 需實時通知機制 |
| 合規審查紀錄 | ☐ | 審查紀錄.xlsx | 需保留版本歷史 |
> **提示**:每項「已完成?」列應對應具體負責人與完成時間,以利追蹤與審計。
---
## 2.6 小結與思考
1. **資料來源多樣化**:結構化、半結構化、非結構化資料皆需納入治理範圍。
2. **治理框架**:品質、隱私、安全、合規與價值是不可分割的五大面向。
3. **工具選型**:根據資料量、即時需求與雲端環境選擇合適的 ETL、資料流與治理工具。
4. **持續監控**:資料治理是一個循環過程,需定期評估、更新規則與流程。
---
## 2.7 讀者小測
1. 在資料抽取階段,如何處理跨系統的 **時間格式不一致** 問題?
2. 針對一個包含 **個人識別資訊(PII)** 的大資料集,列出兩項常用的隱私保護技術。
---
## 2.8 下一章預告
第三章將深入「數據清洗與特徵工程」,從實務案例說明如何把雜亂的資料轉化為乾淨、可用的數據集,並探討高效的特徵構造與選擇技巧。