第二章資料蒐集與治理

發布於 2026-02-28 17:59

# 第二章資料蒐集與治理本章聚焦於大數據工作流的第一個關鍵環節：如何高效、合規地蒐集資料，並建立可靠的治理框架，確保資料品質與隱私安全。 --- ## 2.1 資料來源分類 | 資料類型 | 典型來源 | 優缺點 | 典型工具 | |----------|----------|--------|----------| | 結構化資料 | SQL 資料庫、ERP 系統、CRM 系統 | 方便查詢、易於驗證 | JDBC、DataGrip、Airflow | | 半結構化資料 | JSON、XML、CSV、NoSQL 資料庫 | 柔性 schema、易於擴充 | Spark、Flink、MongoDB | | 非結構化資料 | 影像、影片、文字、音訊、社群媒體 | 富含資訊、分析成本高 | OpenCV、Tesseract、BERT、AWS Rekognition | > **實務提示**：在大型企業環境中，**資料湖**（Data Lake）常用於整合上述三種資料，並以 **分層存取**（Raw、Clean、Processed）方式管理。這不僅降低了成本，也方便後續的資料治理與追蹤。 --- ## 2.2 數據治理框架數據治理是確保資料品質、隱私與合規的核心。以下以 **Data Governance Canvas** 為基礎，說明五大面向： 1. **資料品質（Data Quality）** * **準確性**：確定值與實際相符。 * **完整性**：確保關鍵欄位無缺失。 * **一致性**：不同來源資料遵循相同規則。 * **及時性**：資料更新頻率符合業務需求。 2. **資料隱私（Data Privacy）** * 依據 GDPR、CCPA、個資法等法規制定處理原則。 * 採用 **差分隱私** 或 **同態加密** 以保護敏感資訊。 3. **資料安全（Data Security）** * **存取控制**：基於 RBAC 或 ABAC 的權限管理。 * **監控與審計**：持續追蹤資料存取與修改行為。 4. **資料合規（Data Compliance）** * 建立**合規清單**，確保每項資料流程符合法律規範。 * 內部審查週期：季度或半年一次。 5. **資料價值（Data Value）** * 將資料轉化為商業洞察：KPIs、報表、模型訓練。 * 追蹤 ROI：評估資料投入與產出比。 > **治理流程圖**（文字示意） > > 來源 → 資料抽取 → 資料檢核 → 資料清洗 → 資料分類 → 存儲 → 共享 → 分析 → 商業決策 --- ## 2.3 資料蒐集工具與最佳實踐 | 工具 | 主要功能 | 適用場景 | |------|----------|----------| | Apache Airflow | 工作流排程、依賴管理 | ETL、定期資料抽取 | | Apache NiFi | 資料流管理、即時轉換 | 大規模即時資料流 | | Kafka | 分布式訊息系統 | 事件驅動、實時處理 | | AWS Glue / Azure Data Factory | 雲端 ETL | 雲端資料湖建置 | ### 2.3.1 典型 ETL 代码示例 python # 使用 pandas 讀取 CSV，轉換後寫入 Parquet import pandas as pd df = pd.read_csv('raw_data.csv') # 基礎清洗 df = df.drop_duplicates() df['created_at'] = pd.to_datetime(df['created_at']) # 將欄位轉為統一命名規則 df = df.rename(columns={ 'userId': 'user_id', 'OrderAmount': 'order_amount' }) # 儲存為 Parquet df.to_parquet('clean_data.parquet') > **備註**：在大型資料集上，可考慮使用 **PySpark** 以分布式方式處理，示例參見後續章節。 --- ## 2.4 資料治理案例：電商平台 | 步驟 | 目標 | 具體做法 | |------|------|-----------| | 1. 資料映射 | 匯整多個系統資料 | 建立「資料映射表」，定義每個欄位來源、類型與映射規則 | | 2. 資料質量監控 | 確保資料完整性 | 透過 Airflow 建立定期檢查工作流：缺失率、重複率、離群值 | | 3. 隱私合規 | 符合法規 | 在資料湖層使用差分隱私，並在共享層僅允許匿名化後的資料 | | 4. 版權與存取 | 防止非法使用 | 以 RBAC 控制資料集存取權限，並對敏感資料使用加密存儲 | | 5. 資料價值最大化 | 產出洞察 | 透過 BI 工具（Tableau）連結清洗後的資料集，產生營銷 KPI 報表 | > **學習重點**：資料治理不是一次性工作，而是 **持續迭代** 的過程。每新增一個資料來源，必須同步更新治理規則與流程。 --- ## 2.5 資料治理 Checklist（快速評估表） | 需求 | 已完成？ | 相關文件 | 備註 | |------|---------|----------|------| | 資料來源清單 | ☐ | 來源清單.xlsx | 需更新資料庫連結 | | 資料質量規則 | ☐ | 質量規則.docx | 規則需與資料科學團隊確認 | | 隱私風險評估 | ☐ | 隱私評估報告.pdf | 依最新法規調整 | | 監控指標設定 | ☐ | 監控儀表板.yaml | 需實時通知機制 | | 合規審查紀錄 | ☐ | 審查紀錄.xlsx | 需保留版本歷史 | > **提示**：每項「已完成？」列應對應具體負責人與完成時間，以利追蹤與審計。 --- ## 2.6 小結與思考 1. **資料來源多樣化**：結構化、半結構化、非結構化資料皆需納入治理範圍。 2. **治理框架**：品質、隱私、安全、合規與價值是不可分割的五大面向。 3. **工具選型**：根據資料量、即時需求與雲端環境選擇合適的 ETL、資料流與治理工具。 4. **持續監控**：資料治理是一個循環過程，需定期評估、更新規則與流程。 --- ## 2.7 讀者小測 1. 在資料抽取階段，如何處理跨系統的 **時間格式不一致** 問題？ 2. 針對一個包含 **個人識別資訊（PII）** 的大資料集，列出兩項常用的隱私保護技術。 --- ## 2.8 下一章預告第三章將深入「數據清洗與特徵工程」，從實務案例說明如何把雜亂的資料轉化為乾淨、可用的數據集，並探討高效的特徵構造與選擇技巧。

第一章：數據之光——從蒐集到洞察

第三章：數據清洗與特徵工程

聊天視窗

第二章 資料蒐集與治理

第二章資料蒐集與治理