聊天視窗

洞察決策:大數據分析實務手冊 - 第 2 章

第二章 資料蒐集與治理

發布於 2026-02-28 17:59

# 第二章 資料蒐集與治理 本章聚焦於大數據工作流的第一個關鍵環節:如何高效、合規地蒐集資料,並建立可靠的治理框架,確保資料品質與隱私安全。 --- ## 2.1 資料來源分類 | 資料類型 | 典型來源 | 優缺點 | 典型工具 | |----------|----------|--------|----------| | 結構化資料 | SQL 資料庫、ERP 系統、CRM 系統 | 方便查詢、易於驗證 | JDBC、DataGrip、Airflow | | 半結構化資料 | JSON、XML、CSV、NoSQL 資料庫 | 柔性 schema、易於擴充 | Spark、Flink、MongoDB | | 非結構化資料 | 影像、影片、文字、音訊、社群媒體 | 富含資訊、分析成本高 | OpenCV、Tesseract、BERT、AWS Rekognition | > **實務提示**:在大型企業環境中,**資料湖**(Data Lake)常用於整合上述三種資料,並以 **分層存取**(Raw、Clean、Processed)方式管理。這不僅降低了成本,也方便後續的資料治理與追蹤。 --- ## 2.2 數據治理框架 數據治理是確保資料品質、隱私與合規的核心。以下以 **Data Governance Canvas** 為基礎,說明五大面向: 1. **資料品質(Data Quality)** * **準確性**:確定值與實際相符。 * **完整性**:確保關鍵欄位無缺失。 * **一致性**:不同來源資料遵循相同規則。 * **及時性**:資料更新頻率符合業務需求。 2. **資料隱私(Data Privacy)** * 依據 GDPR、CCPA、個資法等法規制定處理原則。 * 採用 **差分隱私** 或 **同態加密** 以保護敏感資訊。 3. **資料安全(Data Security)** * **存取控制**:基於 RBAC 或 ABAC 的權限管理。 * **監控與審計**:持續追蹤資料存取與修改行為。 4. **資料合規(Data Compliance)** * 建立**合規清單**,確保每項資料流程符合法律規範。 * 內部審查週期:季度或半年一次。 5. **資料價值(Data Value)** * 將資料轉化為商業洞察:KPIs、報表、模型訓練。 * 追蹤 ROI:評估資料投入與產出比。 > **治理流程圖**(文字示意) > > 來源 → 資料抽取 → 資料檢核 → 資料清洗 → 資料分類 → 存儲 → 共享 → 分析 → 商業決策 --- ## 2.3 資料蒐集工具與最佳實踐 | 工具 | 主要功能 | 適用場景 | |------|----------|----------| | Apache Airflow | 工作流排程、依賴管理 | ETL、定期資料抽取 | | Apache NiFi | 資料流管理、即時轉換 | 大規模即時資料流 | | Kafka | 分布式訊息系統 | 事件驅動、實時處理 | | AWS Glue / Azure Data Factory | 雲端 ETL | 雲端資料湖建置 | ### 2.3.1 典型 ETL 代码示例 python # 使用 pandas 讀取 CSV,轉換後寫入 Parquet import pandas as pd df = pd.read_csv('raw_data.csv') # 基礎清洗 df = df.drop_duplicates() df['created_at'] = pd.to_datetime(df['created_at']) # 將欄位轉為統一命名規則 df = df.rename(columns={ 'userId': 'user_id', 'OrderAmount': 'order_amount' }) # 儲存為 Parquet df.to_parquet('clean_data.parquet') > **備註**:在大型資料集上,可考慮使用 **PySpark** 以分布式方式處理,示例參見後續章節。 --- ## 2.4 資料治理案例:電商平台 | 步驟 | 目標 | 具體做法 | |------|------|-----------| | 1. 資料映射 | 匯整多個系統資料 | 建立「資料映射表」,定義每個欄位來源、類型與映射規則 | | 2. 資料質量監控 | 確保資料完整性 | 透過 Airflow 建立定期檢查工作流:缺失率、重複率、離群值 | | 3. 隱私合規 | 符合法規 | 在資料湖層使用差分隱私,並在共享層僅允許匿名化後的資料 | | 4. 版權與存取 | 防止非法使用 | 以 RBAC 控制資料集存取權限,並對敏感資料使用加密存儲 | | 5. 資料價值最大化 | 產出洞察 | 透過 BI 工具(Tableau)連結清洗後的資料集,產生營銷 KPI 報表 | > **學習重點**:資料治理不是一次性工作,而是 **持續迭代** 的過程。每新增一個資料來源,必須同步更新治理規則與流程。 --- ## 2.5 資料治理 Checklist(快速評估表) | 需求 | 已完成? | 相關文件 | 備註 | |------|---------|----------|------| | 資料來源清單 | ☐ | 來源清單.xlsx | 需更新資料庫連結 | | 資料質量規則 | ☐ | 質量規則.docx | 規則需與資料科學團隊確認 | | 隱私風險評估 | ☐ | 隱私評估報告.pdf | 依最新法規調整 | | 監控指標設定 | ☐ | 監控儀表板.yaml | 需實時通知機制 | | 合規審查紀錄 | ☐ | 審查紀錄.xlsx | 需保留版本歷史 | > **提示**:每項「已完成?」列應對應具體負責人與完成時間,以利追蹤與審計。 --- ## 2.6 小結與思考 1. **資料來源多樣化**:結構化、半結構化、非結構化資料皆需納入治理範圍。 2. **治理框架**:品質、隱私、安全、合規與價值是不可分割的五大面向。 3. **工具選型**:根據資料量、即時需求與雲端環境選擇合適的 ETL、資料流與治理工具。 4. **持續監控**:資料治理是一個循環過程,需定期評估、更新規則與流程。 --- ## 2.7 讀者小測 1. 在資料抽取階段,如何處理跨系統的 **時間格式不一致** 問題? 2. 針對一個包含 **個人識別資訊(PII)** 的大資料集,列出兩項常用的隱私保護技術。 --- ## 2.8 下一章預告 第三章將深入「數據清洗與特徵工程」,從實務案例說明如何把雜亂的資料轉化為乾淨、可用的數據集,並探討高效的特徵構造與選擇技巧。