第2章：資料蒐集與治理的藝術

發布於 2026-02-28 13:28

# 第2章：資料蒐集與治理的藝術 ## 2.1 資料的起點：從需求到來源資料科學的旅程，始於一個明確的「為什麼」。就像農夫先決定要種哪種作物，資料團隊必須先明白業務問題。 | 步驟 | 目的 | 典型問題 | 產出物 | |------|------|----------|--------| | 需求定義 | 讓業務與技術團隊對目標達成共識 | 目標模糊、指標不一致 | 需求文件、KPI列表 | | 資料來源圖 | 可視化可用資料的分佈 | 資料孤島、重複資料 | 資料來源地圖、關聯圖 | | 資料可行性評估 | 估算資料的質量、可用性 | 缺失、噪音 | 可行性報告、風險清單 | > **案例**：某線上零售商想提升「推薦精準度」。他們先召集產品經理、行銷團隊與資料科學家，確定 KPI 為「平均客單價提升 10%」。接著列舉可用資料：使用者瀏覽歷史、購買紀錄、評價、社群媒體情緒。 ## 2.2 來源多元，質量千差萬別資料來源可分為**內部**與**外部**： - **內部**：交易系統、CRM、行為追蹤。 - **外部**：公開資料集、第三方 API、社群媒體。 ### 資料質量四大維度 1. **完整性**：缺失值比例 2. **一致性**：多源資料對照 3. **準確性**：實際值 vs 觀測值 4. **時效性**：資料更新頻率 > **技巧**：使用「資料健康檢查」工具，例如 Great Expectations 或 Deequ，定期自動驗證上述維度。 ## 2.3 依法治理：隱私、合規與倫理隨著資料量激增，合規成了硬硬的門檻。以下為實務操作流程： 1. **資料最小化**：只蒐集達成目標所需的欄位。 2. **匿名化 / 偽匿名化**：使用 K‑anonymity、Differential Privacy 等技術。 3. **資料存取權限**：基於角色的存取控制 (RBAC)。 4. **資料生命周期管理**：制定保留期、銷毀流程。 > **實例**：某銀行在構建風險評分模型時，將客戶身份資料匿名化，僅保留交易特徵，並在模型更新後即時刪除歷史資料，確保符合 GDPR 要求。 ## 2.4 建立 ETL／ELT 流程：從「拉」到「推」 ### 2.4.1 典型工作流程 ```mermaid graph TD A[來源系統] -->|拉取| B[Staging] B -->|清洗| C[Data Lake] C -->|轉換| D[Data Warehouse] D -->|分析| E[BI Dashboard] ``` - **Staging**：資料以原始形態存放，便於追溯。 - **Data Lake**：結構化、半結構化資料皆可。 - **Data Warehouse**：適合 OLAP 查詢。 ### 2.4.2 工具選擇 | 類型 | 代表工具 | 特色 | |------|----------|------| | 數據管道 | Apache Airflow, Prefect | 可視化工作流，排程易於維護 | | 數據建模 | dbt | 以 SQL 為主的轉換，版本控制友好 | | 雲端倉儲 | Snowflake, BigQuery | 自動擴充，零管理 | > **示範**：以下為一段 Airflow DAG，定時將日誌資料拉入 Staging。 ```python from airflow import DAG from airflow.operators.bash import BashOperator from datetime import datetime with DAG('daily_log_ingest', start_date=datetime(2023,1,1), schedule_interval='@daily') as dag: t1 = BashOperator( task_id='fetch_logs', bash_command='aws s3 cp s3://bucket/logs/$(date +\"%Y-%m-%d\").json ./staging/' ) t2 = BashOperator( task_id='load_to_lake', bash_command='aws glue start-job-run --job-name LogIngestJob' ) t1 >> t2 ``` ## 2.5 資料治理大綱：從「資料血統」到「資料品質」 | 角色 | 責任 | |------|------| | 資料負責人 (Data Steward) | 定義資料標準、維持資料品質 | | 資料架構師 (Data Architect) | 設計資料模型、確保可擴充 | | 資料科學家 | 依據業務需求，選取合適資料 | | 法務合規 | 驗證資料收集、使用符合規範 | ### 資料血統追蹤（Data Lineage） - **定義**：資料從來源到最終使用者的完整旅程。 - **工具**：Alation, Collibra, Amundsen。 - **效益**：故障排除、合規審計、資料治理透明度。 ## 2.6 小結與實踐建議 1. **需求為王**：始終以業務問題為導向，避免「資料收集就是收集」的心態。 2. **質量先行**：資料質量檢查應嵌入管道，而非事後修復。 3. **治理先於分析**：制定合規框架、資料治理流程，才能在後續建模中安心。 4. **工具是助力者**：選擇符合團隊能力、業務需求的工具，切勿盲目追求「最新」技術。 > **提示**：在實務中，往往是「資料可用」和「資料合規」之間的平衡。建議先建立「資料合規基準」，再根據業務價值進行「資料價值評估」。 --- > **小測驗**： > 1. 你已經為資料治理建立了資料血統追蹤機制嗎？ > 2. 你是否在每個 ETL 步驟加入了質量驗證？ > 3. 你的資料團隊是否持續更新合規政策？ > > **答案**：如果任何一項未達標，請在本章落實上述建議，為後續建模奠定堅實基礎。

第一章：從零開始的數據驅動思維

3. 監督式模型建構