章節 1：資料科學基礎：概念、流程與工具

發布於 2026-03-07 15:01

# 章節 1：資料科學基礎：概念、流程與工具 > 本章將帶領讀者快速掌握資料科學的核心定義、關鍵概念，以及常用工具與工作流程。內容既適合新手快速入門，也能作為實務工作者的參考手冊。 --- ## 1.1 什麼是資料科學？ | 觀點 | 內容 | |------|------| | **定義** | 資料科學（Data Science）是一門跨領域學科，結合統計學、電腦科學與領域知識，以資料為資產進行探索、分析、模型構建與決策支援。 | **核心流程** | 1️⃣ 資料收集與整合 2️⃣ 資料清洗與前處理 3️⃣ 資料探索與視覺化 4️⃣ 特徵工程 5️⃣ 模型訓練與驗證 6️⃣ 部署與監控 7️⃣ 溝通與行動 | **關鍵術語** | - **特徵（Feature）**：可被模型使用的輸入變數 - **標籤（Label）**：目標變數（監督式學習） - **過擬合（Overfitting）**：模型在訓練集表現極佳，但在新資料表現差 > **實務提醒**：在任何專案開始前，先確認「問題定義」與「目標指標（KPI）」是否明確。這將影響後續所有決策，亦是評估成功的關鍵。 --- ## 1.2 資料科學的關鍵概念 | 概念 | 解析 | 實務範例 | |------|------|----------| | **資料治理（Data Governance）** | 建立資料品質、隱私與安全的管理架構。 | 建立企業資料治理委員會，制定 GDPR 合規策略 | | **可重複性（Reproducibility）** | 能夠用相同程式碼與資料重現結果。 | 使用 Jupyter Notebook 版本控制與 Docker 環境封裝 | | **可解釋性（Explainability）** | 模型決策過程對人類透明。 | 利用 SHAP 值解釋預測貢獻 | | **跨領域協作（Interdisciplinary Collaboration）** | 資料科學家與領域專家、工程師、政策制定者共同工作。 | 在教育數據分析專案中，結合教師、學生與統計師共同定義指標 | --- ## 1.3 資料科學常用工具集 | 類別 | 主要工具 | 特色與使用場景 | |------|----------|----------------| | **語言** | Python、R | Python 以 pandas、scikit‑learn 為主；R 以 tidyverse、caret 為主 | | **資料庫** | PostgreSQL、MongoDB、Amazon Redshift | 結構化資料 vs 非結構化資料 | | **ETL / 資料流水線** | Airflow、Luigi、dbt | 排程、依賴關係管理 | | **機器學習框架** | scikit‑learn、TensorFlow、PyTorch、LightGBM | 從傳統 ML 到深度學習 | | **可視化** | matplotlib、seaborn、Plotly、Tableau | 靜態圖表 vs 交互式儀表板 | | **協作與版本控制** | Git、GitHub、GitLab、DVC | 追蹤程式碼與資料變更 | | **容器化** | Docker、Kubernetes | 部署環境一致性 | > **實務技巧**：在專案中，盡量使用「一套語言 + 標準化工作流程」以降低團隊學習成本。例如，Python + scikit‑learn + pandas + Docker + GitHub 形成一個完整的數據科學工作鏈。 --- ## 1.4 資料科學整體流程詳解 1. **問題定義** - 與利益相關者討論，明確商業目標或社會議題。 - 轉換為可量化的問題，例如「預測學生辭職率」或「評估疫苗接種影響」。 2. **資料收集** - 內部資料：CRM、學校紀錄、感測器。 - 外部資料：開放資料、API、網路抓取。 - 資料合併策略：鍵值對齊、時間序列對齊、去重。 3. **資料清洗與前處理** - 缺失值處理：刪除、插補（均值/中位數/多重插補）。 - 異常值檢測：箱型圖、z‑score、Isolation Forest。 - 資料轉換：標準化（StandardScaler）、正規化（MinMaxScaler）、離散化。 4. **資料探索（EDA）** - 描述性統計（均值、變異數、分佈）。 - 視覺化（直方圖、箱形圖、熱力圖）。 - 相關性分析（Pearson、Spearman）。 5. **特徵工程** - 特徵萃取：從原始資料衍生新特徵。 - 特徵選擇：遞迴特徵消除（RFE）、L1 正則化、樹模型重要性。 - 特徵縮減：PCA、t‑SNE（視覺化）或 UMAP。 6. **模型構建** - 選擇模型：線性回歸、決策樹、隨機森林、XGBoost、神經網路等。 - 交叉驗證：K‑fold、時間序列 CV。 - 超參數調整：網格搜尋、隨機搜尋、Optuna。 7. **模型評估** - 指標：MSE、MAE、RMSE、R²（迴歸）；AUC‑ROC、精確率、召回率、F1（分類）。 - 可解釋性：Permutation Importance、SHAP、LIME。 8. **部署與監控** - 轉換為 API（FastAPI、Flask）或批量腳本。 - 部署於雲端（AWS SageMaker、GCP Vertex AI）或企業內部服務。 - 監控：預測漂移、回歸係數變化、資料品質異常。 9. **決策與行動** - 與決策者協商，提供模型報告、可視化儀表板。 - 建立持續改進迴圈，根據實際結果迭代模型。 --- ## 1.5 章節小結 - **資料科學是一條從「問題」到「行動」的全流程**，每一步都需結合技術、領域知識與倫理考量。 - **工具與流程**是落地的基礎，選擇合適的語言、框架、資料庫並建立可重複、可追蹤的工作流，能大幅提升團隊效率。 - **跨領域協作**是成功關鍵，尤其在社會創新領域，專家與資料科學家的對話能將模型結果轉化為具體政策或服務。 > **實務提示**：在正式投入開發前，可先完成一個「最小可行產品（MVP）」原型，快速驗證假設並收集反饋，以降低風險。 --- **參考資料** - W. S. V. H. Choi & J. H. Park, *Data Science for Social Good*, MIT Press, 2021. - A. Gelman et al., *The Effectiveness of Data Science in Policy Making*, Nature, 2023. - J. J. B. T. Huang, *Python Data Science Handbook*, O'Reilly, 2022.

第二章：資料科學實務流程——從問題定義到行動落地