返回目錄
A
資料科學在社會創新中的實戰指南 - 第 1 章
章節 1:資料科學基礎:概念、流程與工具
發布於 2026-03-07 15:01
# 章節 1:資料科學基礎:概念、流程與工具
> 本章將帶領讀者快速掌握資料科學的核心定義、關鍵概念,以及常用工具與工作流程。內容既適合新手快速入門,也能作為實務工作者的參考手冊。
---
## 1.1 什麼是資料科學?
| 觀點 | 內容 |
|------|------|
| **定義** | 資料科學(Data Science)是一門跨領域學科,結合統計學、電腦科學與領域知識,以資料為資產進行探索、分析、模型構建與決策支援。
| **核心流程** | 1️⃣ 資料收集與整合<br>2️⃣ 資料清洗與前處理<br>3️⃣ 資料探索與視覺化<br>4️⃣ 特徵工程<br>5️⃣ 模型訓練與驗證<br>6️⃣ 部署與監控<br>7️⃣ 溝通與行動
| **關鍵術語** | - **特徵(Feature)**:可被模型使用的輸入變數<br>- **標籤(Label)**:目標變數(監督式學習)<br>- **過擬合(Overfitting)**:模型在訓練集表現極佳,但在新資料表現差
> **實務提醒**:在任何專案開始前,先確認「問題定義」與「目標指標(KPI)」是否明確。這將影響後續所有決策,亦是評估成功的關鍵。
---
## 1.2 資料科學的關鍵概念
| 概念 | 解析 | 實務範例 |
|------|------|----------|
| **資料治理(Data Governance)** | 建立資料品質、隱私與安全的管理架構。 | 建立企業資料治理委員會,制定 GDPR 合規策略 |
| **可重複性(Reproducibility)** | 能夠用相同程式碼與資料重現結果。 | 使用 Jupyter Notebook 版本控制與 Docker 環境封裝 |
| **可解釋性(Explainability)** | 模型決策過程對人類透明。 | 利用 SHAP 值解釋預測貢獻 |
| **跨領域協作(Interdisciplinary Collaboration)** | 資料科學家與領域專家、工程師、政策制定者共同工作。 | 在教育數據分析專案中,結合教師、學生與統計師共同定義指標 |
---
## 1.3 資料科學常用工具集
| 類別 | 主要工具 | 特色與使用場景 |
|------|----------|----------------|
| **語言** | Python、R | Python 以 pandas、scikit‑learn 為主;R 以 tidyverse、caret 為主 |
| **資料庫** | PostgreSQL、MongoDB、Amazon Redshift | 結構化資料 vs 非結構化資料 |
| **ETL / 資料流水線** | Airflow、Luigi、dbt | 排程、依賴關係管理 |
| **機器學習框架** | scikit‑learn、TensorFlow、PyTorch、LightGBM | 從傳統 ML 到深度學習 |
| **可視化** | matplotlib、seaborn、Plotly、Tableau | 靜態圖表 vs 交互式儀表板 |
| **協作與版本控制** | Git、GitHub、GitLab、DVC | 追蹤程式碼與資料變更 |
| **容器化** | Docker、Kubernetes | 部署環境一致性 |
> **實務技巧**:在專案中,盡量使用「一套語言 + 標準化工作流程」以降低團隊學習成本。例如,Python + scikit‑learn + pandas + Docker + GitHub 形成一個完整的數據科學工作鏈。
---
## 1.4 資料科學整體流程詳解
1. **問題定義**
- 與利益相關者討論,明確商業目標或社會議題。
- 轉換為可量化的問題,例如「預測學生辭職率」或「評估疫苗接種影響」。
2. **資料收集**
- 內部資料:CRM、學校紀錄、感測器。
- 外部資料:開放資料、API、網路抓取。
- 資料合併策略:鍵值對齊、時間序列對齊、去重。
3. **資料清洗與前處理**
- 缺失值處理:刪除、插補(均值/中位數/多重插補)。
- 異常值檢測:箱型圖、z‑score、Isolation Forest。
- 資料轉換:標準化(StandardScaler)、正規化(MinMaxScaler)、離散化。
4. **資料探索(EDA)**
- 描述性統計(均值、變異數、分佈)。
- 視覺化(直方圖、箱形圖、熱力圖)。
- 相關性分析(Pearson、Spearman)。
5. **特徵工程**
- 特徵萃取:從原始資料衍生新特徵。
- 特徵選擇:遞迴特徵消除(RFE)、L1 正則化、樹模型重要性。
- 特徵縮減:PCA、t‑SNE(視覺化)或 UMAP。
6. **模型構建**
- 選擇模型:線性回歸、決策樹、隨機森林、XGBoost、神經網路等。
- 交叉驗證:K‑fold、時間序列 CV。
- 超參數調整:網格搜尋、隨機搜尋、Optuna。
7. **模型評估**
- 指標:MSE、MAE、RMSE、R²(迴歸);AUC‑ROC、精確率、召回率、F1(分類)。
- 可解釋性:Permutation Importance、SHAP、LIME。
8. **部署與監控**
- 轉換為 API(FastAPI、Flask)或批量腳本。
- 部署於雲端(AWS SageMaker、GCP Vertex AI)或企業內部服務。
- 監控:預測漂移、回歸係數變化、資料品質異常。
9. **決策與行動**
- 與決策者協商,提供模型報告、可視化儀表板。
- 建立持續改進迴圈,根據實際結果迭代模型。
---
## 1.5 章節小結
- **資料科學是一條從「問題」到「行動」的全流程**,每一步都需結合技術、領域知識與倫理考量。
- **工具與流程**是落地的基礎,選擇合適的語言、框架、資料庫並建立可重複、可追蹤的工作流,能大幅提升團隊效率。
- **跨領域協作**是成功關鍵,尤其在社會創新領域,專家與資料科學家的對話能將模型結果轉化為具體政策或服務。
> **實務提示**:在正式投入開發前,可先完成一個「最小可行產品(MVP)」原型,快速驗證假設並收集反饋,以降低風險。
---
**參考資料**
- W. S. V. H. Choi & J. H. Park, *Data Science for Social Good*, MIT Press, 2021.
- A. Gelman et al., *The Effectiveness of Data Science in Policy Making*, Nature, 2023.
- J. J. B. T. Huang, *Python Data Science Handbook*, O'Reilly, 2022.