返回目錄
A
資料科學實戰:從數據到洞察 - 第 1 章
第1章 資料科學的基礎概念
發布於 2026-02-27 04:26
# 第1章 資料科學的基礎概念
## 1.1 何謂資料科學?
資料科學(Data Science)是一門跨領域學科,結合統計、計算機科學、領域知識與數據處理技術,以「資料」為核心資產,從資料中發掘隱藏的資訊、建立模型、預測未來並支援決策。
> **核心三大支柱**
> 1. **數據**:結構化、半結構化或非結構化資訊來源。
> 2. **方法**:統計分析、機器學習、深度學習、可視化等。
> 3. **目標**:提供洞察、預測或自動化決策,促進業務價值。
## 1.2 歷史脈絡
| 時代 | 重要里程碑 | 關鍵概念 |
|------|-------------|-----------|
| 1940‑s | 期望值概念 | 統計學基礎 |
| 1960‑s | 隨機過程 | 時間序列 |
| 1980‑s | 迴歸分析 | 監督式學習 |
| 1990‑s | 隨機森林、支持向量機 | 基於模型的學習 |
| 2000‑s | 大資料(Big Data) | 分散式處理(Hadoop, Spark) |
| 2010‑s | 深度學習爆發 | 卷積網路、循環網路 |
| 2020‑s | MLOps、資料治理 | 端到端管線與合規 |
從統計學的「描述」與「推論」,到機器學習的「預測」與「自動化」,再到現在整合資料治理與雲端部署,資料科學不斷擴張其職能範疇。
## 1.3 資料科學與傳統統計、機器學習的關係
| 分類 | 主要目標 | 核心工具 |
|------|----------|----------|
| **統計學** | 描述、推斷 | t‑檢定、ANOVA、線性回歸 |
| **機器學習** | 預測、分類 | SVM、決策樹、聚類 |
| **資料科學** | 資料蒐集、處理、模型、洞察 | Pandas、Scikit‑Learn、Spark、TensorFlow |
資料科學是一個整合層次,它在統計與機器學習之間搭建橋樑:
1. **資料前處理**:統計工具提供資料探索與清洗基礎。
2. **模型開發**:機器學習演算法提供預測能力。
3. **商業應用**:資料科學將模型與業務流程相結合,產生可操作的洞察。
## 1.4 資料科學的職能範疇
| 職能 | 主要工作 |
|------|-----------|
| **資料工程師** | 資料管線、ETL、資料庫管理 |
| **資料分析師** | 資料探索、報告製作、洞察傳遞 |
| **機器學習工程師** | 模型開發、驗證、部署 |
| **商業分析師** | 需求定義、商業洞察、決策支援 |
| **數據治理專家** | 資料品質、隱私合規、倫理審查 |
在金融、行銷、科研等領域,這些角色常常交錯重疊,形成多元的「資料科學團隊」。
## 1.5 實務案例:金融風控
1. **資料蒐集**:客戶交易記錄、信用報告、社交媒體行為。
2. **資料清洗**:缺失值處理、異常偵測、資料標準化。
3. **探索性分析**:查看信用分數分布、交易金額與違約率關聯。
4. **特徵工程**:衍生「交易頻率」「付款遲延天數」等指標。
5. **模型訓練**:使用隨機森林預測違約機率。
6. **部署**:將模型整合至風控系統,實時決策。
這一流程完整展示了資料科學的價值鏈:從「資料」到「洞察」再到「決策」。
## 1.6 讀者收穫
- 清晰掌握資料科學的定義與發展脈絡。
- 理解資料科學、統計學與機器學習之間的關聯。
- 建立對資料科學職能與實務流程的整體認知。
- 為後續章節(資料採集、清洗、EDA、特徵工程等)打下堅實基礎。
---
> **小貼士**:資料科學不只是技術,更是「解決問題」的思維模式。每一步都要以業務問題為導向,確保技術投入帶來實際商業價值。