第1章資料科學的基礎概念

發布於 2026-02-27 04:26

# 第1章資料科學的基礎概念 ## 1.1 何謂資料科學？資料科學（Data Science）是一門跨領域學科，結合統計、計算機科學、領域知識與數據處理技術，以「資料」為核心資產，從資料中發掘隱藏的資訊、建立模型、預測未來並支援決策。 > **核心三大支柱** > 1. **數據**：結構化、半結構化或非結構化資訊來源。 > 2. **方法**：統計分析、機器學習、深度學習、可視化等。 > 3. **目標**：提供洞察、預測或自動化決策，促進業務價值。 ## 1.2 歷史脈絡 | 時代 | 重要里程碑 | 關鍵概念 | |------|-------------|-----------| | 1940‑s | 期望值概念 | 統計學基礎 | | 1960‑s | 隨機過程 | 時間序列 | | 1980‑s | 迴歸分析 | 監督式學習 | | 1990‑s | 隨機森林、支持向量機 | 基於模型的學習 | | 2000‑s | 大資料（Big Data） | 分散式處理（Hadoop, Spark） | | 2010‑s | 深度學習爆發 | 卷積網路、循環網路 | | 2020‑s | MLOps、資料治理 | 端到端管線與合規 | 從統計學的「描述」與「推論」，到機器學習的「預測」與「自動化」，再到現在整合資料治理與雲端部署，資料科學不斷擴張其職能範疇。 ## 1.3 資料科學與傳統統計、機器學習的關係 | 分類 | 主要目標 | 核心工具 | |------|----------|----------| | **統計學** | 描述、推斷 | t‑檢定、ANOVA、線性回歸 | | **機器學習** | 預測、分類 | SVM、決策樹、聚類 | | **資料科學** | 資料蒐集、處理、模型、洞察 | Pandas、Scikit‑Learn、Spark、TensorFlow | 資料科學是一個整合層次，它在統計與機器學習之間搭建橋樑： 1. **資料前處理**：統計工具提供資料探索與清洗基礎。 2. **模型開發**：機器學習演算法提供預測能力。 3. **商業應用**：資料科學將模型與業務流程相結合，產生可操作的洞察。 ## 1.4 資料科學的職能範疇 | 職能 | 主要工作 | |------|-----------| | **資料工程師** | 資料管線、ETL、資料庫管理 | | **資料分析師** | 資料探索、報告製作、洞察傳遞 | | **機器學習工程師** | 模型開發、驗證、部署 | | **商業分析師** | 需求定義、商業洞察、決策支援 | | **數據治理專家** | 資料品質、隱私合規、倫理審查 | 在金融、行銷、科研等領域，這些角色常常交錯重疊，形成多元的「資料科學團隊」。 ## 1.5 實務案例：金融風控 1. **資料蒐集**：客戶交易記錄、信用報告、社交媒體行為。 2. **資料清洗**：缺失值處理、異常偵測、資料標準化。 3. **探索性分析**：查看信用分數分布、交易金額與違約率關聯。 4. **特徵工程**：衍生「交易頻率」「付款遲延天數」等指標。 5. **模型訓練**：使用隨機森林預測違約機率。 6. **部署**：將模型整合至風控系統，實時決策。這一流程完整展示了資料科學的價值鏈：從「資料」到「洞察」再到「決策」。 ## 1.6 讀者收穫 - 清晰掌握資料科學的定義與發展脈絡。 - 理解資料科學、統計學與機器學習之間的關聯。 - 建立對資料科學職能與實務流程的整體認知。 - 為後續章節（資料採集、清洗、EDA、特徵工程等）打下堅實基礎。 --- > **小貼士**：資料科學不只是技術，更是「解決問題」的思維模式。每一步都要以業務問題為導向，確保技術投入帶來實際商業價值。

第2章數據採集與清洗

聊天視窗

第1章 資料科學的基礎概念

第1章資料科學的基礎概念