聊天視窗

資料科學實戰:從數據到洞察 - 第 1 章

第1章 資料科學的基礎概念

發布於 2026-02-27 04:26

# 第1章 資料科學的基礎概念 ## 1.1 何謂資料科學? 資料科學(Data Science)是一門跨領域學科,結合統計、計算機科學、領域知識與數據處理技術,以「資料」為核心資產,從資料中發掘隱藏的資訊、建立模型、預測未來並支援決策。 > **核心三大支柱** > 1. **數據**:結構化、半結構化或非結構化資訊來源。 > 2. **方法**:統計分析、機器學習、深度學習、可視化等。 > 3. **目標**:提供洞察、預測或自動化決策,促進業務價值。 ## 1.2 歷史脈絡 | 時代 | 重要里程碑 | 關鍵概念 | |------|-------------|-----------| | 1940‑s | 期望值概念 | 統計學基礎 | | 1960‑s | 隨機過程 | 時間序列 | | 1980‑s | 迴歸分析 | 監督式學習 | | 1990‑s | 隨機森林、支持向量機 | 基於模型的學習 | | 2000‑s | 大資料(Big Data) | 分散式處理(Hadoop, Spark) | | 2010‑s | 深度學習爆發 | 卷積網路、循環網路 | | 2020‑s | MLOps、資料治理 | 端到端管線與合規 | 從統計學的「描述」與「推論」,到機器學習的「預測」與「自動化」,再到現在整合資料治理與雲端部署,資料科學不斷擴張其職能範疇。 ## 1.3 資料科學與傳統統計、機器學習的關係 | 分類 | 主要目標 | 核心工具 | |------|----------|----------| | **統計學** | 描述、推斷 | t‑檢定、ANOVA、線性回歸 | | **機器學習** | 預測、分類 | SVM、決策樹、聚類 | | **資料科學** | 資料蒐集、處理、模型、洞察 | Pandas、Scikit‑Learn、Spark、TensorFlow | 資料科學是一個整合層次,它在統計與機器學習之間搭建橋樑: 1. **資料前處理**:統計工具提供資料探索與清洗基礎。 2. **模型開發**:機器學習演算法提供預測能力。 3. **商業應用**:資料科學將模型與業務流程相結合,產生可操作的洞察。 ## 1.4 資料科學的職能範疇 | 職能 | 主要工作 | |------|-----------| | **資料工程師** | 資料管線、ETL、資料庫管理 | | **資料分析師** | 資料探索、報告製作、洞察傳遞 | | **機器學習工程師** | 模型開發、驗證、部署 | | **商業分析師** | 需求定義、商業洞察、決策支援 | | **數據治理專家** | 資料品質、隱私合規、倫理審查 | 在金融、行銷、科研等領域,這些角色常常交錯重疊,形成多元的「資料科學團隊」。 ## 1.5 實務案例:金融風控 1. **資料蒐集**:客戶交易記錄、信用報告、社交媒體行為。 2. **資料清洗**:缺失值處理、異常偵測、資料標準化。 3. **探索性分析**:查看信用分數分布、交易金額與違約率關聯。 4. **特徵工程**:衍生「交易頻率」「付款遲延天數」等指標。 5. **模型訓練**:使用隨機森林預測違約機率。 6. **部署**:將模型整合至風控系統,實時決策。 這一流程完整展示了資料科學的價值鏈:從「資料」到「洞察」再到「決策」。 ## 1.6 讀者收穫 - 清晰掌握資料科學的定義與發展脈絡。 - 理解資料科學、統計學與機器學習之間的關聯。 - 建立對資料科學職能與實務流程的整體認知。 - 為後續章節(資料採集、清洗、EDA、特徵工程等)打下堅實基礎。 --- > **小貼士**:資料科學不只是技術,更是「解決問題」的思維模式。每一步都要以業務問題為導向,確保技術投入帶來實際商業價值。