第1章資料科學概論

發布於 2026-03-03 00:41

# 第1章資料科學概論資料科學（Data Science）是結合統計、機器學習、資料工程與業務洞察的跨學科領域，旨在從龐大而複雜的資料中提煉價值，協助組織做出更精準的決策。 ## 1.1 歷史沿革 | 時期 | 重要事件 | 技術/方法 | 典型應用 | |------|----------|-----------|----------| | 1960s‑70s | 統計學與資料庫學的萌芽 | 機率論、統計分析、關聯式資料庫 | 銀行風險評估、製造流程監控 | | 1990s | 資料挖掘（Data Mining）興起 | 聚類、決策樹、關聯規則 | 市場籌碼分析、產品推薦 | | 2000s | 大資料（Big Data）與雲端運算 | MapReduce、Hadoop、Spark | 物流優化、網路行為分析 | | 2010s | 機器學習與深度學習主流化 | 支援向量機、隨機森林、CNN、RNN | 影像辨識、語音識別、自然語言處理 | | 2020s | AutoML、聯邦學習、量子資料科學 | AutoML 平台、Federated Learning、量子機器學習 | 企業自動化模型訓練、隱私保護、超高速計算 | > **小結**：從統計分析到機器學習，再到深度學習，資料科學的演進不斷推動企業能以更快、更準確的方式挖掘資料背後的商業價值。 ## 1.2 範疇與關鍵組成 1. **資料工程（Data Engineering）**：資料抽取、轉換、載入（ETL）、資料清洗、資料倉儲、流資料處理。 2. **資料分析（Data Analysis）**：描述性統計、探索性資料分析（EDA）、假設檢定、因果推論。 3. **機器學習 / AI**：監督學習、非監督學習、強化學習、深度學習。 4. **資料視覺化**：儀表板、報告、交互式視覺化。 5. **部署與運維**：模型服務化、容器化、A/B 測試、漂移偵測。 6. **倫理與合規**：隱私保護、資料安全、偏差與公平性。 ## 1.3 典型工作流程 mermaid flowchart TD A[需求定義] --> B[資料收集] B --> C[資料清理 & 前處理] C --> D[探索性資料分析] D --> E[特徵工程] E --> F[模型選擇 & 訓練] F --> G[模型評估 & 調參] G --> H[模型部署] H --> I[監控 & 運維] I --> J[業務回饋] > **實務提示**：每一步都不應該被視為獨立的任務，而是形成一個迴圈。當業務需求或資料特性改變時，往往需要回到早期的步驟重新調整。 ## 1.4 為何資料驅動決策是競爭優勢 | 領域 | 資料驅動決策帶來的實際效益 | |------|----------------------------| | 銀行 | 風險模型精準化 → 信貸寬限度降低 20% | | 零售 | 庫存預測準確率提升 15% → 成本降低 12% | | 製造 | 故障預測準確率提升 30% → 維修成本降低 25% | | 醫療 | 病例診斷輔助提高 10% → 患者治療成功率提升 | > **案例**：某大型電商利用購物車資料與瀏覽行為建立個性化推薦系統，平均每位使用者每月提升購買金額 18%。 ## 1.5 読者收穫 1. **掌握資料科學的歷史脈絡**，能從宏觀角度理解各階段技術的演進。 2. **了解資料科學的全域範疇**，明確哪些技能是核心，哪些是輔助。 3. **掌握典型工作流程**，為後續章節的實作打下基礎。 4. **體會資料驅動決策的實際價值**，提升對資料科學項目投資的信心。 --- > **補充閱讀**： > - *《Data Science for Business》* (Provost & Fawcett) > - *《Python for Data Analysis》* (McKinney) > - *《Deep Learning》* (Goodfellow, Bengio, Courville)

第二章：資料探索與清理—從原始資料到乾淨洞察

聊天視窗

第1章 資料科學概論

第1章資料科學概論