第一章：資料科學概論

發布於 2026-03-04 01:09

# 第一章：資料科學概論 > 這一章為讀者奠定資料科學的基礎，從概念到實務，透過真實案例揭示資料科學在現代企業中的關鍵角色。 ## 1.1 資料科學是什麼？資料科學（Data Science）是一門交叉學科，結合統計學、電腦科學與領域知識，透過收集、清洗、分析與模型建立，將龐雜的資料轉化為可執行的洞察。 - **核心任務**： 1. **探索與洞察**：發現資料中的結構與趨勢。 2. **預測與決策**：利用模型預測未來並支援決策。 3. **自動化與部署**：將模型轉為可執行的服務，落實於業務流程。 ## 1.2 為什麼資料科學在今日不可或缺？ | 行業 | 典型需求 | 資料科學價值 | |------|----------|--------------| | 零售 | 客戶購買行為預測 | 提升庫存週轉率、個人化行銷 | | 醫療 | 病歷資料分析 | 改善診斷準確率、預防疾病 | | 金融 | 風險評估 | 減少不良貸款、優化投資組合 | | 製造 | 故障預測 | 降低停機成本、延長設備壽命 | ## 1.3 資料科學工作流程 > 也稱為 **「資料科學生命週期」**，由六大階段構成： 1. **問題定義**：明確業務問題與成功指標。 2. **資料收集**：從內部資料庫、API、爬蟲或第三方取得資料。 3. **資料清洗與預處理**：處理缺失值、異常值、類型轉換。 4. **探索性資料分析 (EDA)**：視覺化、統計檢驗、特徵工程。 5. **模型建構與評估**：選擇算法、交叉驗證、性能指標。 6. **部署與監控**：將模型上線、建立監控機制，確保持續效能。 > **實際案例**：某線上購物平台欲預測顧客購買意願。首先定義 KPI 為「購買轉換率」；接著從交易紀錄、瀏覽行為、社群互動中抽取資料；使用 Pandas 進行資料清洗；利用 seaborn 畫出熱力圖；以 RandomForest 進行模型訓練；最後將模型封裝為 Flask API，整合至網站推薦系統。整個流程耗時約 3 週，顧客購買率提升 12%。 ## 1.4 資料科學者必備素質 | 素質 | 重要性 | 具體表現 | |------|--------|-----------| | **好奇心** | 85% | 持續提問、探索未知模式 | | **邏輯思維** | 80% | 建模前做假設、驗證假設 | | **跨領域知識** | 75% | 理解行業背景、數據含義 | | **程式能力** | 70% | 熟悉 Python、R、SQL | | **溝通協調** | 65% | 能將分析結果傳達給非技術人員 | ## 1.5 本章小結 - 資料科學是將龐大資料轉化為洞察與預測的學問。 - 工作流程清晰、可重複，適合在企業中快速迭代。 - 從業務需求出發，結合技術手段，才能真正創造價值。 > **思考題**：請挑選你所在行業的一個痛點，草擬一個資料科學解決方案的大綱，包含問題定義、預期 KPI 及可能採用的模型。

第二章：模型評估與驗證—從指標到洞察