第一章：數據科學的脈絡與實務起點

發布於 2026-03-05 21:52

# 第一章：數據科學的脈絡與實務起點 > 在這個資訊爆炸的時代，數據已成為企業與社會決策的關鍵資產。掌握從原始數據到決策智慧的完整流程，便能將零散資訊轉化為具體可行的洞見。 ## 1.1 數據科學的歷史沿革 | 時期 | 代表性技術 | 重要里程碑 | |------|------------|-------------| | 1940‑1960 | 早期統計 | **統計學** 的奠基：卡方檢定、回歸分析 | | 1970‑1990 | 資料倉儲 | **OLAP** 與 **ETL** 的出現，企業資料整合起步 | | 2000‑2010 | 機器學習 | **決策樹**、**支援向量機**、**隨機森林** 走進商業應用 | | 2010‑至今 | 大數據 & 雲端 | **Hadoop**、**Spark**、**TensorFlow**，數據即服務（Data as a Service）成為趨勢 | > 這些技術雖各具特色，但共同的核心始終是：**把數據轉換成知識**。 ## 1.2 數據科學的四大流程 1. **資料收集**：確定問題、設計資料管道、確保資料質量。 2. **資料清洗**：缺失值處理、異常檢測、資料整合。 3. **資料探索與特徵工程**：統計描述、可視化、變數選擇。 4. **建模與評估**：選擇演算法、調參、驗證。 5. **部署與監控**：將模型轉換為服務、持續監控效能、回饋迴圈。 > 這五步像一條流水線，缺一不可；缺失某一步就可能讓整個流程失靈。 ## 1.3 案例：零售商的顧客行為分析 ### 1.3.1 背景某連鎖服飾品牌擁有 500 家門店，年營業額逾 5 億美元。管理團隊想知道：**哪些顧客最有價值？** ### 1.3.2 資料來源 | 資料類型 | 來源 | 主要欄位 | |----------|------|----------| | 交易紀錄 | POS 系統 | 顧客 ID、商品編號、售價、時間 | | 會員檔案 | CRM | 顧客 ID、年齡、性別、註冊日期 | | 網路行為 | 內部網站 | 顧客 ID、瀏覽頁面、停留時間 | ### 1.3.3 資料清洗 - **缺失值**：交易紀錄中缺少商品編號，利用「最近一次交易」補值。 - **異常值**：售價高於 10,000 元的紀錄，被判定為錄入錯誤，直接刪除。 - **資料整合**：使用顧客 ID 將三種資料合併，形成「完整顧客行為資料集」。 ### 1.3.4 特徵工程 - **重複購買率**：計算每個顧客在一年內重複購買的次數。 - **客單價**：平均每筆交易金額。 - **網路互動指標**：瀏覽頁面數 × 停留時間。 ### 1.3.5 模型選擇 - **聚類分析**（K‑means）：將顧客分成 5 群，針對「高價值顧客」做進一步分析。 - **決策樹**：判斷哪些特徵對顧客價值影響最大。 ### 1.3.6 成果應用 - **行銷策略**：針對「高價值顧客」推送個性化優惠，提升平均客單價 12%。 - **門店配置**：在高聚類分數區域增設自動結帳機，提升消費便利度。 ## 1.4 數據倫理與職業發展 ### 1.4.1 數據倫理 - **隱私保護**：遵循 GDPR、個資法，對個人資料進行匿名化處理。 - **資料偏見**：檢查資料中是否存在性別、年齡歧視，必要時進行調整。 - **透明度**：向利害關係人說明模型決策過程，避免「黑盒」問題。 ### 1.4.2 職業發展 | 階段 | 技能要求 | 推薦路徑 | |------|----------|----------| | 初級 | Python、SQL、基本統計 | 進行資料清洗與探索性分析 | | 中級 | 機器學習、資料可視化 | 開發並評估模型，撰寫報告 | | 高級 | 雲端架構、MLOps | 部署模型，監控並優化模型性能 | > 隨著技術演進，數據科學不僅是技術工作，更是跨部門協作的橋樑。擁抱數據倫理、持續學習新技術，才能在競爭激烈的市場中立於不敗之地。 --- > **小結**：本章概覽了數據科學的起源、核心流程以及一個實際案例，並簡述了數據倫理與職業發展路徑。接下來，我們將深入探討資料收集的實務技巧與最佳實踐。

第2章：資料收集：從原始來源到可用資料