聊天視窗

數據科學的藝術與科學:從基礎到實踐 - 第 1 章

第一章:數據科學概論

發布於 2026-02-25 14:10

# 第一章:數據科學概論 ## 1.1 數據科學的歷史背景 | 時期 | 主要事件 | 代表人物/組織 | |------|----------|-----------------| | 1960s | **統計學與數學建模**開始為決策提供量化基礎 | John Tukey, R.A. Fisher | | 1980s | **資料倉儲與商業智慧(BI)興起** | IBM Cognos, Oracle Data Warehouse | | 1990s | **機器學習基礎**(如:決策樹、支援向量機) | Alex J. Smola, Vladimir Vapnik | | 2000s | **大數據(Big Data)概念** 與 Hadoop 生态 | Doug Cutting, Mike Cafarella | | 2010s | **深度學習爆發**(AlexNet, ImageNet挑戰) | Geoffrey Hinton, Yann LeCun | | 2020s | **AutoML、Edge AI、數據倫理** | Google AutoML, OpenAI GPT | > **核心觀點**:數據科學並非單一技術,而是統計、機器學習、計算機科學與領域專業知識的交匯。隨著數據量、速度、種類(3V)不斷增加,數據科學的工具與方法也日益多元化。 ## 1.2 核心概念 | 概念 | 定義 | 為何重要 | |------|------|------------| | **數據** | 原始觀測、記錄或測量結果 | 數據是模型的原料,質量直接影響預測效果 | | **特徵(Feature)** | 對應於問題空間的可量化變數 | 影響模型學習與解釋能力 | | **模型** | 對資料關係的數學化表達 | 用於預測、分類、聚類等任務 | | **評估指標** | 衡量模型績效的量化指標 | 直接指導模型選擇與優化 | | **部署** | 將模型投入實際環境 | 使模型產生實際商業價值 | ### 1.2.1 數據類型與結構 - **結構化資料**:關係型資料庫、CSV、JSON schema - **非結構化資料**:文字、影像、音訊、視訊 - **半結構化資料**:XML、YAML、Log 文件 ### 1.2.2 數據科學的四大流程 | 階段 | 主要活動 | 核心工具 | |------|----------|----------| | **資料探索** | 資料清洗、視覺化、統計摘要 | pandas、matplotlib、Seaborn | | **特徵工程** | 特徵選擇、創造、標準化 | scikit-learn、Featuretools | | **建模** | 選擇演算法、訓練、調參 | XGBoost、LightGBM、PyTorch | | **部署與監控** | 包裝、API、模型漂移檢測 | Docker、FastAPI、Prometheus | ## 1.3 數據科學職能與角色 | 角色 | 主要責任 | 常見技能 | |------|----------|----------| | **資料分析師** | 描述性分析、BI 報表 | SQL、Tableau、Excel | | **資料工程師** | 資料管道、ETL、資料庫設計 | Spark、Kafka、Airflow | | **機器學習工程師** | 模型開發、部署、監控 | scikit-learn、TensorFlow、MLflow | | **數據科學家** | 問題定義、模型選擇、洞察報告 | 統計學、Python/R、溝通技巧 | | **數據倫理顧問** | 隱私、合規、模型可解釋性 | GDPR、倫理框架、偏見評估 | > **實務提示**:跨功能團隊合作是成功數據專案的關鍵。將業務理解、技術實作與數據治理三者結合,可減少專案失敗風險。 ## 1.4 讀者期望與學習目標 1. **理解數據科學的歷史與演變**,把握當前技術生態。 2. **掌握核心概念與術語**,為後續章節奠定基礎。 3. **熟悉數據科學的基本流程**,能夠設計簡單的實務案例。 4. **認識各職能角色與責任**,提升團隊協作能力。 > **建議閱讀順序**:在本章結束後,直接跳到第二章,深入了解 Python 與 R 的數據處理工具。若有興趣可先瀏覽第三章,了解統計思維與假設檢定的基礎。 --- > **附錄**:關鍵術語對照表(英中對照) > > | 英文 | 中文 | > |------|------| > | Dataset | 資料集 | > | Feature | 特徵 | > | Model | 模型 | > | Algorithm | 演算法 | > | Training | 訓練 | > | Validation | 驗證 | > | Deployment | 部署 |