第 1 章：為什麼選擇數據駕駛？

發布於 2026-02-20 20:50

# 第 1 章：為什麼選擇數據駕駛？ ## 1.1 量化投資的興起 - **起始點**： - 1970 年代，John L. Bogle 在美國推出指數基金，強調「低成本」與「市場平均」投資。 - 1990 年代，隨著電腦運算能力提升，投資人開始使用程式碼自動化交易，形成最早的 *Quant* 交易團隊。 - **演進階段**： 1. **統計套利**（Statistical Arbitrage）：以高頻交易為主，依賴大量歷史價格資料，實現微利多倉。 2. **因子投資**（Factor Investing）：以基本面因子（如價值、動量、質量）為核心，透過大量資料建立因子模型。 3. **機器學習**（Machine Learning）：在深度學習、強化學習興起後，投資者開始嘗試預測市場非線性結構。 - **市場現況**： - 2023 年全球量化基金資產規模已突破 4.5 億億美元，佔總市場的 15% 以上。 - 量化投資不再是高科學人才的專屬，低門檻的開源工具（如 Python、R、Jupyter）使更多個人投資者能參與。 ## 1.2 數據在投資中的核心價值 | 角色 | 具體價值 | 典型應用 | 技術工具 | |------|----------|----------|----------| | 資料來源 | 讓投資決策基於客觀證據 | 股票行情、公司財報、宏觀經濟 | Yahoo Finance、Quandl、Bloomberg API | | 資料品質 | 淨化資料避免噪聲影響模型 | 缺失值處理、異常值檢測 | pandas、Dask、SQL | | 資料結構 | 方便數學建模與機器學習 | 時序資料、特徵矩陣 | NumPy、Pandas、TensorFlow | | 資料洞察 | 發掘市場趨勢與風險指標 | 因子收益、波動率預測 | scikit‑learn、statsmodels | > **實際案例**： > - *Alpha Factor*：利用 5 年內每日收盤價計算 20 天簡單移動平均（SMA）與 60 天 SMA 的交叉訊號。通過歷史回測，該策略在 2015‑2020 年期間年化報酬率 12%，夏普比率 1.2。 > > 這一例子說明，即使是最簡單的資料操作（移動平均計算），也能直接轉化為可執行的交易策略，凸顯資料在量化投資中的關鍵地位。 ## 1.3 本書的學習路徑 > 本書設計成 **循環式學習**：從基礎知識 → 技術實作 → 風險控制 → 策略優化 → 實盤落地。每一章都包含理論講解、實例演練以及練習題，讀者可依照自己的節奏進行。 | 章節 | 主題 | 主要學習點 | |------|------|------------| | 第 1 章 | 為什麼選擇數據駕駛？ | 理解量化投資歷史、數據價值、學習路徑 | | 第 2 章 | 數據基礎與清洗 | 取得金融資料、特徵工程、資料清理 | | 第 3 章 | 統計學基礎 | 機率分布、假設檢定、回歸分析 | | 第 4 章 | 機器學習概念 | 監督/非監督學習、模型評估 | | 第 5 章 | 風險管理 | VaR、CVaR、資金管理 | | 第 6 章 | 投資策略設計 | 因子投資、統計套利、高頻交易 | | 第 7 章 | 回測與優化 | 回測環境、前向漂移、參數優化 | | 第 8 章 | 交易執行與技術實務 | 執行算法、滑點、API 連線 | | 第 9 章 | 監控與持續改進 | 策略監控、模型漂移 | | 第10 章 | 案例分析與實戰演練 | 從資料蒐集到實盤上線 | > **學習建議**： > - **實作先行**：每學完理論，立即透過 Jupyter Notebook 實作相應小範例，鞏固概念。 > - **小步快跑**：先完成簡單回測，逐步加入特徵、模型、風險控制，觀察整體影響。 > - **迭代優化**：在每個階段都留出測試和優化時間，確保策略穩健。 ## 1.4 小結量化投資的核心不在於算法本身，而在於「從海量資料中提取、轉化、評估、執行」的完整流程。透過本書的循環式學習路徑，讀者將能夠： 1. 具備**資料取得與清洗**的實務技能； 2. 掌握**統計與機器學習**基礎，建立可解釋且可測試的模型； 3. 熟悉**風險管理**框架，確保策略在各種市場環境下的持續性； 4. 具備**回測、優化與實盤執行**的全鏈路能力。在未來的章節中，我們將逐步實踐上述能力，幫助你從 **「零」走向 **「量化投資實戰」**。

第 2 章資料之源：從收集到清洗