第 2 章：資料收集與清洗的藝術

發布於 2026-02-25 21:02

# 第 2 章：資料收集與清洗的藝術 > **實務提示**：資料品質是量化交易的生命線。一次徹底的資料清洗往往能提升 2–3% 的年化報酬。 ## 2.1 資料層：從市場到電腦量化交易的核心在於「資料驅動」。在這一層，我們把市場資訊轉化為可供模型使用的結構化資料。以下是資料層的關鍵流程與常見來源： | 步驟 | 目標 | 典型工具 / 服務 | |------|------|-----------------| | ① 資料擷取 | 收集多元資產的歷史與即時行情 | Bloomberg API、Yahoo Finance、Tiingo、券商 SDK | | ② 時間對齊 | 同步不同頻率、時區的資料 | Pandas、Resample、TimeZoneLib | | ③ 量化指標 | 生成技術指標、波動率、成交量等 | TA-Lib、QuantLib、Custom Scripts | | ④ 事件標記 | 辨識拆股、配息、重大公告 | 市場日曆、財報 API | > **案例**：某個量化團隊採用 *Tiingo* 的 `adjusted` API 取得每日收盤價，並用 `pandas‑datareader` 下載過去 5 年的宏觀指標，最後將所有資料寫入 AWS Redshift 以供日後查詢。 ## 2.2 資料品質管理資料品質直接影響模型表現。以下為常見品質問題及對策： | 問題 | 影響 | 解決方案 | |------|------|-----------| | 缺失值 | 破壞統計推論、降低機器學習效能 | 欠缺值插補、前向/後向填充、均值/中位數填補 | | 异常值 | 造成模型過擬合、風險失真 | IQR / MAD 截斷、Z‑score 樣本剔除、分箱處理 | | 失真（錯誤收盤價） | 產生虛假信號 | 交叉驗證、查證多源資料、一致性檢測 | | 同一時間點多重報價 | 影響高頻策略 | 時間戳精度提升、交易所級別聚合 | > **工具清單**：`missingno`、`pyod`、`pandas‑profiling`、`great‑expectations`。 ## 2.3 資料庫設計與存取在資料層，除了「收集」與「清洗」，如何高效存取亦是一大挑戰。常見設計模式如下： ### 2.3.1 時序資料數據庫 - **InfluxDB / TimescaleDB**：專為時序資料設計，支持高寫入速率與近實時查詢。 - **設計要點**： - *Measurement / Table*：按資產或策略分類。 - *Tag / Column*：將 `symbol`、`exchange`、`currency` 等作為索引。 - *Retention Policy*：分層保留（5 min、1 hour、1 day）。 ### 2.3.2 列式存儲 - **Parquet / ORC**：高壓縮率與列式查詢，適合批量分析。 - **使用情境**：月度報告、歷史回測。 ### 2.3.3 資料湖（Data Lake） - **AWS S3 / Azure Blob / GCP Cloud Storage**：存放原始、處理後資料。 - **結合 Athena / BigQuery**：SQL 方式即時分析。 > **實務範例**：在量化團隊的資料倉庫中，使用 `AWS Glue` 進行 ETL，將每天的原始行情寫入 S3 的 Parquet，然後透過 Athena 產生「每日成交量統計」的視圖，供模型層直接查詢。 ## 2.4 特徵工程前的資料探索在進入真正的特徵工程前，先對資料做一次「探索性資料分析」（EDA）： 1. **分布可視化**：直方圖、箱形圖； 2. **時間序列趨勢**：線圖、移動平均； 3. **相關性分析**：熱力圖、PCA 初探； 4. **異常檢測**：Isolation Forest、LOF。 > **工具**：`seaborn`、`plotly.express`、`scikit‑learn` 的 `IsolationForest`。 ## 2.5 版本化與可重現性金融資料不斷更新，版本管理尤為重要。 - **資料版本控制**：使用 `DVC` 或 `Data Version Control` 將資料與程式碼同時版本化。 - **元資料記錄**：紀錄資料來源、擷取時間、處理流程； - **可重現實驗**：每次回測都需保存「資料快照」與「參數設定」的完整資訊。 > **案例**：某投資公司建立了 `dvc.yaml`，每次回測時自動拉取 `v1.2.0` 的行情快照，並把結果推送到 `GitHub` 的 release，確保策略回測可追溯。 ## 小結資料收集與清洗雖是量化交易的基礎，但其複雜性遠超想像。從資料來源選擇、時間對齊、品質管理，到資料庫設計與可重現性，每一步都直接影響最終策略的績效。下一章，我們將從已清洗的資料中構造特徵，並引入機器學習與統計模型，將「資料」轉化為「洞察」。

第一章量化交易概論

第三章：特徵工程與模型洞察