第七章部署與工程化：從實驗到生產

發布於 2026-02-24 19:09

# 第七章部署與工程化：從實驗到生產 ## 7.1 何謂部署與工程化在資料科學的生命週期中，模型開發往往是第一階段；真正的挑戰在於將模型「交付」給業務，使其能夠在真實環境中穩定、可擴展、可監控地運作。這一過程不僅需要技術實施，還須考慮流程管理、持續集成、版本控制與合規性。部署與工程化就是把實驗室的「可行性」轉化為「可持續性」的關鍵橋樑。 | 目標 | 內容 | |------|------| | **可重複性** | 透過版本控制與自動化流程，確保模型從實驗到產品的每一步都可復原 | | **可觀測性** | 實時監測模型輸出、性能、資源使用，及時偵測漂移 | | **可擴展性** | 根據流量需求自動擴縮，保證低延遲與高可用 | | **合規性** | 符合法規與內部治理要求，例如 GDPR、合約限制 | ## 7.2 版本控制：Git+Data Version Control (DVC) ### 7.2.1 為什麼要版本化資料？ - **可追溯性**：每一次資料變更都可追蹤回源頭。 - **協作**：團隊成員可同時工作於不同分支，避免衝突。 - **重現性**：重建歷史模型與資料集，確保研究可驗證。 ### 7.2.2 DVC 基本工作流程 ```bash # 初始化專案 git init DVC init # 添加資料集 DVC add data/raw # 提交變更 DVC commit -m "Add raw dataset" git add .dvc git commit -m "Add DVC tracking" ``` > **技巧**：使用 `dvc repro` 重新執行整個流水線，確保所有步驟同步更新。 ## 7.3 CI/CD：自動化管線的力量 ### 7.3.1 何謂 CI/CD？ - **CI (Continuous Integration)**：持續整合，確保程式碼每次提交都能編譯、測試通過。 - **CD (Continuous Deployment/Delivery)**：持續交付或部署，將經過測試的版本自動推送到測試或生產環境。 ### 7.3.2 常見工具 | 工具 | 角色 | |------|------| | GitHub Actions | 構建、測試、部署 | | GitLab CI | 同上 | | Jenkins | 企業級自動化 | | ArgoCD | GitOps 交付 | ### 7.3.3 範例：GitHub Actions 佈署模型 ```yaml name: Model Deployment on: push: branches: [ main ] jobs: build-and-deploy: runs-on: ubuntu-latest steps: - uses: actions/checkout@v3 - uses: actions/setup-python@v4 with: python-version: '3.10' - name: Install dependencies run: | pip install -r requirements.txt - name: Run tests run: pytest tests/ - name: Build Docker image run: | docker build -t mymodel:${{ github.sha }} . - name: Push to Docker Hub run: | echo ${{ secrets.DOCKER_PASSWORD }} | docker login -u ${{ secrets.DOCKER_USERNAME }} --password-stdin docker push mymodel:${{ github.sha }} - name: Deploy to Kubernetes run: | kubectl set image deployment/mymodel-deploy mymodel=mymodel:${{ github.sha }} ``` > **提醒**：在 CI/CD 流程中，將 **model artifact**（如 `.pkl` 或 `.onnx`）與 **Docker image** 一同推送，可確保模型版本與容器版本一致。 ## 7.4 容器化：Docker 與 OCI 影像 ### 7.4.1 為什麼使用容器？ - **環境一致性**：確保開發、測試、預測環境完全相同。 - **可攜性**：容器可在任何支援 Docker 的平台上執行。 - **資源隔離**：容器之間不互相干擾，提升安全性。 ### 7.4.2 基本 Dockerfile 範例 ```dockerfile # 基底鏡像 FROM python:3.10-slim # 工作目錄 WORKDIR /app # 安裝依賴 COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt # 複製模型檔案 COPY model.pkl . # 暴露端口 EXPOSE 8000 # 啟動服務 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8000"] ``` > **小技巧**：使用 **多階段建構（multi-stage build）**，可將編譯工具隔離，產生更輕量的最終鏡像。 ## 7.5 雲端部署：AWS、Azure、GCP 與 Multi‑Cloud | 雲服務 | 特色 | |--------|------| | AWS SageMaker | 完整機器學習工作流，支援模型訓練、部署、監控 | | Azure ML | 統一的實驗、模型管理與 A/B 測試工具 | | GCP Vertex AI | 大規模模型訓練、Hyper‑Parameter Tuning、模型推論 | | Kubernetes (EKS, AKS, GKE) | 彈性擴縮、自動化部署 | ### 7.5.1 以 AWS 為例：從 Docker 到 SageMaker 1. **建立 ECR 存儲庫**：`aws ecr create-repository --repository-name mymodel` 2. **推送鏡像**： ```bash aws ecr get-login-password | docker login --username AWS --password-stdin <aws_account_id>.dkr.ecr.<region>.amazonaws.com docker tag mymodel:latest <aws_account_id>.dkr.ecr.<region>.amazonaws.com/mymodel:latest docker push <aws_account_id>.dkr.ecr.<region>.amazonaws.com/mymodel:latest ``` 3. **建立 SageMaker Endpoint**：使用 AWS SDK 或 SageMaker Studio 建立 Endpoint。 ### 7.5.2 Multi‑Cloud 風險管理 - **資料主權**：不同地區有不同法規，需確認數據存儲位置。 - **成本差異**：不同雲商的計算與儲存價格不一，需成本優化。 - **Vendor Lock‑in**：盡量使用開源工具（如 Kubernetes、Prometheus）避免依賴單一雲商。 ## 7.6 模型服務與 API 端點 ### 7.6.1 FastAPI 範例 ```python from fastapi import FastAPI from pydantic import BaseModel import joblib import numpy as np app = FastAPI(title="Loan Default Prediction") model = joblib.load("model.pkl") class LoanInput(BaseModel): age: float income: float loan_amount: float @app.post("/predict") def predict(input: LoanInput): features = np.array([[input.age, input.income, input.loan_amount]]) prediction = model.predict(features) return {"default": int(prediction[0])} ``` > **觀察**：使用 **Pydantic** 進行請求驗證，確保輸入資料型別正確。 ### 7.6.2 版本化 API 路徑 - `/v1/loan/default` - `/v2/loan/default` 在 Kubernetes 中，使用 **Istio** 或 **NGINX Ingress Controller** 進行路由與流量分配，支援 **金絲雀發布（canary）** 或 **藍綠部署（blue/green）**。 ## 7.7 監控與可觀測性 | 指標 | 監控工具 | |------|-----------| | **延遲** | Prometheus + Grafana | | **吞吐量** | CloudWatch, Azure Monitor | | **模型漂移** | Evidently, Fiddler | | **資源使用** | cAdvisor, Kube‑metrics | ### 7.7.1 模型漂移偵測 1. **預測分佈對比**：使用 KS‑test 或 Wasserstein 距離比較歷史與實際輸出。 2. **監測指標**： - `accuracy`、`precision`、`recall` - `latency`、`throughput` 3. **自動警報**：在 Prometheus 中設定 **Alertmanager**，當指標異常時發送 Slack 或 Email 通知。 ### 7.7.2 日誌與追蹤（Observability） - **結構化日誌**：使用 JSON 日誌格式，方便後續分析。 - **分佈式追蹤**：如 **Jaeger** 或 **OpenTelemetry**，可追蹤請求路徑、耗時。 - **事件日誌**：紀錄 **model version**、**feature store** 版本，以滿足合規性要求。 ## 7.8 A/B 測試與藍綠部署 | 方式 | 優點 | |------|------| | **A/B 測試** | 直接比較舊模型與新模型的業務指標 | | **藍綠部署** | 雙端口切換，無停機時間 | | **金絲雀發布** | 先將新版本推送給小量流量，驗證無誤後全量推廣 | ### 7.8.1 FastAPI A/B 示例 ```python # 路由 /v1 仍使用舊模型 # 路由 /v2 觸發新模型 # 使用 NGINX 或 Istio 進行流量百分比分配 ``` > **實務建議**：在測試階段，同步收集 **business metrics**（如利潤、客戶滿意度），確保新模型帶來實際效益。 ## 7.9 回滾與版本切換策略 1. **藍綠部署**：將新版本部署至 `blue`，舊版本在 `green`；若發現異常，即刻切回 `green`。 2. **金絲雀**：初始 5% 流量指向新版本，監測 24 小時；若 OK，逐步擴大比例。 3. **灰度更新**：在 Kubernetes 中使用 **Deployment `rollingUpdate`**；同時維持 `ReplicaSet` 的多個版本。 > **注意**：在回滾時，必須確保 **模型 artifact**、**資料版本**、**Docker image** 全部對應，否則可能導致版本不一致。 ## 7.10 合規性與治理在部署時的落地 - **模型簽名**：使用 **MLflow** 或 **TensorFlow Serving** 的 `signature_def` 保障輸入輸出的一致性。 - **審計日誌**：每一次部署變更皆紀錄於 Git commit 與雲端日誌。 - **資料保密**：在 Dockerfile 中使用 `ARG` 或環境變數傳遞敏感資訊，並在 CI/CD Pipeline 內使用 **Secret Store**（如 GitHub Secrets、AWS Secrets Manager）。 ## 7.11 總結與實作路線圖 | 步驟 | 工具 | 成果 | |------|------|------| | 1️⃣ 版本控制 | Git + DVC | 可追蹤資料與模型 | | 2️⃣ CI/CD | GitHub Actions / GitLab CI | 自動化測試與部署 | | 3️⃣ 容器化 | Docker | 環境一致性 | | 4️⃣ 雲部署 | AWS SageMaker / GCP Vertex AI | 可擴縮、監控 | | 5️⃣ 服務化 | FastAPI / TensorFlow Serving | 易於擴展、統一 API | | 6️⃣ 監控 | Prometheus + Grafana | 可觀測性 | | 7️⃣ 合規性 | Secret Manager, Data Catalog | 符合法規 | > **下一章提示**：第八章將深入「模型的可解釋性與可追溯性」，探討如何在部署後，使用 SHAP、LIME 等工具提供「何為輸出」的解釋，以提升決策透明度。

第六章：模型可解釋性與商業溝通——從數據洞察到策略落地

第八章數據倫理與合規管理

聊天視窗

第七章 部署與工程化：從實驗到生產

第七章部署與工程化：從實驗到生產