AI 模型規模、精度壓縮與硬體資源的三維關係全解析

模型規模:7B、10B、20B 的核心含義

在 AI 模型領域,7B、10B、20B 代表模型的參數數量(Parameter Count),單位為 Billion(十億)

  • 7B → 約 70 億個參數
  • 10B → 約 100 億個參數
  • 20B → 約 200 億個參數

參數是神經網路中儲存知識的權重與偏置。數量越多,模型的表達能力與上下文處理能力通常越強,但同時會增加記憶體佔用與運算量。

精度壓縮:從 FP16 到 INT4 的權衡

主記憶體

模型的檔案大小與運行所需的記憶體取決於每個參數的精度(Precision)

  • FP16(半精度浮點) → 每個參數 2 bytes,精度高但檔案大。
  • INT4(4 位元整數量化) → 每個參數僅 0.5 bytes,可將模型縮小至原本的 1/4,但推理精度略降。

例如:

  • 7B FP16 模型 ≈ 14GB
  • 7B INT4 模型 ≈ 3.5~4GB

量化是本地推理常用的技巧,可讓中階 GPU、NPU、甚至手機也能承載原本只有伺服器等級硬體能運行的模型。

硬體資源:GPU、NPU 與行動裝置的適配性

顯示卡rtx

不同運算架構對同一個模型的承載能力差異很大:

模型大小參數量模型檔案大小 (FP16)PC GPU (FP16)PC GPU (INT4)PC NPU (INT4)手機 NPU (INT4)
7B70 億~14 GB≥ 16GB VRAM≥ 4GB VRAM≥ 6GB RAM≥ 6GB RAM
10B100 億~20 GB≥ 24GB VRAM≥ 6GB VRAM≥ 8GB RAM≥ 8GB RAM
20B200 億~40 GB≥ 48GB VRAM≥ 12GB VRAM≥ 16GB RAM幾乎不可行(需分批)
  • GPU(Graphics Processing Unit):高頻寬、大容量記憶體,擅長平行矩陣運算,是目前推理大模型的主力。
  • NPU(Neural Processing Unit):專為 AI 運算優化的加速器,能以更低功耗完成矩陣乘法,但記憶體容量與頻寬通常低於高階 GPU。
  • 手機 NPU:更注重功耗與散熱限制,適合運行量化後的小模型,10B 以上通常需雲端輔助。

TOPS / PetaFLOPS 與推理速度對照表

硬體類型運算能力指標測試精度7B 模型推理速度(Token/s)10B 模型推理速度(Token/s)20B 模型推理速度(Token/s)
手機 NPU(Snapdragon 8 Gen 3)~45 TOPSINT8 / INT415~308~15(需分批)幾乎不可行
PC NPU(Intel Core Ultra)~34 TOPSINT8 / INT420~4010~20(需分批)幾乎不可行
中階 GPU(RTX 3060)~150 TFLOPSFP1635~7018~35不建議(顯存不足)
高階 GPU(RTX 4090)~330 TFLOPSFP16120~20070~12030~50
AI 伺服器 GPU(NVIDIA A100)~312 PetaFLOPSFP16(Tensor Core)500+300+150+

💡 如何解讀這張表

  1. TOPS 數值對應低精度推理速度
    NPU 的 TOPS 數值雖然高,但因精度較低(INT8 / INT4),在大模型中需要更多次分批運算,所以 Token/s 會下降。
  2. PetaFLOPS 對應高精度推理能力
    GPU 在 FP16 下的 FLOPS 值與推理速度成正比,且顯存夠大時能一次載入完整模型,速度顯著高於 NPU。
  3. 模型越大,速度下降幅度非線性
    因為除了運算量增加,KV Cache、頻寬瓶頸、顯存/記憶體交換延遲都會讓 Token/s 大幅降低。

運算性能指標:TOPS 與 PetaFLOPS

在比較硬體推理能力時,常見兩個指標:

  • TOPS(Tera Operations Per Second)
    • 代表「每秒可執行的兆級(10¹²)運算次數」。
    • 常用於 NPU、Edge AI 晶片的效能標示,例如 30 TOPS 意味著每秒可完成 30 兆次的運算(通常是 INT8 或 INT4 精度)。
  • PetaFLOPS(Peta Floating Point Operations Per Second)
    • 代表「每秒可執行的千兆級(10¹⁵)浮點運算次數」。
    • 常用於 GPU 或超算的效能標示,測試精度通常為 FP16 或 FP32,例如 A100 GPU 在 FP16 下可達 312 PetaFLOPS(搭配 Tensor Core)。

差異與關聯

  • TOPS 偏向整數量化運算(低精度、高速、低功耗)。
  • PetaFLOPS 偏向浮點高精度運算(精確度高、運算密集)。
  • 同一顆晶片在不同精度下的 TOPS 與 FLOPS 數字會差非常多,因為低精度運算可一次處理更多資料。
雲端設施

策略選擇:從本地推理到雲端混合

  • 7B 模型 → 適合手機、筆電、邊緣設備本地推理。
  • 10B 模型 → 適合高階筆電 GPU、本地伺服器或 NPU 分批推理。
  • 20B 模型 → 幾乎需要專業 GPU 伺服器,或混合雲端推理。
    選擇時必須同時考慮 模型規模、精度壓縮、硬體運算能力(TOPS/PetaFLOPS) 三者的平衡,才能在性能、成本與延遲之間找到最佳解。

顯示卡處理整數與浮點數的演化歷史

早期(90年代 ~ 2000年)

  • 顯示卡(GPU)最初的設計目標是圖形渲染,主要處理**整數(integer, INT)和部分固定小數點(fixed-point)**運算,因為像素顏色、深度計算用的是離散值。
  • 當時的浮點運算(floating point, FP)需求低,且硬體成本高。

可編程著色器時代(2001 ~ 2010)

  • 隨著 DirectX 8 / 9 以及 OpenGL 的可編程著色器出現,GPU 開始引入 浮點數(特別是 FP32, 單精度浮點),方便做光影計算與物理模擬。
  • FP32 成為圖形渲染的主要計算格式,整數運算仍存在,但浮點性能開始快速提升。

通用計算(GPGPU)與深度學習起步(2010年代)

  • CUDA / OpenCL 讓 GPU 可以用來做科學計算、機器學習等非圖形任務。
  • 研究人員發現 深度神經網路訓練不必完全用 FP32,用 FP16(半精度浮點) 精度損失不大,但速度與能效顯著提升。
  • GPU 開始提供混合精度(Mixed Precision)計算單元,FP16、INT8 都能跑。

AI 專用加速(2017 ~ 至今)

  • NVIDIA Volta(V100)引入 Tensor Core,針對矩陣乘法優化,支援 FP16 → FP32 累積,後來延伸到 INT8、INT4 運算。
  • 浮點性能以 FLOPS(Floating Point Operations Per Second) 測量;整數推論性能以 OPS(Operations Per Second) 測量。
  • 2020 年後,GPU / NPU / TPU 開始報告 PetaFLOPS(訓練用)和 TOPS(推論用),表示 AI 運算能力。

從 FLOPS 到 PetaFLOPS / TOPS

  • FLOPS = 每秒浮點運算次數(常用 FP32、FP16)
  • PetaFLOPS = 10¹⁵ 次浮點運算 / 秒(訓練 AI 時,常用 FP16/FP32)
  • TOPS = 每秒兆次(10¹² 次)運算,一般指 整數運算(INT8、INT4),因為推論時多用低精度整數加速。

對照表(大約):

精度常用場景單位
FP64(雙精度)科學計算GFLOPS / TFLOPS
FP32(單精度)高精度訓練TFLOPS
FP16 / BF16(半精度)高效訓練TFLOPS / PFLOPS
INT8 / INT4推論加速TOPS

重新審視 TOPS 與 AI 效能

TOPS (Tera Operations Per Second) 是衡量硬體運算能力的指標,意指「每秒可進行多少兆次操作」。這裡的 Operations 通常指的是低精度整數運算(如 INT8、INT4),這類運算在 AI 推論階段非常常見。TOPS 數值越高,代表硬體在處理這類低精度任務時的性能越強。

FLOPS (Floating-Point Operations Per Second) 則是用來衡量「每秒可進行多少浮點數運算」。在 AI 領域,浮點數運算(如 FP32、FP16)是訓練模型的核心,因為訓練過程需要高精度的計算來處理梯度與權重更新。

訓練與推論的效能差異

訓練階段 (Training)推論階段 (Inference)
主要任務透過大量資料反覆學習,調整模型權重。使用已訓練好的模型,根據輸入生成預測或輸出。
主要運算包含前向傳播與梯度反傳只需前向傳播
運算精度需要較高的浮點數精度,如 FP32 或 FP16可使用較低的整數精度,如 INT8 或 INT4,以提高效率。
主要衡量指標FLOPS 是主要效能指標,因為訓練過程依賴大量的浮點數運算。TOPS 成為重要的參考指標,特別是用於評估低精度推論的效能。
Token 關係每個 token 的處理需要大量的 FLOPS。每個 token 的生成(尤其在低精度下)可以間接透過 TOPS 估算。硬體廠商會提供一個簡化的估算公式
每秒 token 數 ≈ TOPS​ / 模型處理每個 token 的運算量

但請注意,這只是一個粗略的估算值,實際效能還會受其他因素影響。

Edge AI

精度與硬體能力的關係

在 Edge AI(例如手機 NPU、嵌入式 AI 加速器、IoT 智慧裝置)中,精度通常不會用到傳統高精度 FP32(32 位浮點數),因為:

  • FP32 記憶體佔用太大:權重與中間特徵圖需要更多記憶體,對嵌入式裝置是硬傷。
  • 功耗高:低精度可以讓硬體一次並行處理更多資料,節省電力。

所以 Edge AI 常用:

  • FP16 / BF16:在影像或語音應用中保留較高精度
  • INT8:推論常用精度,效能/功耗比高
  • INT4 / INT2:極限壓縮,適用於超低功耗裝置(IoT、小 MCU AI)

精度對可處理模型大小的影響

假設相同記憶體容量,降低精度可以處理更大的模型:

精度權重佔用量同樣容量下可處理模型大小
FP32基準1x
FP16↓ 50%2x
INT8↓ 75%4x
INT4↓ 87.5%8x

例子:
假設一顆 Edge AI NPU 有 1GB RAM,如果模型原本是 1B 參數 FP32,需要 4GB RAM → 根本放不下;
壓到 INT8 後只需 1GB → 剛好可以跑。

IoT示意圖

Edge AI 模型大小的典型範圍

  • 手機 / 高階邊緣裝置:可跑 1B–7B 參數模型(INT8 / FP16 混合精度)
  • 中階嵌入式(如 Jetson Nano, RPi + TPU):500M–3B 參數(INT8 最佳化)
  • 低功耗 MCU + TinyML:< 50M 參數(INT4 或 INT2)

為什麼精度壓縮不一定損失效果

  • 量化感知訓練(QAT):在訓練時就模擬低精度運算 → 避免部署後性能掉太多
  • 混合精度:重要權重或計算保持 FP16 / FP32,其餘用 INT8 / INT4
  • 稀疏化(Sparsity):刪除不重要的權重,配合硬體稀疏加速

*以上文章部份為AI產生內容,無商業用途。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端