AI 模型規模、精度壓縮與硬體資源的三維關係全解析

模型規模：7B、10B、20B 的核心含義

在 AI 模型領域，7B、10B、20B 代表模型的參數數量（Parameter Count），單位為 Billion（十億）。

7B → 約 70 億個參數
10B → 約 100 億個參數
20B → 約 200 億個參數

參數是神經網路中儲存知識的權重與偏置。數量越多，模型的表達能力與上下文處理能力通常越強，但同時會增加記憶體佔用與運算量。

Hugging Face

精度壓縮：從 FP16 到 INT4 的權衡

模型的檔案大小與運行所需的記憶體取決於每個參數的精度（Precision）：

FP16（半精度浮點） → 每個參數 2 bytes，精度高但檔案大。
INT4（4 位元整數量化） → 每個參數僅 0.5 bytes，可將模型縮小至原本的 1/4，但推理精度略降。

例如：

7B FP16 模型 ≈ 14GB
7B INT4 模型 ≈ 3.5~4GB

量化是本地推理常用的技巧，可讓中階 GPU、NPU、甚至手機也能承載原本只有伺服器等級硬體能運行的模型。

硬體資源：GPU、NPU 與行動裝置的適配性

不同運算架構對同一個模型的承載能力差異很大：

模型大小	參數量	模型檔案大小 (FP16)	PC GPU (FP16)	PC GPU (INT4)	PC NPU (INT4)	手機 NPU (INT4)
7B	70 億	~14 GB	≥ 16GB VRAM	≥ 4GB VRAM	≥ 6GB RAM	≥ 6GB RAM
10B	100 億	~20 GB	≥ 24GB VRAM	≥ 6GB VRAM	≥ 8GB RAM	≥ 8GB RAM
20B	200 億	~40 GB	≥ 48GB VRAM	≥ 12GB VRAM	≥ 16GB RAM	幾乎不可行（需分批）

GPU（Graphics Processing Unit）：高頻寬、大容量記憶體，擅長平行矩陣運算，是目前推理大模型的主力。
NPU（Neural Processing Unit）：專為 AI 運算優化的加速器，能以更低功耗完成矩陣乘法，但記憶體容量與頻寬通常低於高階 GPU。
手機 NPU：更注重功耗與散熱限制，適合運行量化後的小模型，10B 以上通常需雲端輔助。

TOPS / PetaFLOPS 與推理速度對照表

硬體類型	運算能力指標	測試精度	7B 模型推理速度（Token/s）	10B 模型推理速度（Token/s）	20B 模型推理速度（Token/s）
手機 NPU（Snapdragon 8 Gen 3）	~45 TOPS	INT8 / INT4	15~30	8~15（需分批）	幾乎不可行
PC NPU（Intel Core Ultra）	~34 TOPS	INT8 / INT4	20~40	10~20（需分批）	幾乎不可行
中階 GPU（RTX 3060）	~150 TFLOPS	FP16	35~70	18~35	不建議（顯存不足）
高階 GPU（RTX 4090）	~330 TFLOPS	FP16	120~200	70~120	30~50
AI 伺服器 GPU（NVIDIA A100）	~312 PetaFLOPS	FP16（Tensor Core）	500+	300+	150+

💡 如何解讀這張表

TOPS 數值對應低精度推理速度
NPU 的 TOPS 數值雖然高，但因精度較低（INT8 / INT4），在大模型中需要更多次分批運算，所以 Token/s 會下降。
PetaFLOPS 對應高精度推理能力
GPU 在 FP16 下的 FLOPS 值與推理速度成正比，且顯存夠大時能一次載入完整模型，速度顯著高於 NPU。
模型越大，速度下降幅度非線性
因為除了運算量增加，KV Cache、頻寬瓶頸、顯存/記憶體交換延遲都會讓 Token/s 大幅降低。

運算性能指標：TOPS 與 PetaFLOPS

在比較硬體推理能力時，常見兩個指標：

TOPS（Tera Operations Per Second）
- 代表「每秒可執行的兆級（10¹²）運算次數」。
- 常用於 NPU、Edge AI 晶片的效能標示，例如 30 TOPS 意味著每秒可完成 30 兆次的運算（通常是 INT8 或 INT4 精度）。
PetaFLOPS（Peta Floating Point Operations Per Second）
- 代表「每秒可執行的千兆級（10¹⁵）浮點運算次數」。
- 常用於 GPU 或超算的效能標示，測試精度通常為 FP16 或 FP32，例如 A100 GPU 在 FP16 下可達 312 PetaFLOPS（搭配 Tensor Core）。

差異與關聯：

TOPS 偏向整數量化運算（低精度、高速、低功耗）。
PetaFLOPS 偏向浮點高精度運算（精確度高、運算密集）。
同一顆晶片在不同精度下的 TOPS 與 FLOPS 數字會差非常多，因為低精度運算可一次處理更多資料。

策略選擇：從本地推理到雲端混合

7B 模型 → 適合手機、筆電、邊緣設備本地推理。
10B 模型 → 適合高階筆電 GPU、本地伺服器或 NPU 分批推理。
20B 模型 → 幾乎需要專業 GPU 伺服器，或混合雲端推理。
選擇時必須同時考慮 模型規模、精度壓縮、硬體運算能力（TOPS/PetaFLOPS） 三者的平衡，才能在性能、成本與延遲之間找到最佳解。

顯示卡處理整數與浮點數的演化歷史

早期（90年代 ~ 2000年）

顯示卡（GPU）最初的設計目標是圖形渲染，主要處理**整數（integer, INT）和部分固定小數點（fixed-point）**運算，因為像素顏色、深度計算用的是離散值。
當時的浮點運算（floating point, FP）需求低，且硬體成本高。

可編程著色器時代（2001 ~ 2010）

隨著 DirectX 8 / 9 以及 OpenGL 的可編程著色器出現，GPU 開始引入 浮點數（特別是 FP32, 單精度浮點），方便做光影計算與物理模擬。
FP32 成為圖形渲染的主要計算格式，整數運算仍存在，但浮點性能開始快速提升。

通用計算（GPGPU）與深度學習起步（2010年代）

CUDA / OpenCL 讓 GPU 可以用來做科學計算、機器學習等非圖形任務。
研究人員發現 深度神經網路訓練不必完全用 FP32，用 FP16（半精度浮點） 精度損失不大，但速度與能效顯著提升。
GPU 開始提供混合精度（Mixed Precision）計算單元，FP16、INT8 都能跑。

AI 專用加速（2017 ~ 至今）

NVIDIA Volta（V100）引入 Tensor Core，針對矩陣乘法優化，支援 FP16 → FP32 累積，後來延伸到 INT8、INT4 運算。
浮點性能以 FLOPS（Floating Point Operations Per Second） 測量；整數推論性能以 OPS（Operations Per Second） 測量。
2020 年後，GPU / NPU / TPU 開始報告 PetaFLOPS（訓練用）和 TOPS（推論用），表示 AI 運算能力。

從 FLOPS 到 PetaFLOPS / TOPS

FLOPS = 每秒浮點運算次數（常用 FP32、FP16）
PetaFLOPS = 10¹⁵ 次浮點運算 / 秒（訓練 AI 時，常用 FP16/FP32）
TOPS = 每秒兆次（10¹² 次）運算，一般指 整數運算（INT8、INT4），因為推論時多用低精度整數加速。

對照表（大約）：

精度	常用場景	單位
FP64（雙精度）	科學計算	GFLOPS / TFLOPS
FP32（單精度）	高精度訓練	TFLOPS
FP16 / BF16（半精度）	高效訓練	TFLOPS / PFLOPS
INT8 / INT4	推論加速	TOPS

重新審視 TOPS 與 AI 效能

TOPS (Tera Operations Per Second) 是衡量硬體運算能力的指標，意指「每秒可進行多少兆次操作」。這裡的 Operations 通常指的是低精度整數運算（如 INT8、INT4），這類運算在 AI 推論階段非常常見。TOPS 數值越高，代表硬體在處理這類低精度任務時的性能越強。

FLOPS (Floating-Point Operations Per Second) 則是用來衡量「每秒可進行多少浮點數運算」。在 AI 領域，浮點數運算（如 FP32、FP16）是訓練模型的核心，因為訓練過程需要高精度的計算來處理梯度與權重更新。

訓練與推論的效能差異

	訓練階段 (Training)	推論階段 (Inference)
主要任務	透過大量資料反覆學習，調整模型權重。	使用已訓練好的模型，根據輸入生成預測或輸出。
主要運算	包含前向傳播與梯度反傳。	只需前向傳播。
運算精度	需要較高的浮點數精度，如 FP32 或 FP16。	可使用較低的整數精度，如 INT8 或 INT4，以提高效率。
主要衡量指標	FLOPS 是主要效能指標，因為訓練過程依賴大量的浮點數運算。	TOPS 成為重要的參考指標，特別是用於評估低精度推論的效能。
Token 關係	每個 token 的處理需要大量的 FLOPS。	每個 token 的生成（尤其在低精度下）可以間接透過 TOPS 估算。硬體廠商會提供一個簡化的估算公式：每秒 token 數 ≈ TOPS / 模型處理每個 token 的運算量但請注意，這只是一個粗略的估算值，實際效能還會受其他因素影響。

Edge AI

精度與硬體能力的關係

在 Edge AI（例如手機 NPU、嵌入式 AI 加速器、IoT 智慧裝置）中，精度通常不會用到傳統高精度 FP32（32 位浮點數），因為：

FP32 記憶體佔用太大：權重與中間特徵圖需要更多記憶體，對嵌入式裝置是硬傷。
功耗高：低精度可以讓硬體一次並行處理更多資料，節省電力。

所以 Edge AI 常用：

FP16 / BF16：在影像或語音應用中保留較高精度
INT8：推論常用精度，效能/功耗比高
INT4 / INT2：極限壓縮，適用於超低功耗裝置（IoT、小 MCU AI）

精度對可處理模型大小的影響

假設相同記憶體容量，降低精度可以處理更大的模型：

精度	權重佔用量	同樣容量下可處理模型大小
FP32	基準	1x
FP16	↓ 50%	2x
INT8	↓ 75%	4x
INT4	↓ 87.5%	8x

例子：
假設一顆 Edge AI NPU 有 1GB RAM，如果模型原本是 1B 參數 FP32，需要 4GB RAM → 根本放不下；
壓到 INT8 後只需 1GB → 剛好可以跑。

Edge AI 模型大小的典型範圍

手機 / 高階邊緣裝置：可跑 1B–7B 參數模型（INT8 / FP16 混合精度）
中階嵌入式（如 Jetson Nano, RPi + TPU）：500M–3B 參數（INT8 最佳化）
低功耗 MCU + TinyML：< 50M 參數（INT4 或 INT2）

為什麼精度壓縮不一定損失效果

量化感知訓練（QAT）：在訓練時就模擬低精度運算 → 避免部署後性能掉太多
混合精度：重要權重或計算保持 FP16 / FP32，其餘用 INT8 / INT4
稀疏化（Sparsity）：刪除不重要的權重，配合硬體稀疏加速

*以上文章部份為AI產生內容，無商業用途。

AI 模型規模、精度壓縮與硬體資源的三維關係全解析

模型規模：7B、10B、20B 的核心含義

精度壓縮：從 FP16 到 INT4 的權衡

硬體資源：GPU、NPU 與行動裝置的適配性