aiDAPTIV+ Cache Server
aiDAPTIV+ Cache Server 把 GPU 叢集的 KV Cache 變成跨節點共享的儲存池 —
VRAM / DRAM / SSD 分層推論,透過 InfiniBand 或 RoCE 高速網路即取即用。
現有GPU叢集即刻上線、GPU推論成本砍半、Concurrent User倍增、TTFT 大幅下降。
GPU Saved
透過KV-Cache,GPU節省一半以上的算力。
Concurrent Users
同樣的 GPU 叢集,同時並行使用者2倍以上。
TTFT vs. Recompute
透過KV-Cache 回 GPU,比重算 prefill 快 5× 以上,且穩定。
GPU Cluster + Cache Server
現有 GPU Server 透過 InfiniBand / RoCE 連到 Cache Server。 VRAM → DRAM → SSD 三層分層快取,容量隨需擴張,效能與成本同時兼顧。
Phison Cache Server
·
·
·
·
現有 GPU 叢集即刻啟用
現有 GPU Server 透過高速網路存取 Cache Server,無需更換 GPU 或重編應用。
分層快取架構
VRAM / DRAM / SSD 三層快取,隨需擴充容量、同時壓低 GPU 運算成本。
彈性部署能力
從單一節點到大規模 GPU 叢集,靈活擴張,Kubernetes 原生支援。
高性價比升級
以經濟的 SSD 取代昂貴 DRAM 擴充,低成本實現效能升級。
適合導入此架構的場景
為Long-context 與 Agentic AI 而生。
Agent 應用為何讓 KV Cache 需求指數型增長?
Agent 不是「一問一答」,而是「思考 → 動作 → 觀察」反覆循環 —— 每一步都把整段歷史壓進 cache。 沒有 KV Cache Reuse,每一步都得重算所有歷史 token。
超長系統提示 + 工具定義
Tool schemas、MCP definitions、role instructions —— 5–20k tokens 起跳。
ReAct 迴圈不斷累積
Thought → Action → Observation,每一步都附加進 context,且必須完整保留以維持推理連貫。
會話暫停後,使用者再度載入時需重算
使用者累積Long-Contex上下文後暫停。下次回來時,系統需讓GPU重算。
工具回傳結果龐大
Web search、檔案讀取、資料庫查詢、API 回應常常一次塞進數千 tokens。
Sub-agent 與並行分支
多個 sub-agent 各自帶完整 context,parallel tool calls 導致倍增 Cache 需求。
AI Memory Wall : VRAM Cache 空間太小, GPU 需不斷重算。
KV Cache 需求是數百 GB 到 TB 級,VRAM+DRAM 卻只能容納一小部分。 新 request 一進來就 evict 舊熱資料,舊 session 回來只能重算 prefill —— 惡性循環。
● Before · VRAM / DRAM Only
Cache空間不足→持續Swap→命中率崩跌
-
✕
新 request 載入 KV
舊的熱資料被 LRU 踢掉。
-
✕
舊 session 回來
Cache miss,只能重算 prefill。
-
✕
再次 evict 別人
下一輪又重複此循環。
● After · VRAM / DRAM + NVMe SSD Tier
Cache 空間擴大 → 命中率躍升
-
✓
Hot 資料留在 VRAM/DRAM
高頻訪問仍享有 ns–ms 級延遲。
-
✓
Warm / Cold 留到 SSD
TB 級空間,evict 不再是常態。
-
✓
需要時再 prefetch 回來
比重算 prefill 仍快 5×+。
把 KV Cache 從昂貴稀缺的 VRAM,搬到成本效益的儲存層。
VRAM 昂貴又太少容量。透過分層快取,熱資料留在 VRAM/DRAM,溫冷資料使用 NVMe 或 Distributed Cache Server, 叢集任一節點都能命中重用。
更長的 Session 留存
舊對話不再被 VRAM 容量擠掉,使用者回來時,調用cache不須重算,體驗連貫。
更高的命中率
Cluster 內任一節點的 cache 可被其他 prefill node 重用,不需 session-aware routing。
成本結構解耦
用便宜的 NVMe / DRAM 換取貴的 VRAM, 單位token 服務成本顯著下降。
Agentic AI 場景受益最大
Agent Workflow、多輪對話、RAG、文件摘要的延遲與穩定性同步改善。
導入 aiDAPTIV+ 後 —— 以存代算,大量節省 GPU 算力。
KV Cache 一旦產生,就在整個 Cluster 內可共用。長 prompt、多輪對話、Agent workflow、RAG 的 prefix 不必再每次從零跑起,Time-to-First-Token 立刻下降。
同時並行使用者 2.x↑ Up
同樣的 GPU 叢集,翻倍以上的併發。Prefill 不再佔滿 GPU。
GPU算力節省一半
透過KV-Cache,GPU節省一半以上的算力。
TTFT 大幅降低
命中即返,取代重算 —— 快 5× 以上。
不再讓 GPU 大幅重複算 Prefill。
把 GPU 的時間還給 decode。把 prefill 的計算成本轉嫁給儲存。
aiDAPTIV+ 讓你的 AI Factory 跑得更滿、更穩、更便宜。
aiDAPTIV+ vs w/o aiDAPTIV+
NVIDIA H200 ×1 + Cache Server, 進行GPT-OSS-120B推論, 透過高速網路的同時使用者承載量,比較 w/o aiDAPTIV+ 與 aiDAPTIV+ 在 8K~128K context 下的表現。
拖曳以下 SLA 門檻,找到企業工作負載的最佳營運點。
(1 − w/o aiDAPTIV / aiDAPTIV) × 100%