Phison Cache Server Solution

aiDAPTIV+ Cache Server

aiDAPTIV+ Cache Server 把 GPU 叢集的 KV Cache 變成跨節點共享的儲存池 — VRAM / DRAM / SSD 分層推論,透過 InfiniBand 或 RoCE 高速網路即取即用。
現有GPU叢集即刻上線、GPU推論成本砍半、Concurrent User倍增、TTFT 大幅下降。

0%↑Up

GPU Saved

透過KV-Cache,GPU節省一半以上的算力。

0.x↑Up

Concurrent Users

同樣的 GPU 叢集,同時並行使用者2倍以上。

0× Faster

TTFT vs. Recompute

透過KV-Cache 回 GPU,比重算 prefill 快 5× 以上,且穩定。

● Architecture

GPU Cluster + Cache Server

現有 GPU Server 透過 InfiniBand / RoCE 連到 Cache Server。 VRAM → DRAM → SSD 三層分層快取,容量隨需擴張,效能與成本同時兼顧。

Phison Cache Server

Phison Cache Server

Cluster Inference with KVCache ReUse
GPU Server 1
Compute Node
VRAM
DRAM
GPU Server 2
Compute Node
VRAM
DRAM
GPU Server 3
Compute Node
VRAM
DRAM
Hyper-Connections (InfiniBand/RoCE)
Cache Server 1
Shared Cache Node
SSD
·
·
·
SSD
Cache Server 2
Shared Cache Node
SSD
·
·
·
SSD
Shared Cache Pool
Concurrent User 2.x Up
▸ Toggle Hyper-Connections to bring up the shared cache pool
phison
01 / Activate Now
現有 GPU 叢集即刻啟用

現有 GPU Server 透過高速網路存取 Cache Server,無需更換 GPU 或重編應用。

02 / Tiered
分層快取架構

VRAM / DRAM / SSD 三層快取,隨需擴充容量、同時壓低 GPU 運算成本。

03 / Elastic
彈性部署能力

從單一節點到大規模 GPU 叢集,靈活擴張,Kubernetes 原生支援。

04 / Cost
高性價比升級

以經濟的 SSD 取代昂貴 DRAM 擴充,低成本實現效能升級。

適合導入此架構的場景

為Long-context 與 Agentic AI 而生。

Long-Context · RAG / 文件摘要 Agent / Tool-Use 多輪對話 需要優化目前 GPU ROI 計畫導入 K8s 叢集推論平台
● Why need KV Cache

Agent 應用為何讓 KV Cache 需求指數型增長?

Agent 不是「一問一答」,而是「思考 → 動作 → 觀察」反覆循環 —— 每一步都把整段歷史壓進 cache。 沒有 KV Cache Reuse,每一步都得重算所有歷史 token。

01
超長系統提示 + 工具定義

Tool schemas、MCP definitions、role instructions —— 5–20k tokens 起跳。

02
ReAct 迴圈不斷累積

Thought → Action → Observation,每一步都附加進 context,且必須完整保留以維持推理連貫。

03
會話暫停後,使用者再度載入時需重算

使用者累積Long-Contex上下文後暫停。下次回來時,系統需讓GPU重算。

04
工具回傳結果龐大

Web search、檔案讀取、資料庫查詢、API 回應常常一次塞進數千 tokens。

05
Sub-agent 與並行分支

多個 sub-agent 各自帶完整 context,parallel tool calls 導致倍增 Cache 需求。

● AI Memory Wall

AI Memory Wall : VRAM Cache 空間太小, GPU 需不斷重算。

KV Cache 需求是數百 GB 到 TB 級,VRAM+DRAM 卻只能容納一小部分。 新 request 一進來就 evict 舊熱資料,舊 session 回來只能重算 prefill —— 惡性循環。

● Before · VRAM / DRAM Only

Cache空間不足→持續Swap→命中率崩跌

KV Cache demand~ hundreds GB – TB
VRAM + DRAM 容量僅能容納一小部分 hot data
惡性循環 LOOP
  • 新 request 載入 KV

    舊的熱資料被 LRU 踢掉。

  • 舊 session 回來

    Cache miss,只能重算 prefill。

  • 再次 evict 別人

    下一輪又重複此循環。

  • Result: Hit Rate ≈ 10–30% · TTFT 抖動嚴重

● After · VRAM / DRAM + NVMe SSD Tier

Cache 空間擴大 → 命中率躍升

KV Cache demand~ hundreds GB – TB
VRAM + DRAM + NVMe SSD 容量容納整個工作集
帶來的改變
  • Hot 資料留在 VRAM/DRAM

    高頻訪問仍享有 ns–ms 級延遲。

  • Warm / Cold 留到 SSD

    TB 級空間,evict 不再是常態。

  • 需要時再 prefetch 回來

    比重算 prefill 仍快 5×+。

  • Result: Hit Rate ≈ 60–80%+ · TTFT 穩定
● Tiered Cache Architecture

把 KV Cache 從昂貴稀缺的 VRAM,搬到成本效益的儲存層。

VRAM 昂貴又太少容量。透過分層快取,熱資料留在 VRAM/DRAM,溫冷資料使用 NVMe 或 Distributed Cache Server, 叢集任一節點都能命中重用。

GPU VRAM
最快 · 最貴 · 最稀缺。給最熱、正在解碼的 KV。
~GB · ns
Host DRAM
次快 · 容量擴增至數百 GB。承接 VRAM 溢出的近期需求。
GB-TB · μs
Local NVMe
TB 級容量 · 毫秒級存取。低成本承接溫資料。
~10 TB · ms
Distributed Cache Server
TB–PB 級 · RDMA 跨節點共享,叢集任一 prefill node 都可重用。
PB · ms
更長的 Session 留存

舊對話不再被 VRAM 容量擠掉,使用者回來時,調用cache不須重算,體驗連貫。

更高的命中率

Cluster 內任一節點的 cache 可被其他 prefill node 重用,不需 session-aware routing。

成本結構解耦

用便宜的 NVMe / DRAM 換取貴的 VRAM, 單位token 服務成本顯著下降。

Agentic AI 場景受益最大

Agent Workflow、多輪對話、RAG、文件摘要的延遲與穩定性同步改善。

● Outcome

導入 aiDAPTIV+ 後 —— 以存代算,大量節省 GPU 算力。

KV Cache 一旦產生,就在整個 Cluster 內可共用。長 prompt、多輪對話、Agent workflow、RAG 的 prefix 不必再每次從零跑起,Time-to-First-Token 立刻下降。

CONCURRENT USERS ↑
0.x

同時並行使用者 2.x↑ Up

同樣的 GPU 叢集,翻倍以上的併發。Prefill 不再佔滿 GPU。

GPU Saved ↑
0% ↑

GPU算力節省一半

透過KV-Cache,GPU節省一半以上的算力。

TTFT Faster ↓
0x↓ Faster

TTFT 大幅降低

命中即返,取代重算 —— 快 5× 以上。

不再讓 GPU 大幅重複算 Prefill。

把 GPU 的時間還給 decode。把 prefill 的計算成本轉嫁給儲存。
aiDAPTIV+ 讓你的 AI Factory 跑得更滿、更穩、更便宜。

● Capacity Explorer

aiDAPTIV+ vs w/o aiDAPTIV+

NVIDIA H200 ×1 + Cache Server, 進行GPT-OSS-120B推論, 透過高速網路的同時使用者承載量,比較 w/o aiDAPTIV+ 與 aiDAPTIV+ 在 8K~128K context 下的表現。
拖曳以下 SLA 門檻,找到企業工作負載的最佳營運點。

Context length
TTFT SLA · upper bound
≤ 10.0 s
Token Per Second SLA · lower bound
≥ 20 t/s
w/o aiDAPTIV+
concurrent users
Advantage
Concurrent Users Enhanced
GPU Saved
(1 − w/o aiDAPTIV / aiDAPTIV) × 100%
aiDAPTIV+
concurrent users

Latency & throughput curves

at currently selected context length
TTFT seconds · lower is better
Token Per Second per user · higher is better
w/o aiDAPTIV+
aiDAPTIV+
SLA threshold
© 2026 · Phison Cache Server  ·  aiDAPTIV+
Built for long-context, agentic inference at scale