Phison Cache Server Solution

aiDAPTIV+ Cache Server

aiDAPTIV⁺ Cache Server 把 GPU 叢集的 KV Cache 變成跨節點共享的儲存池 — VRAM / DRAM / SSD 分層推論,透過 InfiniBand 或 RoCE 高速網路即取即用。
現有GPU叢集即刻上線、GPU推論成本砍半、Concurrent User倍增、TTFT 大幅下降。

0%↑Up

GPU Saved

透過KV-Cache,GPU節省一半以上的算力。

0.x↑Up

Concurrent Users

同樣的 GPU 叢集,同時並行使用者2倍以上。

0× Faster

TTFT vs. Recompute

透過KV-Cache 回 GPU,比重算 prefill 快 5× 以上,且穩定。

● Architecture

GPU Cluster + Cache Server

現有 GPU Server 透過 InfiniBand / RoCE 連到 Cache Server。 VRAM → DRAM → SSD 三層分層快取,容量隨需擴張,效能與成本同時兼顧。

GPU Server 1

Compute Node

VRAM

DRAM

GPU Server 2

Compute Node

VRAM

DRAM

GPU Server 3

Compute Node

VRAM

DRAM

Hyper-Connections (InfiniBand/RoCE)

Cache Server 1

Shared Cache Node

SSD

·
·
·

SSD

Cache Server 2

Shared Cache Node

SSD

·
·
·

SSD

Shared Cache Pool

Concurrent User 2.x Up ↑

▸ Toggle Hyper-Connections to bring up the shared cache pool

phison

01 / Activate Now

現有 GPU 叢集即刻啟用

現有 GPU Server 透過高速網路存取 Cache Server,無需更換 GPU 或重編應用。

02 / Tiered

分層快取架構

VRAM / DRAM / SSD 三層快取,隨需擴充容量、同時壓低 GPU 運算成本。

03 / Elastic

彈性部署能力

從單一節點到大規模 GPU 叢集,靈活擴張,Kubernetes 原生支援。

04 / Cost

高性價比升級

以經濟的 SSD 取代昂貴 DRAM 擴充,低成本實現效能升級。

適合導入此架構的場景

為Long-context 與 Agentic AI 而生。

Long-Context · RAG / 文件摘要 Agent / Tool-Use 多輪對話需要優化目前 GPU ROI 計畫導入 K8s 叢集推論平台

● Why need KV Cache

Agent 應用為何讓 KV Cache 需求指數型增長?

Agent 不是「一問一答」,而是「思考 → 動作 → 觀察」反覆循環 —— 每一步都把整段歷史壓進 cache。沒有 KV Cache Reuse,每一步都得重算所有歷史 token。

超長系統提示 + 工具定義

Tool schemas、MCP definitions、role instructions —— 5–20k tokens 起跳。

ReAct 迴圈不斷累積

Thought → Action → Observation,每一步都附加進 context,且必須完整保留以維持推理連貫。

會話暫停後,使用者再度載入時需重算

使用者累積Long-Contex上下文後暫停。下次回來時,系統需讓GPU重算。

工具回傳結果龐大

Web search、檔案讀取、資料庫查詢、API 回應常常一次塞進數千 tokens。

Sub-agent 與並行分支

多個 sub-agent 各自帶完整 context,parallel tool calls 導致倍增 Cache 需求。

● AI Memory Wall

AI Memory Wall : VRAM Cache 空間太小, GPU 需不斷重算。

KV Cache 需求是數百 GB 到 TB 級,VRAM+DRAM 卻只能容納一小部分。新 request 一進來就 evict 舊熱資料,舊 session 回來只能重算 prefill —— 惡性循環。

● Before · VRAM / DRAM Only

Cache空間不足→持續Swap→命中率崩跌

KV Cache demand~ hundreds GB – TB

VRAM + DRAM 容量僅能容納一小部分 hot data

惡性循環 LOOP

✕

新 request 載入 KV

舊的熱資料被 LRU 踢掉。
✕

舊 session 回來

Cache miss,只能重算 prefill。
✕

再次 evict 別人

下一輪又重複此循環。

Result: Hit Rate ≈ 10–30% · TTFT 抖動嚴重

● After · VRAM / DRAM + NVMe SSD Tier

Cache 空間擴大 → 命中率躍升

KV Cache demand~ hundreds GB – TB

VRAM + DRAM + NVMe SSD 容量容納整個工作集

帶來的改變

✓

Hot 資料留在 VRAM/DRAM

高頻訪問仍享有 ns–ms 級延遲。
✓

Warm / Cold 留到 SSD

TB 級空間,evict 不再是常態。
✓

需要時再 prefetch 回來

比重算 prefill 仍快 5×+。

Result: Hit Rate ≈ 60–80%+ · TTFT 穩定

● Tiered Cache Architecture

把 KV Cache 從昂貴稀缺的 VRAM,搬到成本效益的儲存層。

VRAM 昂貴又太少容量。透過分層快取,熱資料留在 VRAM/DRAM,溫冷資料使用 NVMe 或 Distributed Cache Server, 叢集任一節點都能命中重用。

GPU VRAM

最快 · 最貴 · 最稀缺。給最熱、正在解碼的 KV。

~GB · ns

Host DRAM

次快 · 容量擴增至數百 GB。承接 VRAM 溢出的近期需求。

GB-TB · μs

Local NVMe

TB 級容量 · 毫秒級存取。低成本承接溫資料。

~10 TB · ms

Distributed Cache Server

TB–PB 級 · RDMA 跨節點共享,叢集任一 prefill node 都可重用。

PB · ms

更長的 Session 留存

舊對話不再被 VRAM 容量擠掉,使用者回來時,調用cache不須重算,體驗連貫。

更高的命中率

Cluster 內任一節點的 cache 可被其他 prefill node 重用,不需 session-aware routing。

成本結構解耦

用便宜的 NVMe / DRAM 換取貴的 VRAM, 單位token 服務成本顯著下降。

Agentic AI 場景受益最大

Agent Workflow、多輪對話、RAG、文件摘要的延遲與穩定性同步改善。

● Outcome

導入 aiDAPTIV⁺ 後 —— 以存代算,大量節省 GPU 算力。

KV Cache 一旦產生,就在整個 Cluster 內可共用。長 prompt、多輪對話、Agent workflow、RAG 的 prefix 不必再每次從零跑起,Time-to-First-Token 立刻下降。

CONCURRENT USERS ↑

0.x^↑

同時並行使用者 2.x↑ Up

同樣的 GPU 叢集,翻倍以上的併發。Prefill 不再佔滿 GPU。

GPU Saved ↑

0^{% ↑}

GPU算力節省一半

透過KV-Cache,GPU節省一半以上的算力。

TTFT Faster ↓

0x^{↓ Faster}

TTFT 大幅降低

命中即返,取代重算 —— 快 5× 以上。

不再讓 GPU 大幅重複算 Prefill。

把 GPU 的時間還給 decode。把 prefill 的計算成本轉嫁給儲存。
aiDAPTIV⁺ 讓你的 AI Factory 跑得更滿、更穩、更便宜。

● Capacity Explorer

aiDAPTIV⁺ vs w/o aiDAPTIV⁺

NVIDIA H200 ×1 + Cache Server, 進行GPT-OSS-120B推論, 透過高速網路的同時使用者承載量,比較 w/o aiDAPTIV⁺ 與 aiDAPTIV⁺ 在 8K~128K context 下的表現。
拖曳以下 SLA 門檻,找到企業工作負載的最佳營運點。

Context length

TTFT SLA · upper bound

≤ 10.0 s

Token Per Second SLA · lower bound

≥ 20 t/s

w/o aiDAPTIV⁺

—

concurrent users

—

Advantage

—

Concurrent Users Enhanced

—

GPU Saved
(1 − w/o aiDAPTIV / aiDAPTIV) × 100%

aiDAPTIV⁺

—

concurrent users

—

Latency & throughput curves

at currently selected context length

TTFT seconds · lower is better

Token Per Second per user · higher is better

w/o aiDAPTIV⁺

aiDAPTIV⁺

SLA threshold

—

aiDAPTIV+ Cache Server

GPU Saved

Concurrent Users

TTFT vs. Recompute

GPU Cluster + Cache Server

Phison Cache Server

現有 GPU 叢集即刻啟用

分層快取架構

彈性部署能力

高性價比升級

適合導入此架構的場景

Agent 應用為何讓 KV Cache 需求指數型增長?

超長系統提示 + 工具定義

ReAct 迴圈不斷累積

會話暫停後,使用者再度載入時需重算

工具回傳結果龐大

Sub-agent 與並行分支

AI Memory Wall : VRAM Cache 空間太小, GPU 需不斷重算。

● Before · VRAM / DRAM Only

Cache空間不足→持續Swap→命中率崩跌

新 request 載入 KV

舊 session 回來

再次 evict 別人

● After · VRAM / DRAM + NVMe SSD Tier

Cache 空間擴大 → 命中率躍升

Hot 資料留在 VRAM/DRAM

Warm / Cold 留到 SSD

需要時再 prefetch 回來

把 KV Cache 從昂貴稀缺的 VRAM,搬到成本效益的儲存層。

更長的 Session 留存

更高的命中率

成本結構解耦

Agentic AI 場景受益最大

導入 aiDAPTIV+ 後 —— 以存代算,大量節省 GPU 算力。

同時並行使用者 2.x↑ Up

GPU算力節省一半

TTFT 大幅降低

不再讓 GPU 大幅重複算 Prefill。

aiDAPTIV+ vs w/o aiDAPTIV+

Latency & throughput curves

導入 aiDAPTIV⁺ 後 —— 以存代算,大量節省 GPU 算力。

aiDAPTIV⁺ vs w/o aiDAPTIV⁺