KV Cache Memory Cost Model

Group-wise low-rank compression with quantization for prefill and decode memory.

Model & sequence parameters

Model preset preset

Hidden dim D4096

Sequence length L32768

Group size G4

Total layers32

Decode tokens T512

Element size (fp16 = 2 B)fp16

Low-rank ranks

Rank ratio β = r_v/r_k1.50

Ranks are derived from target α and β, or you can set r_k directly:

Override r_k (0 = auto)auto

Target α (used if auto)3.0×

Quantization — per matrix type

Quantization applied

A_K shared token basis

bits

group_size128

symmetric

B_K per-layer K factors

bits

group_size128

symmetric

A_V shared value basis

bits

group_size128

symmetric

B_V per-layer V factors

bits

group_size128

symmetric

K_decode dense decode keys

bits

group_sizenone

symmetric

V_decode dense decode values

bits

group_sizenone

symmetric

Quantization overhead includes scale (fp16) and optionally base (fp16, asymmetric only) per group, amortised over each element. group_size = 0 means per-row (one scale per row).

Results

Effective α (full model)

—

vs. dense fp16 baseline

Prefill-only α

—

ignoring decode buffers

Compressed (MB)

—

baseline: —

r_k / r_v

—

resolved ranks

Original

—

Compressed

—

Memory reduction: —

Savings attribution vs dense fp16 baseline

Memory breakdown per group (one group, elements → bytes)

Effective bits-per-element per matrix

Effective bits = data bits + scale overhead + base overhead (if asymmetric). Scale is fp16 (16 bits) per group_size elements. Base is an additional fp16 per group_size elements for asymmetric quantization.

Formula reference