1. Google Research 发布 TurboQuant:KV 缓存压缩 6 倍,推理加速 8 倍
Google Research 今天正式发布了 TurboQuant 压缩算法,专门针对 LLM 推理中的 Key-Value 缓存瓶颈。该技术通过随机旋转数据使其可压缩,再用标准工具将每个值压缩到约 3 比特,配合 1 比特校正层实现零精度损失。实测在 Llama 70B 长对话场景中,KV 缓存从 40GB 降至不到 7GB,推理速度提升 8 倍。官推获得 379 万次浏览、1.34 万点赞、1971 次转推。社区高度兴奋,认为这意味着长上下文窗口的成本将降低 6 倍以上,本地推理大模型变得更加可行。目前尚无 PyTorch/CUDA 开源实现,需等待 Google 后续发布。
🔗 https://x.com/GoogleResearch/status/2036533564158910740