1. Google TurboQuant 震撼发布:LLM 内存占用降 6 倍、速度提升 8 倍
Google 正式发布 TurboQuant,一种全新的 AI 模型压缩算法,通过纯软件方式将大语言模型的内存占用降低 6 倍,推理速度提升最高 8 倍。该算法的核心创新在于对 KV 缓存进行超高效量化压缩,同时几乎不损失模型质量。这意味着原本需要高端 GPU 的模型现在可以在消费级硬件上流畅运行。社区已迅速将其集成到 llama.cpp 和 MLX 等推理框架中,效果显著。该推文获得 5935 赞和 45.8 万浏览,是今日 AI 领域最热话题之一。TurboQuant 有望从根本上改变本地 AI 推理的硬件门槛。
🔗 https://x.com/i/status/2037549071506796590