1. Google 开源 DiffusionGemma:扩散机制颠覆文本生成范式
Google 联合 NVIDIA 正式发布 DiffusionGemma,这是一个将扩散模型机制引入文本生成的开创性模型。它彻底跳出传统自回归逐字生成的老路,能一次性并行输出 256 个 token。模型采用 26B MoE 架构,推理时仅激活 3.8B 参数,量化后可适配 18GB 消费级显卡。在硬件性能上表现亮眼:H100 每秒可输出 1000 token,5090 可达 700+ token/s,将解码瓶颈从内存带宽转向计算,显著提升吞吐。社区评价颇高,认为这是继 Transformer 之后文本生成架构的一次重要探索。
🔗 https://twitter.com/i/web/status/2065010917679726981