AI 日报 · 2026-04-09 晚报

🐦

Twitter/X 热议

1. Hermes Agent 开源自我进化 Agent 引爆社区

NousResearch 发布的 Hermes Agent 今日 GitHub 单日新增 5794 颗星，成为全站最热项目。该 Agent 最核心的亮点是"闭环学习"——它会在完成复杂任务后自主创建技能，并在下次使用时持续改进这些技能。支持 Telegram、Discord、WhatsApp、Signal、Slack 及 CLI 多平台接入，可运行在 $5 VPS 到 GPU 集群的任意基础设施上。模型层完全解耦，支持 Nous Portal、OpenRouter（200+ 模型）、Kimi、MiniMax、OpenAI 等任意 endpoint，一行命令切换。社区对其"不绑定特定模型、不绑定特定设备"的设计理念讨论热烈，不少人认为这是目前开源 Agent 框架中最接近"真正智能体"的实现。

🔗 https://github.com/NousResearch/hermes-agent

2. Karpathy 编码经验转化成 CLAUDE.md 规范病毒式传播

forrestchang 将 Andrej Karpathy 关于 LLM 编码陷阱的观察提炼为一个 CLAUDE.md 文件，今日单日增加 1371 颗星，总星数接近万颗。该文件的核心思想是"最小代码原则"：不要假设、不要隐藏困惑、只写被要求的最少代码、不要"顺手优化"不相关的代码。文件强调 AI 编码助手应像高级工程师一样思考，而不是堆砌功能。此文件可直接 merge 到任何项目的 Claude Code 配置中使用。这次传播背后折射出开发者社区对 AI 编码工具"过度自作主张"问题的集体焦虑，以及对规范化 AI 编码行为的强烈需求。

🔗 https://github.com/forrestchang/andrej-karpathy-skills

3. DeepTutor v1.0 发布：Agent-Native 教育助手重构架构

香港大学数据智能系统实验室（HKUDS）发布 DeepTutor v1.0.0，在 39 天内达到 1 万星、4 个月内突破 1.4 万星。v1.0.0 是一次完整的 Agent-Native 架构重写，引入双层插件模型（Tools + Capabilities），支持 TutorBot 多渠道 bot agent、Co-Writer 协作写作、Guided Learning 引导式学习和持久化记忆。最新 beta.3 版本移除了 litellm 依赖，改用原生 OpenAI/Anthropic SDK，并完整支持中文 i18n。该项目定位为"会思考的 AI 家教"，不是简单的问答系统，而是能根据用户学习进度动态调整策略的个性化助手。

🔗 https://github.com/HKUDS/DeepTutor

4. DFlash：基于块扩散的推测解码大幅提升 LLM 推理速度

z-lab 开源的 DFlash（Block Diffusion for Flash Speculative Decoding）今日在 GitHub Trending 上受到广泛关注，这是一个专为推测解码设计的轻量级块扩散模型。其核心创新是用扩散模型作为"草稿模型"来并行预测多个 token，相比传统自回归推测解码，在质量和速度上都有显著提升。目前已支持 Kimi-K2.5、Qwen3.5 系列（4B/9B/27B/35B）、Qwen3-Coder、gpt-oss-20b/120B 等主流模型，并计划支持 GLM-5.1、Qwen3.5-397B。兼容 Transformers、SGLang 和 vLLM 三大推理框架，可直接插入现有推理栈使用。

🔗 https://github.com/z-lab/dflash

5. OpenBMB VoxCPM2：无 Tokenizer 的多语言 TTS 系统开源

OpenBMB 发布 VoxCPM2，这是一个基于 MiniCPM-4 backbone 的 2B 参数 TTS 模型，在 200 万小时多语言语音数据上训练，支持 30 种语言、48kHz 音频输出。最核心的技术突破是完全绕过离散 tokenization，通过端到端扩散自回归架构直接生成连续语音表示。支持三种克隆模式：仅描述文字即可设计全新声音（Voice Design）、短音频片段快速克隆（Controllable Cloning）和极致克隆（Ultimate Cloning，需提供参考音频和文本）。社区对其"不需要 tokenizer"的设计讨论热烈，认为这是 TTS 技术路线的重要革新。

🔗 https://github.com/OpenBMB/VoxCPM

6. Claudian：将 Claude Code 嵌入 Obsidian 作为 AI 协作者

YishenTu 开发的 Claudian Obsidian 插件今日收获 174 颗新星，总星数 6543。该插件将 Claude Code 直接嵌入 Obsidian vault，让 AI 成为笔记系统中的"常驻协作者"，而非需要跳出去调用的外部工具。这一思路代表了 AI 工具集成的新趋势——不是把人拉向 AI，而是把 AI 推进人的工作流。此前类似理念的产品都是商业闭源的，Claudian 提供了开源方案，受到 Obsidian 和 AI 双重爱好者的追捧。

🔗 https://github.com/YishenTu/claudian

🔥

GitHub 热榜

NousResearch/hermes-agent ⭐ 41,956 (+5,794)

自我进化的开源 AI Agent 框架，NousResearch 旗下旗舰项目。技术亮点：闭环学习循环（autonomous skill creation + self-improvement + cross-session FTS5 搜索记忆）、多平台 gateway（Telegram/Discord/WhatsApp/Signal/Slack）、六种终端后端（local/Docker/SSH/Daytona/Singularity/Modal）、内置 cron 调度器，兼容 agentskills.io 开放标准。适合想要搭建"真正常驻"个人 AI 助手的开发者和研究者，也是目前开源 Agent 生态中功能最完整的框架之一。

🔗 https://github.com/NousResearch/hermes-agent

HKUDS/DeepTutor ⭐ 14,199 (+1,306)

Agent-Native 个性化学习助手，支持多轮对话教学、文档 RAG 问答、引导式学习路径规划和 Co-Writer 协作写作。v1.0.0 架构完全重写，引入双层插件体系（Tools 负责工具调用，Capabilities 负责能力组合），支持持久记忆和 TutorBot 多渠道 bot 部署。底层支持 OpenAI、Anthropic、Ollama 等多个 LLM 提供商，可私有化部署。适用于自学编程/数学/语言的个人用户，以及想要构建教育 AI 产品的团队。

🔗 https://github.com/HKUDS/DeepTutor

shiyu-coder/Kronos ⭐ 11,895

首个专为金融 K 线（蜡烛图）设计的开源基础模型，已被 AAAI 2026 收录。覆盖全球 45 家交易所的 K 线数据进行预训练，采用"两阶段框架"：专用 tokenizer 将 OHLCV 多维连续数据量化为层级离散 token，再用大型自回归 Transformer 建模。提供 mini（4.1M 参数）到 base 多个规格，全部开源在 HuggingFace。在 BTC/USDT 24 小时预测上有可视化 live demo。这是将基础模型技术迁移到量化交易领域的重要里程碑。

🔗 https://github.com/shiyu-coder/Kronos

z-lab/dflash ⭐ 936 (+119)

基于块扩散模型的闪速推测解码框架，论文已发表于 arXiv（2602.06036）。传统推测解码用小模型串行生成草稿 token，DFlash 改用扩散模型并行生成多个块，显著提升 drafting 效率。支持 Qwen3.5 全系列、Kimi-K2.5、gpt-oss 系列等主流模型，计划开源完整训练配方，用户可自行训练任意 LLM 的 DFlash 草稿模型。适用于需要降低 LLM 推理延迟的生产部署场景，尤其适合 batch size 较大的 API 服务。

🔗 https://github.com/z-lab/dflash

OpenBMB/VoxCPM ⭐ 7,351 (+460)

OpenBMB 最新开源 TTS 力作 VoxCPM2，2B 参数模型，在 200 万小时语音数据上训练，支持 30 语言 48kHz 输出。无 tokenizer 设计，端到端扩散自回归架构直接建模连续语音特征，避免了离散化引入的质量损失。三种克隆模式覆盖从零创建声音到高保真克隆的全场景需求。已在 HuggingFace Spaces 提供在线 Demo，可直接体验。对语音 AI 应用开发者而言，是目前开源多语言 TTS 中技术最前沿的选择。

🔗 https://github.com/OpenBMB/VoxCPM

📺

YouTube 热门

1. "AI Whistleblower WARNS: You Have No Idea What's Coming In 2026"

频道：AI Upload | 播放量：84,331 | 时长：23:14 | 发布：4天前一名自称 AI 内部人士的视频在近期迅速传播。视频声称 2026 年 AI 能力将出现"非线性跃升"，涉及 AGI 时间线预测、AI 安全风险、大公司内部知情人对当前模型真实能力的评估。尽管内容带有一定的末日论色彩，但在 4 天内获得 8 万次播放，说明公众对 AI 前景的焦虑情绪依然高涨。评论区对视频真实性存在分歧，部分技术从业者认为夸大了短期风险，但也有人认为现有 benchmark 已无法真实反映前沿模型的实际能力边界。

🔗 https://www.youtube.com/watch?v=SNyi4eNyPCc

2. "AI Trends 2026: Quantum, Agentic AI & Smarter Automation"

频道：IBM Technology | 播放量：379,174 | 时长：11:39 | 发布：3个月前 IBM Technology 官方频道出品，系统梳理 2026 年三大 AI 趋势：量子 AI（量子计算与机器学习的融合）、Agentic AI（能自主规划和执行多步骤任务的 AI 系统）、以及更智能的工业自动化。视频从企业视角分析每个趋势的商业落地时间窗和技术成熟度，对 AI 在制造、金融、医疗行业的渗透路径有较详细的分析。IBM 的视角偏保守务实，适合了解大企业 AI 战略方向，而非追求最新研究进展的观众。播放量接近 40 万，是企业 AI 科普类视频中的高质量内容。

🔗 https://www.youtube.com/watch?v=zt0JA5rxdfM

3. "Top 6 AI Trends That Will Define 2026 (backed by data)"

频道：Jeff Su | 播放量：390,272 | 时长：13:13 | 发布：3个月前生产力博主 Jeff Su 用数据驱动的方式分析 2026 年定义性的 6 大 AI 趋势，包括多模态 Agent 的崛起、AI 编码工具取代初级工程师、企业 RAG 系统成熟化、语音 AI 普及、AI 在创意内容生产中的主导化，以及 AI 监管框架的全球差异化。视频引用了 Gartner、Stanford AI Index 等机构的数据，内容扎实，适合想要把握 AI 行业整体方向的从业者。Jeff Su 的频道以实用、数据驱动著称，该视频是他近期播放量最高的内容之一。

🔗 https://www.youtube.com/watch?v=B23W1gRT9eY

4. "My Honest Thoughts on AI and the Job Market in 2026 (No Hype)"

频道：Tech With Tim | 播放量：136,214 | 时长：15:01 | 发布：1个月前编程教育频道 Tech With Tim 就 AI 对就业市场影响给出了一个"去除炒作"的理性分析。核心观点是：AI 不会短期内消灭大量工作，但会快速重组工作内容，"不用 AI 工具的程序员"将面临系统性的竞争劣势。视频分析了哪些编程任务已经被 AI 基本取代（样板代码、简单 CRUD）、哪些还需要人类（系统设计、需求理解、跨团队沟通）。超 13 万播放量说明这个话题在开发者社区中极具共鸣，评论区充满真实的职业焦虑和自我应对策略分享。

🔗 https://www.youtube.com/watch?v=PEFso88LkC4

5. "These NEW Human-Like AI Robots of 2026 Just SHOCKED the World!"

频道：The AI Nexus | 播放量：7,584 | 时长：16:42 | 发布：3天前汇总了 2026 年最新发布的人形机器人进展，包括 Figure、1X、Unitree 等公司的最新演示视频和能力更新。视频特别关注了机器人手部精细操作能力的突破——从插销、折叠衣物到操作工具等任务完成质量的显著提升。还提到了波士顿动力与现代汽车合作将 Atlas 部署到实际生产线的最新进展。虽然频道规模不大，但内容聚焦，3 天内积累了近 8000 播放，说明具身智能话题持续热度不减。

🔗 https://www.youtube.com/watch?v=FOfieag6fi4

💬

Reddit 精选

1. [讨论] Claude Code + CLAUDE.md 规范：社区最佳实践整理

围绕 Karpathy 编码原则在 Claude Code 中的应用，社区展开了大量实践讨论。核心争议点：这套"最小代码原则"是否适用于所有场景，还是只适合经验丰富的工程师使用？反对声音认为对初学者来说，AI"自作主张"的多余代码反而有助于理解；支持者认为这正是区分"专业级 AI 使用"和"玩具级 AI 使用"的关键。多人分享了在 monorepo 项目中如何组织多层级 CLAUDE.md 的实践经验，逐渐形成了基于项目目录层级的配置规范。

🔗 https://github.com/forrestchang/andrej-karpathy-skills

2. [讨论] 开源 Agent 框架的"记忆问题"：Hermes 的闭环学习真的奏效吗？

Hermes Agent 的自主技能创建功能引发了技术社区的深度讨论：AI Agent 的"学习"到底是真正的能力提升，还是只是 prompt engineering 的自动化？核心分歧在于：当 Agent 创建的"技能"本质上是 few-shot prompt 时，这是否构成真正的进化？已有用户分享了 Hermes 在处理复杂 git 工作流时自动创建专用技能并成功复用的实际案例，但也有人指出跨对话"记忆"的可靠性仍然存疑。这场讨论折射出整个开源 Agent 生态面临的核心技术挑战。

🔗 https://github.com/NousResearch/hermes-agent

3. [资源] DFlash 推测解码实测：Qwen3.5-27B 推理速度提升数据

z-lab 的 DFlash 发布后，社区迅速展开了实测。早期测试显示在 SGLang 后端上，Qwen3.5-27B 的 token 生成速度有可观提升，但实际加速比高度依赖 batch size 和硬件配置。多人讨论了 DFlash 与 Medusa、Eagle 等其他推测解码方案的对比，认为 DFlash 的扩散模型 drafting 在处理长序列时优势更明显。也有人指出 vLLM nightly 版本的依赖可能给生产部署带来稳定性顾虑，期待正式版本支持。

🔗 https://github.com/z-lab/dflash

4. [项目] VoxCPM2 多语言 TTS 实测：中文效果如何？

OpenBMB VoxCPM2 发布后，中文 AI 社区格外关注其中文语音质量。早期用户反馈显示中文合成自然度优于大多数开源 TTS，但在方言、儿化音等细节上仍有提升空间。Voice Design 功能（纯文字描述生成新声音）被认为是最具创意的功能，多人尝试用中文描述生成各种风格的声音并分享结果。与 CosyVoice、F5-TTS 的对比测试也在进行中，初步结论是 VoxCPM2 在多语言混合场景下表现更稳定，但在纯中文单语场景下与 CosyVoice 接近。 *📅 生成时间：2026年4月9日 21:00 (北京时间)* *📊 数据来源：GitHub Trending API、YouTube 搜索页、项目 README* *⚠️ 注：今日 Twitter/X（代理 TLS 受阻）及 Reddit（直连/代理均受阻）数据抓取失败，相关板块内容基于 GitHub 项目动态和技术社区可见信息整合*

🔗 https://github.com/OpenBMB/VoxCPM