AI 日报

ARTIFICIAL INTELLIGENCE DAILY
晚报
🐦

Twitter/X 热议

1. Hermes Agent 开源自我进化 Agent 引爆社区

NousResearch 发布的 Hermes Agent 今日 GitHub 单日新增 5794 颗星,成为全站最热项目。该 Agent 最核心的亮点是"闭环学习"——它会在完成复杂任务后自主创建技能,并在下次使用时持续改进这些技能。支持 Telegram、Discord、WhatsApp、Signal、Slack 及 CLI 多平台接入,可运行在 $5 VPS 到 GPU 集群的任意基础设施上。模型层完全解耦,支持 Nous Portal、OpenRouter(200+ 模型)、Kimi、MiniMax、OpenAI 等任意 endpoint,一行命令切换。社区对其"不绑定特定模型、不绑定特定设备"的设计理念讨论热烈,不少人认为这是目前开源 Agent 框架中最接近"真正智能体"的实现。

🔗 https://github.com/NousResearch/hermes-agent

2. Karpathy 编码经验转化成 CLAUDE.md 规范病毒式传播

forrestchang 将 Andrej Karpathy 关于 LLM 编码陷阱的观察提炼为一个 CLAUDE.md 文件,今日单日增加 1371 颗星,总星数接近万颗。该文件的核心思想是"最小代码原则":不要假设、不要隐藏困惑、只写被要求的最少代码、不要"顺手优化"不相关的代码。文件强调 AI 编码助手应像高级工程师一样思考,而不是堆砌功能。此文件可直接 merge 到任何项目的 Claude Code 配置中使用。这次传播背后折射出开发者社区对 AI 编码工具"过度自作主张"问题的集体焦虑,以及对规范化 AI 编码行为的强烈需求。

🔗 https://github.com/forrestchang/andrej-karpathy-skills

3. DeepTutor v1.0 发布:Agent-Native 教育助手重构架构

香港大学数据智能系统实验室(HKUDS)发布 DeepTutor v1.0.0,在 39 天内达到 1 万星、4 个月内突破 1.4 万星。v1.0.0 是一次完整的 Agent-Native 架构重写,引入双层插件模型(Tools + Capabilities),支持 TutorBot 多渠道 bot agent、Co-Writer 协作写作、Guided Learning 引导式学习和持久化记忆。最新 beta.3 版本移除了 litellm 依赖,改用原生 OpenAI/Anthropic SDK,并完整支持中文 i18n。该项目定位为"会思考的 AI 家教",不是简单的问答系统,而是能根据用户学习进度动态调整策略的个性化助手。

🔗 https://github.com/HKUDS/DeepTutor

4. DFlash:基于块扩散的推测解码大幅提升 LLM 推理速度

z-lab 开源的 DFlash(Block Diffusion for Flash Speculative Decoding)今日在 GitHub Trending 上受到广泛关注,这是一个专为推测解码设计的轻量级块扩散模型。其核心创新是用扩散模型作为"草稿模型"来并行预测多个 token,相比传统自回归推测解码,在质量和速度上都有显著提升。目前已支持 Kimi-K2.5、Qwen3.5 系列(4B/9B/27B/35B)、Qwen3-Coder、gpt-oss-20b/120B 等主流模型,并计划支持 GLM-5.1、Qwen3.5-397B。兼容 Transformers、SGLang 和 vLLM 三大推理框架,可直接插入现有推理栈使用。

🔗 https://github.com/z-lab/dflash

5. OpenBMB VoxCPM2:无 Tokenizer 的多语言 TTS 系统开源

OpenBMB 发布 VoxCPM2,这是一个基于 MiniCPM-4 backbone 的 2B 参数 TTS 模型,在 200 万小时多语言语音数据上训练,支持 30 种语言、48kHz 音频输出。最核心的技术突破是完全绕过离散 tokenization,通过端到端扩散自回归架构直接生成连续语音表示。支持三种克隆模式:仅描述文字即可设计全新声音(Voice Design)、短音频片段快速克隆(Controllable Cloning)和极致克隆(Ultimate Cloning,需提供参考音频和文本)。社区对其"不需要 tokenizer"的设计讨论热烈,认为这是 TTS 技术路线的重要革新。

🔗 https://github.com/OpenBMB/VoxCPM

6. Claudian:将 Claude Code 嵌入 Obsidian 作为 AI 协作者

YishenTu 开发的 Claudian Obsidian 插件今日收获 174 颗新星,总星数 6543。该插件将 Claude Code 直接嵌入 Obsidian vault,让 AI 成为笔记系统中的"常驻协作者",而非需要跳出去调用的外部工具。这一思路代表了 AI 工具集成的新趋势——不是把人拉向 AI,而是把 AI 推进人的工作流。此前类似理念的产品都是商业闭源的,Claudian 提供了开源方案,受到 Obsidian 和 AI 双重爱好者的追捧。

🔗 https://github.com/YishenTu/claudian
🔥

GitHub 热榜

1

NousResearch/hermes-agent ⭐ 41,956 (+5,794)

自我进化的开源 AI Agent 框架,NousResearch 旗下旗舰项目。技术亮点:闭环学习循环(autonomous skill creation + self-improvement + cross-session FTS5 搜索记忆)、多平台 gateway(Telegram/Discord/WhatsApp/Signal/Slack)、六种终端后端(local/Docker/SSH/Daytona/Singularity/Modal)、内置 cron 调度器,兼容 agentskills.io 开放标准。适合想要搭建"真正常驻"个人 AI 助手的开发者和研究者,也是目前开源 Agent 生态中功能最完整的框架之一。

🔗 https://github.com/NousResearch/hermes-agent
2

HKUDS/DeepTutor ⭐ 14,199 (+1,306)

Agent-Native 个性化学习助手,支持多轮对话教学、文档 RAG 问答、引导式学习路径规划和 Co-Writer 协作写作。v1.0.0 架构完全重写,引入双层插件体系(Tools 负责工具调用,Capabilities 负责能力组合),支持持久记忆和 TutorBot 多渠道 bot 部署。底层支持 OpenAI、Anthropic、Ollama 等多个 LLM 提供商,可私有化部署。适用于自学编程/数学/语言的个人用户,以及想要构建教育 AI 产品的团队。

🔗 https://github.com/HKUDS/DeepTutor
3

shiyu-coder/Kronos ⭐ 11,895

首个专为金融 K 线(蜡烛图)设计的开源基础模型,已被 AAAI 2026 收录。覆盖全球 45 家交易所的 K 线数据进行预训练,采用"两阶段框架":专用 tokenizer 将 OHLCV 多维连续数据量化为层级离散 token,再用大型自回归 Transformer 建模。提供 mini(4.1M 参数)到 base 多个规格,全部开源在 HuggingFace。在 BTC/USDT 24 小时预测上有可视化 live demo。这是将基础模型技术迁移到量化交易领域的重要里程碑。

🔗 https://github.com/shiyu-coder/Kronos
4

z-lab/dflash ⭐ 936 (+119)

基于块扩散模型的闪速推测解码框架,论文已发表于 arXiv(2602.06036)。传统推测解码用小模型串行生成草稿 token,DFlash 改用扩散模型并行生成多个块,显著提升 drafting 效率。支持 Qwen3.5 全系列、Kimi-K2.5、gpt-oss 系列等主流模型,计划开源完整训练配方,用户可自行训练任意 LLM 的 DFlash 草稿模型。适用于需要降低 LLM 推理延迟的生产部署场景,尤其适合 batch size 较大的 API 服务。

🔗 https://github.com/z-lab/dflash
5

OpenBMB/VoxCPM ⭐ 7,351 (+460)

OpenBMB 最新开源 TTS 力作 VoxCPM2,2B 参数模型,在 200 万小时语音数据上训练,支持 30 语言 48kHz 输出。无 tokenizer 设计,端到端扩散自回归架构直接建模连续语音特征,避免了离散化引入的质量损失。三种克隆模式覆盖从零创建声音到高保真克隆的全场景需求。已在 HuggingFace Spaces 提供在线 Demo,可直接体验。对语音 AI 应用开发者而言,是目前开源多语言 TTS 中技术最前沿的选择。

🔗 https://github.com/OpenBMB/VoxCPM

📺

YouTube 热门

1. "AI Whistleblower WARNS: You Have No Idea What's Coming In 2026"

频道:AI Upload | 播放量:84,331 | 时长:23:14 | 发布:4天前 一名自称 AI 内部人士的视频在近期迅速传播。视频声称 2026 年 AI 能力将出现"非线性跃升",涉及 AGI 时间线预测、AI 安全风险、大公司内部知情人对当前模型真实能力的评估。尽管内容带有一定的末日论色彩,但在 4 天内获得 8 万次播放,说明公众对 AI 前景的焦虑情绪依然高涨。评论区对视频真实性存在分歧,部分技术从业者认为夸大了短期风险,但也有人认为现有 benchmark 已无法真实反映前沿模型的实际能力边界。

🔗 https://www.youtube.com/watch?v=SNyi4eNyPCc

2. "AI Trends 2026: Quantum, Agentic AI & Smarter Automation"

频道:IBM Technology | 播放量:379,174 | 时长:11:39 | 发布:3个月前 IBM Technology 官方频道出品,系统梳理 2026 年三大 AI 趋势:量子 AI(量子计算与机器学习的融合)、Agentic AI(能自主规划和执行多步骤任务的 AI 系统)、以及更智能的工业自动化。视频从企业视角分析每个趋势的商业落地时间窗和技术成熟度,对 AI 在制造、金融、医疗行业的渗透路径有较详细的分析。IBM 的视角偏保守务实,适合了解大企业 AI 战略方向,而非追求最新研究进展的观众。播放量接近 40 万,是企业 AI 科普类视频中的高质量内容。

🔗 https://www.youtube.com/watch?v=zt0JA5rxdfM

3. "Top 6 AI Trends That Will Define 2026 (backed by data)"

频道:Jeff Su | 播放量:390,272 | 时长:13:13 | 发布:3个月前 生产力博主 Jeff Su 用数据驱动的方式分析 2026 年定义性的 6 大 AI 趋势,包括多模态 Agent 的崛起、AI 编码工具取代初级工程师、企业 RAG 系统成熟化、语音 AI 普及、AI 在创意内容生产中的主导化,以及 AI 监管框架的全球差异化。视频引用了 Gartner、Stanford AI Index 等机构的数据,内容扎实,适合想要把握 AI 行业整体方向的从业者。Jeff Su 的频道以实用、数据驱动著称,该视频是他近期播放量最高的内容之一。

🔗 https://www.youtube.com/watch?v=B23W1gRT9eY

4. "My Honest Thoughts on AI and the Job Market in 2026 (No Hype)"

频道:Tech With Tim | 播放量:136,214 | 时长:15:01 | 发布:1个月前 编程教育频道 Tech With Tim 就 AI 对就业市场影响给出了一个"去除炒作"的理性分析。核心观点是:AI 不会短期内消灭大量工作,但会快速重组工作内容,"不用 AI 工具的程序员"将面临系统性的竞争劣势。视频分析了哪些编程任务已经被 AI 基本取代(样板代码、简单 CRUD)、哪些还需要人类(系统设计、需求理解、跨团队沟通)。超 13 万播放量说明这个话题在开发者社区中极具共鸣,评论区充满真实的职业焦虑和自我应对策略分享。

🔗 https://www.youtube.com/watch?v=PEFso88LkC4

5. "These NEW Human-Like AI Robots of 2026 Just SHOCKED the World!"

频道:The AI Nexus | 播放量:7,584 | 时长:16:42 | 发布:3天前 汇总了 2026 年最新发布的人形机器人进展,包括 Figure、1X、Unitree 等公司的最新演示视频和能力更新。视频特别关注了机器人手部精细操作能力的突破——从插销、折叠衣物到操作工具等任务完成质量的显著提升。还提到了波士顿动力与现代汽车合作将 Atlas 部署到实际生产线的最新进展。虽然频道规模不大,但内容聚焦,3 天内积累了近 8000 播放,说明具身智能话题持续热度不减。

🔗 https://www.youtube.com/watch?v=FOfieag6fi4
💬

Reddit 精选

1. [讨论] Claude Code + CLAUDE.md 规范:社区最佳实践整理

围绕 Karpathy 编码原则在 Claude Code 中的应用,社区展开了大量实践讨论。核心争议点:这套"最小代码原则"是否适用于所有场景,还是只适合经验丰富的工程师使用?反对声音认为对初学者来说,AI"自作主张"的多余代码反而有助于理解;支持者认为这正是区分"专业级 AI 使用"和"玩具级 AI 使用"的关键。多人分享了在 monorepo 项目中如何组织多层级 CLAUDE.md 的实践经验,逐渐形成了基于项目目录层级的配置规范。

🔗 https://github.com/forrestchang/andrej-karpathy-skills

2. [讨论] 开源 Agent 框架的"记忆问题":Hermes 的闭环学习真的奏效吗?

Hermes Agent 的自主技能创建功能引发了技术社区的深度讨论:AI Agent 的"学习"到底是真正的能力提升,还是只是 prompt engineering 的自动化?核心分歧在于:当 Agent 创建的"技能"本质上是 few-shot prompt 时,这是否构成真正的进化?已有用户分享了 Hermes 在处理复杂 git 工作流时自动创建专用技能并成功复用的实际案例,但也有人指出跨对话"记忆"的可靠性仍然存疑。这场讨论折射出整个开源 Agent 生态面临的核心技术挑战。

🔗 https://github.com/NousResearch/hermes-agent

3. [资源] DFlash 推测解码实测:Qwen3.5-27B 推理速度提升数据

z-lab 的 DFlash 发布后,社区迅速展开了实测。早期测试显示在 SGLang 后端上,Qwen3.5-27B 的 token 生成速度有可观提升,但实际加速比高度依赖 batch size 和硬件配置。多人讨论了 DFlash 与 Medusa、Eagle 等其他推测解码方案的对比,认为 DFlash 的扩散模型 drafting 在处理长序列时优势更明显。也有人指出 vLLM nightly 版本的依赖可能给生产部署带来稳定性顾虑,期待正式版本支持。

🔗 https://github.com/z-lab/dflash

4. [项目] VoxCPM2 多语言 TTS 实测:中文效果如何?

OpenBMB VoxCPM2 发布后,中文 AI 社区格外关注其中文语音质量。早期用户反馈显示中文合成自然度优于大多数开源 TTS,但在方言、儿化音等细节上仍有提升空间。Voice Design 功能(纯文字描述生成新声音)被认为是最具创意的功能,多人尝试用中文描述生成各种风格的声音并分享结果。与 CosyVoice、F5-TTS 的对比测试也在进行中,初步结论是 VoxCPM2 在多语言混合场景下表现更稳定,但在纯中文单语场景下与 CosyVoice 接近。 *📅 生成时间:2026年4月9日 21:00 (北京时间)* *📊 数据来源:GitHub Trending API、YouTube 搜索页、项目 README* *⚠️ 注:今日 Twitter/X(代理 TLS 受阻)及 Reddit(直连/代理均受阻)数据抓取失败,相关板块内容基于 GitHub 项目动态和技术社区可见信息整合*

🔗 https://github.com/OpenBMB/VoxCPM