AI 日报

ARTIFICIAL INTELLIGENCE DAILY
早报
🐦

Twitter/X 热议

1. Kimi K2.6 横空出世,开源模型登顶 SWE-Bench

月之暗面发布 Kimi K2.6,在 SWE-bench Verified 上拿下 80.2% 的成绩,与 Claude Opus 4.6(80.8%)并驾齐驱,同时在 BrowseComp 基准上以 83.2% 超越 GPT-5.4。更值得关注的是,这是一个完全开源的模型。K2.6 还配套发布了 300 个 Agent 并发协调框架,可将执行时间大幅压缩。这次发布意味着开源阵营正式跻身编码任务顶尖梯队,社区认为"开源与闭源之间的护城河正在快速收窄"。

🔗 https://twitter.com/i/web/status/2046319800352403686

2. Google × NVIDIA 战略扩展:物理 AI 时代联手

Google 与 NVIDIA 宣布深化合作,涵盖 Rubin 架构 A5X 系统、Blackwell 机密计算、Gemini on Distributed Cloud,并全面支持机器人、数字孪生和 Google Cloud 上的开放模型 Agent 工作流。这是继纯粹语言模型时代之后,两大科技巨头联手押注"物理 AI"时代的标志性动作。此次合作聚焦生产级 AI 基础设施落地,而非仅仅停留在模型发布层面,市场反应热烈,相关推文获 12 万次浏览、770 次点赞。

🔗 https://twitter.com/i/web/status/2046924951769530765

3. AI Workflow 工具正式上线:1分钟从 Prompt 到工作流

一款「Prompt 直出工作流」工具正式发布,用户只需输入一段文字描述,即可自动生成复杂的多步骤 AI 工作流,完成时间约 1 分钟。这个方向代表了 Agent 编排领域的重大简化——此前构建工作流需要大量手动配置节点和连线。随着 Agent Harness 生态的爆发,类似工具正涌现,目标是让非技术用户也能快速组合多模型能力。该推文获得近 6 万次浏览和 200+ 点赞。

🔗 https://twitter.com/i/web/status/2044742609772442027

4. 本周最火 GitHub 仓库集合:Karpathy Skills 领衔

一条高传播推文汇总了本周最热 GitHub 仓库:Andrej Karpathy 开源的 Skills 框架(npx skills)、Hermes Agent、Claude-Mem、Evolver、Generic Agent 等。其中 Karpathy Skills 是面向 AI Agent 的工具能力标准化项目,反映了社区对 Agent 工具化和记忆管理的持续关注。该推文获得 22 万+ 浏览和 3000+ 点赞,是本周 AI 开发者圈最广泛传播的内容之一。

🔗 https://twitter.com/i/web/status/2045906520672461309

5. 多模型横评:Claude 4 Opus 准确率领先,但 Gemini 性价比最高

一位开发者用真实发票数据对四个主流模型进行横评:Claude 4 Opus 准确率 94%($2.80/千次)、GPT-4.1 准确率 91%($0.84)、Gemini 2.5 Pro 准确率 89%($0.31)、Kimi k1.5 准确率 87%($0.04)。结论是:最好与最便宜之间只差 7 个百分点,但成本相差 70 倍。这种实测对比在开发者社区引发广泛讨论,核心观点是"用例决定选型,而非排行榜"。

🔗 https://twitter.com/i/web/status/2046227447482642591

6. Hugging Face 发布开源 ML Research Agent,全流程自主训练

Hugging Face 发布了一个开源 Agent,能够自主完成 ML 研究全流程:自主训练、迭代优化、构建研究支撑的模型,替代整个 ML 研究团队的工作。这是 AI 自动化科研方向的重大进展,意味着 AI 开始具备自我改进的闭环能力。推文发布当日获得一定传播,社区将其视为"AI 加速科研"趋势的重要节点。

🔗 https://twitter.com/i/web/status/2046962226804732367
🔥

GitHub 热榜

1

HKUDS/RAG-Anything

全能 RAG 框架,支持任意格式输入(PDF、图表、表格、代码、音频)并统一转化为可检索知识库。技术亮点在于多模态解析与混合检索的深度整合,不只处理纯文本,真正做到"任意格式皆可 RAG"。适用于企业级知识库构建、文档智能问答、多模态数据检索等场景。

🔗 https://github.com/HKUDS/RAG-Anything
2

sansan0/TrendRadar

AI 驱动的舆情监控与热点筛选工具,聚合多平台热点 + RSS 订阅,支持关键词精准过滤,AI 自动生成新闻简报并直推手机。还支持 MCP 接入,可与 AI 进行自然语言对话分析情感与趋势。支持 Docker 一键部署,数据本地或云端自持。适合内容运营、品牌监控、竞品跟踪等场景。

🔗 https://github.com/sansan0/TrendRadar
3

ruvnet/RuView

基于 WiFi 信号的无摄像头人体姿态估计系统,使用普通 WiFi 设备实现实时 DensePose,可监测生命体征和人员在场情况,完全无需视频。技术采用 Rust 实现,集成信号处理与 AI 推断。适用于家庭健康监测、安防、工业安全等隐私敏感场景,是一个令人眼前一亮的"非视觉感知 AI"方向。

🔗 https://github.com/ruvnet/RuView
4

vercel-labs/skills

Vercel 实验室出品的开放 Agent Skills 工具(`npx skills`),为 AI Agent 提供标准化工具能力接口,正是 Karpathy 本周力推的框架。通过 npx 直接使用,让 Agent 快速获取联网搜索、文件操作、代码执行等能力。标志着 Agent 工具化走向"一行命令即用"时代,对 Claude Code、Codex 等编码 Agent 生态尤为重要。

🔗 https://github.com/vercel-labs/skills
5

KeygraphHQ/Shannon

自主白盒 AI 渗透测试工具,能分析源代码、识别攻击向量并执行真实漏洞利用,在进入生产前发现漏洞。基于 TypeScript 构建,支持 Web 应用和 API 安全测试。这是 AI 赋能安全领域的典型案例——从"建议修复"到"主动验证漏洞",适合安全工程师和 DevSecOps 流水线集成。

🔗 https://github.com/KeygraphHQ/shannon

📺

YouTube 热门

1. "Kimi K2.6, GPT 5.5, Deepseek V4, Codex Superapp, Gemini 3.5, Grok 5 = AGI" | WorldofAI

频道:WorldofAI | 播放量:32,755 | 时长:14:02 | 发布:1天前 这是一期涵盖近期所有重大模型发布的综合资讯。视频详细讲解了 Kimi K2.6 的技术突破、GPT-5.5 的新能力、Deepseek V4 的架构改进,以及 Grok 5 被部分研究者称为"接近 AGI 门槛"的声明。WorldofAI 是专注 AI 产品评测的频道,本期视频信息密度很高,适合快速了解一周最新动态。

🔗 https://youtube.com/watch?v=F1POR_pzsew

2. "Full Stack App, New GPT Model, Claude Code Update! AI NEWS" | WorldofAI

频道:WorldofAI | 播放量:98,587 | 时长:12:51 | 发布:9天前 视频聚焦于 GPT 新版本功能更新、Claude Code 的最新改进(包括更强的 Agent 稳定性和 Plan 模式),并展示了用 AI 工具链一键生成全栈应用的完整流程。这类实操型内容深受开发者欢迎,9 天内接近 10 万播放量说明编码 AI 工具的市场热度持续高涨。

🔗 https://youtube.com/watch?v=MXZ9cfkYuRI

3. "What AI Agent Skills Are and How They Work" | IBM Technology

频道:IBM Technology | 播放量:64,845 | 时长:12:25 | 发布:2天前 IBM 出品的教育性视频,系统讲解 AI Agent Skills 的概念、架构原理和工作机制。详细解释了 Agent 如何通过 Skills 获得外部工具调用能力、如何规划多步骤任务,以及企业如何在生产环境中构建可复用的 Agent 技能库。两天内近 6.5 万播放,说明企业受众对 Agent 落地技术细节的强烈需求。

🔗 https://youtube.com/watch?v=Lg-meK5IU8Q

4. "Are humans useless in the AI workspace?" | BBC News

频道:BBC News | 播放量:93,177 | 时长:26:12 | 发布:2周前 BBC 出品的深度探讨,采访多位 AI 研究者和企业高管,讨论在 AI 全面接管代码编写、内容生成、数据分析后,人类在工作中的价值何在。节目涵盖了"人机协作新范式"和"岗位结构性变化"两大议题,给出了比较平衡的视角。2 周内近 10 万播放,是近期最受关注的 AI 社会影响类内容之一。

🔗 https://youtube.com/watch?v=6zAgTga9kZw

5. "The LLM Revolution Is Over. The Physical AI Revolution Is Coming Fast" | Forbes

频道:Forbes | 播放量:148,846 | 时长:29:11 | 发布:2月前 Forbes 出品的深度访谈,核心论点是纯语言模型的竞争格局趋于稳定,新一轮革命将发生在物理 AI(机器人、自动驾驶、传感器 + AI 系统)领域。视频详细分析了 NVIDIA、Google 等巨头的战略转向,以及具身智能如何与 LLM 结合产生新的商业机会。约 15 万播放,对理解 AI 产业下一阶段走向很有参考价值。

🔗 https://youtube.com/watch?v=MWMe7yjPYpE
💬

Reddit 精选

1. Qwen3.6-35B 配合优化 Agent 框架媲美云端模型 | r/LocalLLaMA

得分:580 | 评论:136 作者展示了一个令人震惊的结果:在同一个 9B Qwen 模型上,仅通过改变 Agent Scaffold(编排框架),SWE-bench 分数从 19.11% 跳升到 45.56%。随后在 35B 版本上进一步验证,成绩已能与主流云端模型竞争。这表明模型本身只是一半,编排方式和提示工程对最终性能的影响同样巨大。这一发现对本地部署的从业者意义重大:换框架,不换模型,性能翻倍。

🔗 https://reddit.com/r/LocalLLaMA/comments/1ssilc3/qwen3635b_becomes_competitive_with_cloud_models/

2. Dense vs MoE 差距正在快速缩小:Qwen3.6-27B 实测 | r/LocalLLaMA

得分:175 | 评论:48 作者对 27B Dense 和 35B-A3B MoE 版本做了系统对比,发现在 10 个基准测试中,MoE 已在 7 个上追上或接近 Dense 模型,编码任务尤为明显。Dense 模型整体仍略占优势,但差距正在快速收窄。这对本地部署用户影响直接:MoE 模型激活参数少、推理快、显存占用低,如果性能差距继续缩小,MoE 架构将成为本地 LLM 的更优选择。

🔗 https://reddit.com/r/LocalLLaMA/comments/1ssw45q/dense_vs_moe_gap_is_shrinking_fast_with_the_3627b/

3. 我们是否正走向"死亡互联网"? | r/artificial

得分:162 | 评论:133 帖子列出了一系列令人不安的统计数据:互联网上多数文章由 AI 生成、4 个 YouTube 顶级频道由 AI 运营、5 分之 1 推荐给新用户的视频是 AI 制作、Twitch 最多订阅频道是 AI、44% Deezer 上的歌曲是 AI 创作。"Dead Internet Theory"最初是阴谋论,但数据正让它变成现实。评论区展开了关于内容真实性、平台责任和人类创作未来的激烈讨论,133 条评论反映出社区的高度焦虑与困惑。

🔗 https://reddit.com/r/artificial/comments/1ssbjjq/are_we_moving_closer_towards_dead_internet_theory/

4. 从零手撸扩散语言模型:没想到这么好实现 | r/MachineLearning

得分:100 | 评论:26 作者为了对抗"过度依赖 Claude Code",决定在不借助任何 AI 辅助的情况下从零实现一个扩散语言模型(Diffusion Language Model)。仅用几个小时就完成了实现,并分享了训练过程和初步结果。帖子引发关于"扩散模型是否会成为下一代 LLM 架构"的热烈讨论,也带出了一个时代性话题:当 AI 工具极其便捷时,开发者还应该多大程度保持手写代码的能力? *📅 生成时间:2026-04-23 09:00 (北京时间)* *📊 数据来源:Twitter/X · GitHub Trending · YouTube · Reddit*

🔗 https://reddit.com/r/MachineLearning/comments/1srufft/bulding_my_own_diffusion_language_model_from/