AI 日报

ARTIFICIAL INTELLIGENCE DAILY
早报
🐦

Twitter/X 热议

1. MiniMax 发布 M2.7:AI 自我进化时代来临

MiniMax 正式发布 M2.7 模型,距上一代 M2.5 仅一个月。M2.7 最大亮点是模型深度参与了自身训练迭代——它帮助构建自己的 Agent 工具链、优化实验流程、改进学习方法,实现了真正的 AI 自我进化。工程能力接近 SOTA 水平:SWE-Pro 56.22%(接近 GPT-5.3-Codex)、Terminal Bench 2 57.0%、GDPval-AA Elo 1495(开源最高)、VIBE-Pro 55.6%(对标 Opus 4.6)。对比上代 M2.5,综合提升约 30%,且胜率高达 88%。社区称其为"成本仅 Claude 十分之一的替代品",对开源 AI 生态意义重大。

🔗 https://x.com/MiniMax_AI/status/2034315320337522881

2. Karpathy 收到黄仁勋赠送的 NVIDIA 服务器,用于 Dobby AI 管家

Andrej Karpathy 在推特分享黄仁勋(Jensen Huang)送给他一台需要 20 安培电力的 NVIDIA 服务器作为神秘礼物。Karpathy 透露将用它作为 Dobby the House Elf(他的 AI 管家 agent)的新家,该 agent 已经通过 WhatsApp 控制他家的灯光、窗帘、泳池、Sonos 音响、安防和暖通系统。该推文获得近 68 万次观看、1.47 万点赞、620 转推,引发关于 AI 智能家居的广泛讨论。Karpathy 还回忆了 2015 年 GTC 大会上黄仁勋展示其博士论文的往事。

🔗 https://x.com/karpathy/status/2034321875506196585

3. Google 一次性发布 5 个 Agent Skill 设计模式

Google Cloud 发布了面向 AI Agent 的 5 个 Skill 设计模式,这是业界首份系统化的 Agent 设计模式规范。5 个模式包括:Tool Wrapper(给 Agent 装上库的专家知识)、以及其他按需加载、不占 context 的模式。目前 30 多个 Agent 工具(Claude Code、Gemini CLI、Cursor 等)已统一 SKILL.md 格式,格式不再是问题,核心挑战在于 Skill 里写什么内容。这条推文获得 28 万+浏览、1308 点赞、2057 收藏,是当天最热门的 AI 技术话题之一。

🔗 https://x.com/nicepoe/status/2034196862794961299

4. ICML 2026 查出 506 名审稿人用 AI 代写审稿意见,直接拒稿 497 篇论文

@dotey(宝玉)报道 ICML 2026 用巧妙的"蜜罐"手段(在待审论文中嵌入隐藏提示词,让 AI 自动暴露)抓住了 506 名违规使用 LLM 写审稿意见的审稿人,并将其同时作为作者提交的 497 篇论文全部拒稿。这与之前往简历 PDF 里塞隐藏提示词骗 AI 筛选的手法异曲同工,但方向反转——不是骗 AI 夸自己,而是让 AI 暴露违规者。该事件在学术界引发巨大反响,讨论 AI 在学术评审中的边界问题。

🔗 https://x.com/dotey/status/2034513805791711295

5. OpenAI 提出"Harness Engineering"概念:人类不写代码,写"缰绳"

OpenAI 发文介绍他们如何用 Codex 从空仓库建出一个百万行代码的内部产品——5 人团队、零行手写代码、人均每天 3.5 个 PR。核心理念是"Harness Engineering"(缰绳工程):人类不再写代码,而是为 AI agent 写约束和指导,类似训马而非自己跑。这个概念迅速被中文技术社区热议,认为这可能是软件工程的下一个范式转变。从 Vibe Coding 到 Vibe Everything,AI 正在重塑每个生产环节的协作方式。

🔗 https://x.com/nicepoe/status/2034141624838853002

6. 微软考虑就亚马逊-OpenAI 500 亿美元云协议提起诉讼

@dotey 报道微软正在考虑对亚马逊和 OpenAI 采取法律行动。起因是 OpenAI 与亚马逊达成的价值 500 亿美元 AWS 合作协议,可能违反了 OpenAI 与微软之间的独家云服务条款。核心争议在于亚马逊的 AWS 能否提供 OpenAI 新商业产品 Frontier,而不违反排他性协议。此事反映出 AI 巨头间的利益博弈正在白热化,云计算市场的格局可能因 AI 竞争而重新洗牌。

🔗 https://x.com/dotey/status/2034348355518603343
🔥

GitHub 热榜

1

obra/superpowers ⭐ 97 (+4,089)

一个 Agent 技能框架和软件开发方法论,主打"真正能用"的 agentic 工作流。基于 Shell 构建,提供一套完整的技能编排系统,让 AI Agent 可以像人类开发者一样拆解复杂任务、分配技能、自主迭代。目前是 GitHub 全站增长最快的项目之一,日增 4000+ star,说明社区对结构化 Agent 工作流的需求极为旺盛。适合想构建多 Agent 协作系统的开发者和团队。

🔗 https://github.com/obra/superpowers
2

jarrodwatts/claude-hud ⭐ 7 (+1,038)

Claude Code 的 HUD(抬头显示)插件,实时可视化 Claude Code 的运行状态——包括 context 使用量、活跃工具、运行中的 agent、和 TODO 进度。用 JavaScript 开发,解决了使用 Claude Code 时"黑箱"的痛点,让开发者能直观地监控 AI agent 的工作状态。对于重度 Claude Code 用户来说,这是提升开发体验的实用工具。日增 1000+ star 说明需求强劲。

🔗 https://github.com/jarrodwatts/claude-hud
3

unslothai/unsloth ⭐ 56 (+1,005)

统一的 Web UI,支持本地训练和运行 Qwen、DeepSeek、gpt-oss、Gemma 等开源模型。Unsloth 以其极致的内存优化和训练速度著称,让消费级 GPU 也能微调大模型。最新版已支持 Qwen 3.5 系列,配合量化技术可在 48GB 显存内跑 397B 参数模型。适合希望在本地微调和部署开源模型的研究者和开发者。

🔗 https://github.com/unslothai/unsloth
4

langchain-ai/open-swe ⭐ 6 (+481)

LangChain 团队推出的开源异步编码 Agent,定位为 SWE-bench 任务的开源替代方案。支持异步执行多个编码任务,内置代码审查和调试能力。作为 LangChain 生态的重要补充,Open-SWE 让开发者可以构建自己的自动化编码 pipeline,而不依赖闭源解决方案。适合需要批量处理代码修复和 PR 的团队。

🔗 https://github.com/langchain-ai/open-swe
5

newton-physics/newton ⭐ 3

基于 NVIDIA Warp 的开源 GPU 加速物理仿真引擎,专为机器人研究者和仿真研究人员设计。利用 GPU 并行计算能力,大幅提升物理仿真速度。支持刚体、柔体、流体等多种仿真场景,可与主流机器人框架集成。在具身智能(Embodied AI)研究日益火热的背景下,Newton 填补了开源 GPU 物理引擎的空白。

🔗 https://github.com/newton-physics/newton

📺

YouTube 热门

1. AI 本周重磅新闻汇总:Codex 子代理、MiniMax M2.7、Claude Code 更新、NVIDIA GTC

本期涵盖了本周最重要的 AI 新闻:OpenAI Codex 推出子代理(Subagents)功能,可让多个 AI agent 并行处理不同任务;MiniMax M2.7 发布,自我迭代训练创行业先例;Claude Code 推出重要更新;NVIDIA GTC 大会多项重磅发布;AI CMO 概念兴起;Google 推出新 AI 工具。视频对每条新闻都做了详细解读,适合快速了解行业动态。

🔗 https://www.youtube.com/watch?v=GVrEX3-uIE0

2. OpenClaw 终极指南:一键安装、自动修复、必备神级 Skills

详尽的 OpenClaw 使用教程,从安装配置到高级 Skills 应用全覆盖。介绍了 MiniMax 国际版和国内版的接入方式,展示了如何利用 Agent Skills 实现自动化工作流。作为中文社区最热门的 OpenClaw 教程之一,该视频涵盖了故障排查和自动修复技巧,对新手极为友好。

🔗 https://www.youtube.com/watch?v=5boIQ719n7Y

3. AI 模型选择指南:OpenClaw 用户模型 Tier List

针对 OpenClaw 用户的 AI 模型评测和选择指南。横向对比了 Claude Opus 4.6、GPT-5.4、MiniMax M2.7、Gemini 3 Pro 等主流模型在不同场景下的表现和性价比。帮助用户根据自身需求(编码、写作、数据分析等)选择最合适的模型组合,避免不必要的 API 开支。

🔗 https://www.youtube.com/watch?v=BF0B9CryUec

4. OmniCoder-9B + 免费 Claude Opus 4.6 代理编码数据集

介绍了 Tesslate 团队基于 Qwen3.5-9B 架构微调的编码专用模型 OmniCoder-9B。训练数据包含 Claude Opus 4.6 的代理编码数据集(已公开),展示了小模型通过高质量数据蒸馏可以接近大模型的编码能力。对于希望在本地运行高质量编码模型的开发者具有重要参考价值。

🔗 https://www.youtube.com/watch?v=j_rOgYovQBE

5. Last Week in AI #236:GPT-5.4、Gemini 3.1 Flash Lite、供应链风险

深度播客节目,讨论了 GPT-5.4 的发布和性能表现、Gemini 3.1 Flash Lite 的轻量化策略、以及 AI 供应链风险问题。特别关注了模型性能内卷背后的能源消耗和芯片供应链安全问题,提供了超越技术层面的行业视角分析。适合希望深入了解 AI 产业趋势的听众。

🔗 https://www.youtube.com/watch?v=On4oQsNjIYk
💬

Reddit 精选

1. ICML 拒绝使用 LLM 代写审稿意见的审稿人论文

ICML 2026 检测到 506 名审稿人违反承诺使用大模型代写审稿意见,直接将这些审稿人同时作为作者提交的 497 篇论文全部拒稿。社区讨论激烈:有人认为惩罚过重(连坐拒稿所有论文),有人认为这是维护学术诚信的必要之举。也有人质疑检测方法的误报率。这一事件可能成为学术界 AI 使用规范的标志性案例,影响未来所有顶会的审稿政策。

(r/MachineLearning · 168↑)

🔗 https://reddit.com/r/MachineLearning/comments/1rx201a/d_icml_rejects_papers_of_reviewers_who_used_llms/

2. Qwen3.5 蒸馏 Claude 4.6 Opus 推理模型火爆

社区热议 Jackrong 团队发布的 Qwen3.5-Claude-4.6-Opus-Reasoning-Distilled-v2 系列模型,通过从 Claude Opus 4.6 蒸馏推理能力到 Qwen3.5 架构,在保持小体量的同时获得了接近 Opus 级别的推理表现。同时还有 DavidAU 发布的 40B 参数版本(含普通版、去审查版和"RoughHouse"版)。开源社区正在以前所未有的速度缩小与闭源模型的差距。

(r/LocalLLaMA · 129↑)

🔗 https://reddit.com/r/LocalLLaMA/comments/1rxepyz/lets_go_qwen35claude46opusreasoningdistilledv2/

3. 开源本地 AI 3D 模型生成器发布 Beta

一位开发者两周前在 Reddit 征集兴趣后,正式发布了本地运行的开源 3D 网格生成桌面应用 Beta 版。支持从图片生成 3D 模型,完全在本地 GPU 上运行,无需云端 API。这填补了开源社区在 3D 生成领域的重要空白,评论区有 57 条讨论,社区反响积极,期待模型质量进一步提升。

(r/LocalLLaMA · 193↑)

🔗 https://reddit.com/r/LocalLLaMA/comments/1rx8327/two_weeks_ago_i_posted_here_to_see_if_people/

4. MiniMax M2.7 登陆 OpenRouter,社区测评热议

MiniMax M2.7 上线 OpenRouter,支持 204,800 token 上下文,定价 $0.30/M 输入、$1.20/M 输出。社区 37 条评论中,多数对其性价比表示惊喜,认为在代理编码任务上接近 Opus 但成本大幅降低。部分用户反馈在长文本理解和中文处理上表现出色,但创意写作方面仍有提升空间。这进一步加剧了 AI 模型市场的价格战。

(r/LocalLLaMA · 70↑)

🔗 https://reddit.com/r/LocalLLaMA/comments/1rxc9rw/minimax_m27_on_openrouter/

5. Weight Norm Clipping 加速 Grokking 18-66 倍,300 种子零失败

研究者发现仅用 5 行代码实现的 Weight Norm Clipping 技术,可将 Grokking(延迟泛化)现象加速 18-66 倍,且在 300 个随机种子测试中零失败。Grokking 是深度学习中一个重要但神秘的现象——模型在过拟合很久后突然泛化。这一简单有效的技术突破可能对理解和加速神经网络训练产生深远影响。 📊 今日总计 21 条资讯 | 数据采集时间:2026-03-19 15:20 CST

(r/MachineLearning · 53↑)

🔗 https://reddit.com/r/MachineLearning/comments/1rwl1sq/p_weight_norm_clipping_accelerates_grokking_1866/