AI 日报

ARTIFICIAL INTELLIGENCE DAILY
早报
🐦

Twitter/X 热议

1. Anthropic 意外泄露下一代模型 Claude Mythos(代号 Capybara)

Anthropic 因 CMS 配置失误,意外将未发布的内部博客草稿暴露在公开可访问的数据缓存中,被 Fortune 和 The Information 等多家媒体率先发现并核实。泄露文档显示这款名为"Claude Mythos"的新模型代号为"Capybara"(水豚),是一个全新的模型层级——比目前最强的 Opus 系列更大更强。文档称 Mythos 在编码、学术推理和网络安全领域的得分"远超 Opus 4.6",Anthropic 甚至将其标记为潜在网络安全威胁。这一泄露引发社区广泛讨论,许多人认为这标志着前沿 AI 能力的阶跃式进步,而非常规迭代更新。

🔗 https://x.com/i/status/2037371145075167391

2. GLM-5.1 正式发布,开源模型逼近闭源最强

智谱发布 GLM-5.1 模型,并向所有 GLM Coding Plan 用户开放使用。在以 Claude Code 为测试框架的编码评估中,GLM-5.1 取得 45.3 分,仅落后 Claude Opus 4.6 的 47.9 分 2.6 个百分点,相比前代 GLM-5 的 35.4 分提升接近 10 分。多位独立测评者反馈该模型在指令遵循和长时间运行任务方面表现出色。开源模型与闭源顶尖模型的差距正在快速缩小,这对整个行业格局有深远意义。模型权重预计 4 月 6-7 日开源。

🔗 https://x.com/i/status/2037495203821473877

3. litellm 遭受严重供应链投毒攻击,Karpathy 亲自发帖警告

AI 开发者常用的 Python 库 litellm 在 PyPI 上遭受供应链攻击。恶意版本 1.82.8 中植入了名为 litellm_init.pth 的恶意文件,仅需一个 `pip install litellm` 就足以窃取 SSH 密钥、AWS/GCP/Azure 凭证、Kubernetes 配置、git 凭证、环境变量(包括所有 API Key)、shell 历史、加密货币钱包、SSL 私钥和 CI/CD 密钥等敏感数据。Karpathy 亲自发帖提醒社区注意,该推文获得 2.7 万赞和 6500 万浏览量,堪称教科书级的供应链攻击案例。

🔗 https://x.com/i/status/2036487306585268612

4. Chroma 发布 Context-1:20B 参数开源搜索 Agent

向量数据库公司 Chroma 发布了 Context-1,一个 20B 参数的搜索 Agent 模型。该模型推动了 agentic search(代理式搜索)的帕累托前沿,在准确性、速度和成本上实现显著突破——声称比前沿 LLM 快一个数量级且便宜一个数量级。采用 Apache 2.0 协议完全开源。这意味着 AI Agent 可以拥有更快更廉价的搜索能力,对整个 Agent 生态产生重大推动作用。该推文获得超 3700 赞和 90 万浏览量。

🔗 https://x.com/i/status/2037243681988894950

5. Mistral 发布开源 TTS 模型 Voxtral,同日三大语音 AI 模型齐发

Mistral AI 发布了 Voxtral TTS,一个 30 亿参数的开源文本转语音模型,在人类偏好测试中以约 63% 的胜率击败 ElevenLabs Flash v2.5,语音定制方面更是接近 70%。同一天还有 Cohere 发布的 Transcribe(语音识别排行榜第一)和腾讯的 Covo-Audio(7B 参数整合识别+推理+合成)。三个完全开源的语音 AI 模型同日发布,标志着语音 AI 领域正在经历开源化浪潮。

🔗 https://x.com/i/status/2037149838023024753

6. Claude Chrome 扩展曝出零点击提示注入漏洞,300万用户受影响

安全研究人员披露 Anthropic 的 Claude Chrome 扩展中存在一个严重的零点击漏洞,可让攻击者对超过 300 万用户实施静默提示注入攻击。攻击者无需用户任何交互即可触发,可窃取数据或操控 AI 行为。这一发现再次凸显了 AI 工具与浏览器深度集成时的安全风险,也为所有 AI 浏览器扩展的安全审计敲响警钟。Anthropic 已收到报告。

🔗 https://x.com/i/status/2037532089327718496
🔥

GitHub 热榜

1

mvanhorn/last30days-skill (+2,821)

一个 AI Agent 技能,可以同时从 Reddit、X/Twitter、YouTube、Hacker News、Polymarket 和整个网络搜索研究任何话题,然后综合生成有依据的摘要。相当于拥有一个 7×24 小时不休息的全网情报分析师。适用于市场调研、竞品分析、舆情监控等场景。Python 构建。

🔗 https://github.com/mvanhorn/last30days-skill
2

obra/claude-code-skills (+2,752)

一个针对 Claude Code 的 agentic 技能框架和软件开发方法论。定义了一套行之有效的工作流程,让 Claude Code 能更系统性地处理复杂软件开发任务。开发者可以基于此框架创建自己的定制技能,提升 AI 编程助手的工作效率和代码质量。Shell 构建。

🔗 https://github.com/obra/claude-code-skills
3

Yeachan-Heo/claude-code-teams (+1,411)

面向 Claude Code 的多 Agent 团队协作编排框架。允许多个 Claude Code 实例组成团队协同工作,采用 Teams-first 设计理念。适合大型项目中需要多 Agent 并行处理不同模块的场景。TypeScript 构建。

🔗 https://github.com/Yeachan-Heo/claude-code-teams
4

datalab-to/chandra (+912)

一个先进的 OCR 模型,能处理复杂表格、表单和手写文字,同时保留完整的版面布局信息。对比传统 OCR 工具,在表格识别和手写体识别方面有显著提升。Python 构建,适用于文档数字化、发票处理、表单录入等场景。

🔗 https://github.com/datalab-to/chandra
5

SakanaAI/AI-Scientist-v2 (+143)

Sakana AI 推出的 AI 科学家 v2,能通过 Agentic 树搜索方法自动完成 Workshop 级别的科学发现。相比 v1,v2 在实验设计和论文撰写方面有质的飞跃。这标志着 AI 辅助科学研究正在从概念验证走向实际可用阶段,对学术研究自动化具有里程碑意义。

🔗 https://github.com/SakanaAI/AI-Scientist-v2

📺

YouTube 热门

1. Anthropic's Generational Run, OpenAI Panics, AI Moats, Meta Loses Major Lawsuits

All-In Podcast 四位投资人深度讨论了 Anthropic 的快速崛起以及其对 OpenAI 构成的竞争压力。节目分析了 AI 公司的护城河问题——随着开源模型不断追赶,闭源模型的优势正在收窄。同时覆盖了 Meta 输掉的多起重大诉讼对公司未来的影响。讨论了当前 AI 行业的竞争格局正在从"谁有最强模型"转向"谁有最好的应用生态"。

🔗 https://www.youtube.com/watch?v=4Gmd5UTF4rk

2. How AI Is Reshaping The Battlefield | Bloomberg Tech

Bloomberg 深度报道 AI 如何重塑现代战场。节目详细分析了从自主无人机到智能情报分析等多个军事 AI 应用案例。讨论了 AI 在战争中的伦理边界、各国军事 AI 发展竞赛、以及五角大楼最新的 AI 战略部署。特别关注了 AI 对传统军事力量平衡的颠覆性影响。

🔗 https://www.youtube.com/watch?v=h9TqjOFceBk

3. State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI | Lex Fridman Podcast #490

Lex Fridman 的超长深度访谈,全面回顾 2026 年 AI 现状。覆盖 LLM 发展、AI 编程、Scaling Laws 是否到达天花板、中国 AI 生态、Agent 技术、GPU 供应链、以及 AGI 时间线等核心话题。嘉宾认为当前 Scaling Laws 仍在有效运作,但模式正在从纯粹扩大参数转向更聪明的训练方法和数据策略。是理解当前 AI 全局格局的一手资料。

🔗 https://www.youtube.com/watch?v=EV7WhVT270Q

4. NVIDIA GTC 2026 Reveals 5 AI & Robotics Inflection Points

解读 NVIDIA GTC 2026 大会上揭示的五个 AI 与机器人领域的关键拐点。包括下一代 GPU 架构对大模型训练的影响、物理 AI(具身智能)的突破进展、AI 基础设施的未来形态等。黄仁勋在会上强调 AI 正在从数字世界延伸到物理世界,机器人将成为下一个万亿美元市场。

🔗 https://www.youtube.com/watch?v=CzTIduXcXMA

5. My Honest Thoughts on AI and the Job Market in 2026 (No Hype)

Tech With Tim 以程序员视角客观分析 AI 对就业市场的真实影响。他认为虽然 AI 不会在短期内取代大多数程序员,但会显著改变工作方式——不会用 AI 工具的开发者将面临淘汰风险。视频用具体数据说明了哪些岗位受冲击最大、哪些新机会正在出现,以及开发者如何调整技能树。内容务实不贩卖焦虑。

🔗 https://www.youtube.com/watch?v=PEFso88LkC4
💬

Reddit 精选

1. [r/LocalLLaMA] GLM-5.1 发布,开源模型新标杆

智谱 GLM-5.1 在 r/LocalLLaMA 引发热烈讨论(711 赞)。社区成员对其编码能力接近 Claude Opus 4.6 表示震惊,认为这是开源模型的里程碑时刻。有用户已在本地部署测试,反馈在长上下文任务和指令遵循方面表现优异。模型权重将在 4 月 6-7 日开源发布。多位社区成员认为这加速了"开源追平闭源"的进程,对依赖 API 付费的开发者来说是重大利好。

🔗 https://www.reddit.com/r/LocalLLaMA/comments/1s51id3/glm_51_is_out/

2. [r/LocalLLaMA] Google TurboQuant 压缩突破:内存占用降低 6 倍,不牺牲质量

Google 的 TurboQuant AI 压缩算法引发社区极大关注。有开发者将其集成到 llama.cpp 中,在 MacBook Air(M4, 16GB)上成功运行 Qwen 3.5-9B 模型处理 20000 token 上下文。另一位开发者通过跳过 90% 的 KV 反量化操作,在 32K 上下文下实现了 +22.8% 的解码速度提升(526 赞)。这意味着消费级硬件运行中型模型的门槛大幅降低,本地 AI 推理进入新时代。

🔗 https://www.reddit.com/r/LocalLLaMA/comments/1s56g07/skipping_90_of_kv_dequant_work_228_decode_at_32k/

3. [r/artificial] 法官驳回五角大楼"削弱"Anthropic 的企图

一则法律新闻获得 244 赞:法官驳回了五角大楼试图限制 Anthropic 的法律行动。虽具体细节有限,但这凸显了政府机构与 AI 公司之间日益紧张的关系。社区讨论聚焦于军事 AI 应用的监管边界、科技公司在国防领域的角色、以及政府是否有权干预私营 AI 公司的发展方向。多数评论认为这对 AI 行业的独立性是积极信号。

🔗 https://www.reddit.com/r/artificial/comments/1s4vsib/judge_rejects_pentagons_attempt_to_cripple/

4. [r/LocalLLaMA] Unsloth Studio 大版本更新,50+ 新功能

Unsloth Studio 发布重大更新(208 赞),包含 50 多项新功能和改进:预编译的 llama.cpp / mamba_ssm 二进制文件、更便捷的模型微调流程、以及多项性能优化。Unsloth 作为本地模型微调的热门工具,此次更新大幅降低了使用门槛。社区反馈积极,认为这使得个人开发者在消费级 GPU 上微调大模型变得更加实际。

🔗 https://www.reddit.com/r/LocalLLaMA/comments/1s56q9g/new_unsloth_studio_release/

5. [r/MachineLearning] LoCoMo 基准审计:6.4% 答案错误,LLM 评判接受 63% 故意错误答案

研究人员对常用的长上下文记忆基准 LoCoMo 进行审计,发现 6.4% 的标准答案存在错误,且 LLM 评判器会接受高达 63% 的故意错误答案(45 赞)。这引发了对当前 AI 评估体系可靠性的深度反思。项目至今仍有新的评分提交,说明该基准仍在被广泛使用。研究者呼吁社区重视评估基础设施的质量,否则"在错误的标尺上量出的好成绩毫无意义"。 📊 本期共收录 21 条资讯 | 数据采集时间:2026-03-28 09:00 北京时间

🔗 https://www.reddit.com/r/MachineLearning/comments/1s54cvg/d_we_audited_locomo_64_of_the_answer_key_is_wrong/