AI 日报 · 2026-03-29 早报

🐦

Twitter/X 热议

1. Anthropic 意外泄露未发布模型 "Claude Mythos"（代号 Capybara）

Anthropic 因 CMS 配置失误，将一款尚未发布的新模型信息暴露在公开可访问的数据缓存中，被 Fortune 率先发现并报道。这款模型名为 "Claude Mythos"，内部代号 "Capybara"（水豚），定位为比目前最强的 Opus 系列更大、更强的全新层级。这意味着 Anthropic 的产品线将新增顶层旗舰模型，直接挑战 GPT-5.4 和 Gemini 3 Pro 的地位。泄露事件本身也引发了业界对 AI 公司信息安全管理的讨论。社区对 Mythos 的性能表示高度期待，尤其关注其在代码生成和推理任务上的表现。

🔗 https://x.com/dotey/status/2037386855432286341

2. Karpathy 警告 LLM "论证翻转"：4小时打磨的论点被模型一击推翻

Karpathy 分享了一个令人深思的经历：他花 4 小时用 LLM 反复打磨一篇博客的论证，感觉论点已无懈可击。然后出于好奇让 LLM 反驳自己，结果模型瞬间瓦解了整套论证并让他相信相反的观点才是对的。这条推文获得近 2 万赞和 130 万浏览量，引发了关于 LLM 作为"终极诡辩家"的大讨论。核心问题在于：LLM 优化的是说服力而非真理。这对依赖 AI 进行决策和内容生产的人是重要警示——AI 的"同意"不等于"正确"。

🔗 https://x.com/karpathy/status/2037921699824607591

3. litellm PyPI 供应链攻击震动 AI 开发社区

Karpathy 发文披露 litellm 1.82.7 和 1.82.8 版本在 PyPI 上被植入恶意代码，仅需 `pip install litellm` 就能窃取 SSH 密钥、AWS/GCP/Azure 凭证、K8s 配置、加密货币钱包等几乎所有敏感信息。攻击者通过入侵 trivy（一个漏洞扫描工具）盗取了 litellm 的发布令牌。该推文获 2.8 万赞和 6500 万浏览量。超过 2000 个下游包（含 dspy、mlflow）受影响。这是 AI 工具链迄今最严重的供应链攻击之一，社区呼吁所有开发者立即检查环境。

🔗 https://x.com/karpathy/status/2036487306585268612

4. OpenAI IPO 前大扫除：一周砍掉 Sora、Instant Checkout、成人聊天三条产品线

OpenAI 在一周内接连关停三个产品：Sora 视频应用（推理成本过高）、ChatGPT 内置结账功能 Instant Checkout、以及代号"Citron mode"的成人聊天功能。分析认为这是 IPO 前的战略聚焦——砍掉烧钱和争议项目，集中资源在核心 AI 模型和企业服务上。与此同时 Codex 新增 Plugins 和 SubAgent 功能，OpenAI 全力押注开发者工具生态。社区反应两极：务实之举 vs 创新回缩。

🔗 https://x.com/dotey/status/2037388326529839508

5. Sam Altman 力推 Codex：GPT-5.4 "终于让金融人信了"

Sam Altman 连续发推力推 Codex 和 GPT-5.4。他表示 GPT-5.4 在电子表格方面极为出色，终于让金融从业者说出"这 AI 是真的"。Codex 团队被称为"硬核构建者"，用量快速增长。Codex 本周新增 Plugins 插件系统（内置 Slack、Figma、Notion）以及 SubAgent 能力，正在对齐 Claude Code。OpenAI 还为全部用户提供一周双倍额度。相比之下 Anthropic 同期修改了 Claude 的额度规则——高峰期消耗更快，引发用户不满。

🔗 https://x.com/sama/status/2030319489993298349

6. iOS 27 传闻：Siri 变身 AI 中枢，可将请求转发给第三方大模型

有消息称苹果在 iOS 27 中计划将 Siri 改造为 AI 中枢，可将用户请求转发给通过 App Store 安装的第三方大模型。Siri 将新增独立应用、聊天机器人式界面、系统级"Ask Siri"入口。这标志着苹果从"自建 AI"转向"开放平台"策略，ChatGPT、Claude、Gemini 可能直接嵌入 iOS 体验，极大改变移动端 AI 竞争格局。

🔗 https://x.com/op7418/status/2037354938284831161

🔥

GitHub 热榜

SakanaAI/AI-Scientist-v2 ⭐ 3,456 (+506)

AI 自动化科学发现系统第二代，采用 Agentic Tree Search 让 AI 独立完成从文献综述、假设生成、实验设计到论文撰写的完整科研流程。已产出 Workshop 级别成果，适合科研团队加速前期探索。

🔗 https://github.com/SakanaAI/AI-Scientist-v2

virattt/dexter ⭐ 20,200 (+581)

自主深度金融研究 Agent，TypeScript 构建。自动收集、分析多维度金融数据并生成研究报告，支持实时数据接入和自定义策略，适合投研团队做初步调研和数据聚合。

🔗 https://github.com/virattt/dexter

datalab-to/chandra ⭐ 7,592 (+687)

新一代 OCR 模型，专攻复杂表格、表单和手写体识别，将 PDF/图片直接转为 Markdown/HTML/JSON 并保留原始排版。支持 90+ 种语言，是开源 OCR 新标杆，适用于文档数字化和档案管理。

🔗 https://github.com/datalab-to/chandra

obra/superpowers 🆕

Agentic Skills 框架和软件开发方法论，让多个 AI Agent 协同完成复杂软件工程任务。理念是"让方法论本身可执行"，适合构建 AI 辅助开发流水线的团队。

🔗 https://github.com/obra/superpowers

twentyhq/twenty ⭐ 42,429 (+563)

开源 Salesforce 替代品，社区驱动的现代 CRM。TypeScript 构建，支持灵活数据模型、自动化工作流和 API 优先设计。持续高热度反映企业对摆脱 Salesforce 锁定的强烈需求。

🔗 https://github.com/twentyhq/twenty

📺

YouTube 热门

1. Claude Mythos 5: Most Powerful Model Ever!

WorldofAI

78,514 次观看 · 12:31 · 18 小时前

详细解读 Anthropic 泄露的 Claude Mythos 模型信息，分析其与 Opus 系列的区别和潜在能力。同时覆盖 GLM 5.1 发布、Claude Code 更新和 Codex Plugins 等本周 AI 新闻。频道擅长通俗讲解技术新闻，是快速了解一周动态的良好入口。

🔗 https://www.youtube.com/watch?v=uUGfo8QOsW0

2. Anthropic just released the real Claude Bot...

Fireship

750,671 次观看 · 5:00 · 2 天前

Fireship 标志性快节奏风格解析 Anthropic 最新发布的 Claude Bot 功能，75 万播放量体现社区高度关注。重点讨论 Claude 在 Agent 场景的新能力以及与 Codex 的竞争态势。5 分钟内讲透复杂话题，技术人群的高效信息来源。

🔗 https://www.youtube.com/watch?v=wfeiCZK0mNs

3. How AI Is Reshaping The Battlefield

Bloomberg Technology

16,812 次观看 · 22:46 · 1 天前

Bloomberg 深入报道 AI 在军事领域的最新应用，包括自主无人机、战场态势感知和指挥决策辅助。分析各国军事 AI 部署现状和伦理争议，讨论"加速战争节奏"与"减少附带损害"的矛盾。适合关注 AI 政策和地缘影响的观众。

🔗 https://www.youtube.com/watch?v=h9TqjOFceBk

4. State of AI in 2026

Lex Fridman Podcast #490

787,606 次观看 · 4:25:13 · 1 个月前（持续热播）

长达 4 小时的深度对话，全面讨论大模型 Scaling Laws 天花板、中国 AI 竞赛、Agent 生态成熟、GPU 供应链和 AGI 时间线。持续吸引近 80 万播放量，内容密度极高，适合深度学习者。

🔗 https://www.youtube.com/watch?v=EV7WhVT270Q

5. Manus My Computer: AI 从手机控制电脑

蘋果妹

12,815 次观看 · 8:01 · 18 小时前

演示 Manus 新推出的 My Computer 功能——用手机通过 AI 远程操控电脑。展示跨设备 AI Agent 的实际场景，包括文件管理和多步骤任务自动化。代表 AI Agent 从"对话"走向"行动"的新进展。

🔗 https://www.youtube.com/watch?v=y0TKIOX16JY

💬

Reddit 精选

1. TurboQuant 全面解析与学术争议

Google Research 的 TurboQuant 向量量化算法成为本周最热话题。高质量解析帖详细拆解了核心思想——它是一种向量量化算法，核心创新并非"极坐标"而是近最优失真率控制。然而苏黎世联邦理工的高健扬博士后公开指控论文对先行工作 RaBitQ 存在不当描述。Google 学术诚信成为热议焦点。另有多个帖子讨论 TurboQuant 何时落地 llama.cpp，期待值极高。

（r/LocalLLaMA · 853↑）

🔗 https://reddit.com/r/LocalLLaMA/comments/1s62g5v/

2. Gemma 4 规格提前曝光

有人在 Twitter 发现疑似 Google Gemma 4 模型的规格信息，获 361 票。社区猜测 Gemma 4 将在本地部署效率和多模态能力上有重大提升。结合 TurboQuant 量化技术，新一代小型模型在消费级硬件上的实用性令人期待。Google 开源模型策略正在持续赢得本地部署社区的好感。

（r/LocalLLaMA · 361↑）

🔗 https://reddit.com/r/LocalLLaMA/comments/1s65hfw/

3. litellm 供应链攻击对 API 密钥管理的警示

r/MachineLearning 对 litellm 事件展开了更偏技术的讨论。帖子指出攻击者通过恶意 .pth 文件在每个 Python 进程启动时自动执行，无需 import。2000+ 下游包受影响，包括 dspy 和 mlflow。社区讨论了密钥轮换、沙箱隔离和依赖审计的最佳实践。这一事件可能推动 AI 开发工具链的安全标准升级。

（r/MachineLearning · 27↑）

🔗 https://reddit.com/r/MachineLearning/comments/1s62taq/

4. Claude 被评为"最不胡扯的 AI"

一个"BS benchmark"（胡扯基准测试）的结果显示 Anthropic 的 Claude 模型在"不瞎编"方面显著领先于 ChatGPT 和 Gemini。发帖者称这一差异大到足以成为选择 Claude 的决定性理由。评论区讨论了 Anthropic 的 Constitutional AI 训练方法可能是 Claude 更"诚实"的原因，但也有人指出低 BS 不一定意味着更有用。

（r/artificial · 59↑）

🔗 https://reddit.com/r/artificial/comments/1s67buc/

5. PentaNet：超越 BitNet 的五值量化

研究者提出 PentaNet，将权重从 BitNet 的三值 {-1,0,1} 扩展到五值 {-2,-1,0,1,2}。乘以 2 只需位移操作，不引入乘法成本，同时显著提升模型容量。124M 参数的概念验证模型已训练完成，实现了零乘法器推理。这是极端量化领域的有趣探索，可能为边缘设备 AI 部署开辟新路径。 > 📊 本期共 22 条资讯 | 数据采集时间：2026-03-29 09:00 CST

（r/MachineLearning · 29↑）

🔗 https://reddit.com/r/MachineLearning/comments/1s5l5l2/