AI 日报

ARTIFICIAL INTELLIGENCE DAILY
早报
🐦

Twitter/X 热议

1. Anthropic 意外泄露未发布模型 "Claude Mythos"(代号 Capybara)

Anthropic 因 CMS 配置失误,将一款尚未发布的新模型信息暴露在公开可访问的数据缓存中,被 Fortune 率先发现并报道。这款模型名为 "Claude Mythos",内部代号 "Capybara"(水豚),定位为比目前最强的 Opus 系列更大、更强的全新层级。这意味着 Anthropic 的产品线将新增顶层旗舰模型,直接挑战 GPT-5.4 和 Gemini 3 Pro 的地位。泄露事件本身也引发了业界对 AI 公司信息安全管理的讨论。社区对 Mythos 的性能表示高度期待,尤其关注其在代码生成和推理任务上的表现。

🔗 https://x.com/dotey/status/2037386855432286341

2. Karpathy 警告 LLM "论证翻转":4小时打磨的论点被模型一击推翻

Karpathy 分享了一个令人深思的经历:他花 4 小时用 LLM 反复打磨一篇博客的论证,感觉论点已无懈可击。然后出于好奇让 LLM 反驳自己,结果模型瞬间瓦解了整套论证并让他相信相反的观点才是对的。这条推文获得近 2 万赞和 130 万浏览量,引发了关于 LLM 作为"终极诡辩家"的大讨论。核心问题在于:LLM 优化的是说服力而非真理。这对依赖 AI 进行决策和内容生产的人是重要警示——AI 的"同意"不等于"正确"。

🔗 https://x.com/karpathy/status/2037921699824607591

3. litellm PyPI 供应链攻击震动 AI 开发社区

Karpathy 发文披露 litellm 1.82.7 和 1.82.8 版本在 PyPI 上被植入恶意代码,仅需 `pip install litellm` 就能窃取 SSH 密钥、AWS/GCP/Azure 凭证、K8s 配置、加密货币钱包等几乎所有敏感信息。攻击者通过入侵 trivy(一个漏洞扫描工具)盗取了 litellm 的发布令牌。该推文获 2.8 万赞和 6500 万浏览量。超过 2000 个下游包(含 dspy、mlflow)受影响。这是 AI 工具链迄今最严重的供应链攻击之一,社区呼吁所有开发者立即检查环境。

🔗 https://x.com/karpathy/status/2036487306585268612

4. OpenAI IPO 前大扫除:一周砍掉 Sora、Instant Checkout、成人聊天三条产品线

OpenAI 在一周内接连关停三个产品:Sora 视频应用(推理成本过高)、ChatGPT 内置结账功能 Instant Checkout、以及代号"Citron mode"的成人聊天功能。分析认为这是 IPO 前的战略聚焦——砍掉烧钱和争议项目,集中资源在核心 AI 模型和企业服务上。与此同时 Codex 新增 Plugins 和 SubAgent 功能,OpenAI 全力押注开发者工具生态。社区反应两极:务实之举 vs 创新回缩。

🔗 https://x.com/dotey/status/2037388326529839508

5. Sam Altman 力推 Codex:GPT-5.4 "终于让金融人信了"

Sam Altman 连续发推力推 Codex 和 GPT-5.4。他表示 GPT-5.4 在电子表格方面极为出色,终于让金融从业者说出"这 AI 是真的"。Codex 团队被称为"硬核构建者",用量快速增长。Codex 本周新增 Plugins 插件系统(内置 Slack、Figma、Notion)以及 SubAgent 能力,正在对齐 Claude Code。OpenAI 还为全部用户提供一周双倍额度。相比之下 Anthropic 同期修改了 Claude 的额度规则——高峰期消耗更快,引发用户不满。

🔗 https://x.com/sama/status/2030319489993298349

6. iOS 27 传闻:Siri 变身 AI 中枢,可将请求转发给第三方大模型

有消息称苹果在 iOS 27 中计划将 Siri 改造为 AI 中枢,可将用户请求转发给通过 App Store 安装的第三方大模型。Siri 将新增独立应用、聊天机器人式界面、系统级"Ask Siri"入口。这标志着苹果从"自建 AI"转向"开放平台"策略,ChatGPT、Claude、Gemini 可能直接嵌入 iOS 体验,极大改变移动端 AI 竞争格局。

🔗 https://x.com/op7418/status/2037354938284831161
🔥

GitHub 热榜

1

SakanaAI/AI-Scientist-v2 ⭐ 3,456 (+506)

AI 自动化科学发现系统第二代,采用 Agentic Tree Search 让 AI 独立完成从文献综述、假设生成、实验设计到论文撰写的完整科研流程。已产出 Workshop 级别成果,适合科研团队加速前期探索。

🔗 https://github.com/SakanaAI/AI-Scientist-v2
2

virattt/dexter ⭐ 20,200 (+581)

自主深度金融研究 Agent,TypeScript 构建。自动收集、分析多维度金融数据并生成研究报告,支持实时数据接入和自定义策略,适合投研团队做初步调研和数据聚合。

🔗 https://github.com/virattt/dexter
3

datalab-to/chandra ⭐ 7,592 (+687)

新一代 OCR 模型,专攻复杂表格、表单和手写体识别,将 PDF/图片直接转为 Markdown/HTML/JSON 并保留原始排版。支持 90+ 种语言,是开源 OCR 新标杆,适用于文档数字化和档案管理。

🔗 https://github.com/datalab-to/chandra
4

obra/superpowers 🆕

Agentic Skills 框架和软件开发方法论,让多个 AI Agent 协同完成复杂软件工程任务。理念是"让方法论本身可执行",适合构建 AI 辅助开发流水线的团队。

🔗 https://github.com/obra/superpowers
5

twentyhq/twenty ⭐ 42,429 (+563)

开源 Salesforce 替代品,社区驱动的现代 CRM。TypeScript 构建,支持灵活数据模型、自动化工作流和 API 优先设计。持续高热度反映企业对摆脱 Salesforce 锁定的强烈需求。

🔗 https://github.com/twentyhq/twenty

📺

YouTube 热门

1. Claude Mythos 5: Most Powerful Model Ever!

WorldofAI

78,514 次观看 · 12:31 · 18 小时前

详细解读 Anthropic 泄露的 Claude Mythos 模型信息,分析其与 Opus 系列的区别和潜在能力。同时覆盖 GLM 5.1 发布、Claude Code 更新和 Codex Plugins 等本周 AI 新闻。频道擅长通俗讲解技术新闻,是快速了解一周动态的良好入口。

🔗 https://www.youtube.com/watch?v=uUGfo8QOsW0

2. Anthropic just released the real Claude Bot...

Fireship

750,671 次观看 · 5:00 · 2 天前

Fireship 标志性快节奏风格解析 Anthropic 最新发布的 Claude Bot 功能,75 万播放量体现社区高度关注。重点讨论 Claude 在 Agent 场景的新能力以及与 Codex 的竞争态势。5 分钟内讲透复杂话题,技术人群的高效信息来源。

🔗 https://www.youtube.com/watch?v=wfeiCZK0mNs

3. How AI Is Reshaping The Battlefield

Bloomberg Technology

16,812 次观看 · 22:46 · 1 天前

Bloomberg 深入报道 AI 在军事领域的最新应用,包括自主无人机、战场态势感知和指挥决策辅助。分析各国军事 AI 部署现状和伦理争议,讨论"加速战争节奏"与"减少附带损害"的矛盾。适合关注 AI 政策和地缘影响的观众。

🔗 https://www.youtube.com/watch?v=h9TqjOFceBk

4. State of AI in 2026

Lex Fridman Podcast #490

787,606 次观看 · 4:25:13 · 1 个月前(持续热播)

长达 4 小时的深度对话,全面讨论大模型 Scaling Laws 天花板、中国 AI 竞赛、Agent 生态成熟、GPU 供应链和 AGI 时间线。持续吸引近 80 万播放量,内容密度极高,适合深度学习者。

🔗 https://www.youtube.com/watch?v=EV7WhVT270Q

5. Manus My Computer: AI 从手机控制电脑

蘋果妹

12,815 次观看 · 8:01 · 18 小时前

演示 Manus 新推出的 My Computer 功能——用手机通过 AI 远程操控电脑。展示跨设备 AI Agent 的实际场景,包括文件管理和多步骤任务自动化。代表 AI Agent 从"对话"走向"行动"的新进展。

🔗 https://www.youtube.com/watch?v=y0TKIOX16JY
💬

Reddit 精选

1. TurboQuant 全面解析与学术争议

Google Research 的 TurboQuant 向量量化算法成为本周最热话题。高质量解析帖详细拆解了核心思想——它是一种向量量化算法,核心创新并非"极坐标"而是近最优失真率控制。然而苏黎世联邦理工的高健扬博士后公开指控论文对先行工作 RaBitQ 存在不当描述。Google 学术诚信成为热议焦点。另有多个帖子讨论 TurboQuant 何时落地 llama.cpp,期待值极高。

(r/LocalLLaMA · 853↑)

🔗 https://reddit.com/r/LocalLLaMA/comments/1s62g5v/

2. Gemma 4 规格提前曝光

有人在 Twitter 发现疑似 Google Gemma 4 模型的规格信息,获 361 票。社区猜测 Gemma 4 将在本地部署效率和多模态能力上有重大提升。结合 TurboQuant 量化技术,新一代小型模型在消费级硬件上的实用性令人期待。Google 开源模型策略正在持续赢得本地部署社区的好感。

(r/LocalLLaMA · 361↑)

🔗 https://reddit.com/r/LocalLLaMA/comments/1s65hfw/

3. litellm 供应链攻击对 API 密钥管理的警示

r/MachineLearning 对 litellm 事件展开了更偏技术的讨论。帖子指出攻击者通过恶意 .pth 文件在每个 Python 进程启动时自动执行,无需 import。2000+ 下游包受影响,包括 dspy 和 mlflow。社区讨论了密钥轮换、沙箱隔离和依赖审计的最佳实践。这一事件可能推动 AI 开发工具链的安全标准升级。

(r/MachineLearning · 27↑)

🔗 https://reddit.com/r/MachineLearning/comments/1s62taq/

4. Claude 被评为"最不胡扯的 AI"

一个"BS benchmark"(胡扯基准测试)的结果显示 Anthropic 的 Claude 模型在"不瞎编"方面显著领先于 ChatGPT 和 Gemini。发帖者称这一差异大到足以成为选择 Claude 的决定性理由。评论区讨论了 Anthropic 的 Constitutional AI 训练方法可能是 Claude 更"诚实"的原因,但也有人指出低 BS 不一定意味着更有用。

(r/artificial · 59↑)

🔗 https://reddit.com/r/artificial/comments/1s67buc/

5. PentaNet:超越 BitNet 的五值量化

研究者提出 PentaNet,将权重从 BitNet 的三值 {-1,0,1} 扩展到五值 {-2,-1,0,1,2}。乘以 2 只需位移操作,不引入乘法成本,同时显著提升模型容量。124M 参数的概念验证模型已训练完成,实现了零乘法器推理。这是极端量化领域的有趣探索,可能为边缘设备 AI 部署开辟新路径。 > 📊 本期共 22 条资讯 | 数据采集时间:2026-03-29 09:00 CST

(r/MachineLearning · 29↑)

🔗 https://reddit.com/r/MachineLearning/comments/1s5l5l2/