AI 日报 · 2026-05-24 早报

🐦

Twitter/X 热议

1. Marc Andreessen 在 Rogan 播客宣称：AGI 已在 3 个月前到来

科技投资界大佬 Marc Andreessen 登上 Joe Rogan 播客（时长 3 小时 20 分钟），抛出重磅论断：AGI（通用人工智能）的分水岭已于约三个月前悄然越过，GPT-5.5、Claude 4.6、Gemini 3、Grok 等新一代前沿模型的集体涌现标志着这一历史节点。他认为这些模型在广泛智力任务上已超越普通人类水平，并大力鼓励创业者把握"Agentic AI 公司"的历史窗口。该推文获得超过 130 万次浏览、12,000 点赞和 1,916 次转推，引发了社区关于"AGI 定义"的激烈讨论。支持者认为新模型的推理能力确实发生了质的飞跃；怀疑者则指出 AGI 定义本身存在争议，当前模型在复杂规划和长期目标执行上仍有明显局限。

🔗 https://x.com/i/web/status/2057909733491937555

2. Gemini 3.5 Flash 登上 Design Arena 排行榜第 16 位，Elo 分 1299

Google DeepMind 发布的 Gemini 3.5 Flash 在权威 Design Arena 评测中取得 Elo 1299 分，排名全球第 16，相比前代 Gemini 3 Flash Preview 一举跃升 16 位。这将其带入与 Claude Opus 4.5（Anthropic）和 GPT-5.5（OpenAI）同等性能区间，意味着 Google 的轻量模型已直逼顶级厂商旗舰级产品。该推文获 15,000+ 次浏览、147 点赞，被业界视为"Flash 系列弯道超车"的有力信号。分析人士指出，Gemini 3.5 Flash 以更低的部署成本达到旗舰级性能，对于追求性价比的企业用户具有极强吸引力，也加剧了 AI 模型"价格战"格局。

🔗 https://x.com/i/web/status/2057885688125968660

3. 阿里巴巴 Qwen3.7-Max：成本大幅低于 Claude，专为 Agent 工作流设计

Twitter 上关于阿里 Qwen 新模型的讨论持续升温。Qwen3.7-Max 在第三方测试中展现出与 Claude Opus 4.6 相当的性能，但推理成本据报道大幅更低，且在响应速度上具备优势，专门针对 Agent 工作流和长上下文任务进行了优化。有评测显示其在部分代码生成和工具调用任务上甚至超越 Claude。社区讨论焦点集中在"成本与能力的权衡"，不少开发者表示将其纳入多模型路由策略，在成本敏感任务上优先调用 Qwen。这也印证了业界的判断：中国 AI 模型正在成为西方前沿厂商不可忽视的竞争力量，价格差异可能成为企业级市场的决定性因素。

🔗 https://x.com/i/web/status/2058130225003684133

4. DeepSeek 七五折永久降价，output token 价格低于 GPT-5.5 达 34 倍

DeepSeek 宣布将其 V4-Pro 旗舰模型的 75% 折扣永久化，输入 token 价格降至每百万 $0.435，输出 token 价格至少比 GPT-5.5 低 34 倍、比 Claude Opus 4.x 便宜 11.5 倍以上。对于 token 消耗量大的 Agentic 系统来说，这种价格差异直接影响到运营成本结构。与此同时，DeepSeek 正在融资约 700 亿元人民币（约 $45 亿），估值接近 450 亿美元，国家 AI 产业基金、腾讯、IDG 等均参与其中。DeepSeek 创始人梁文锋明确表态：优先级排序是基础 AI 研究 > AGI > 短期盈利，并承诺持续开源。这场定价战正在重塑企业级 AI 采购格局，迫使 OpenAI 和 Anthropic 重新思考定价策略。

🔗 https://the-decoder.com/

5. Cohere Command A+ 开源：218B 参数 MoE 模型以 Apache 2.0 全面开放

Cohere 发布 Command A+——218B 总参数、25B 激活参数的稀疏 MoE Transformer，并破天荒地以 Apache 2.0 许可证在 Hugging Face 全面开源，这是 Cohere 历史上首次完整开源旗舰模型。该模型支持复杂推理、多模态文档处理和 Agentic 工作流，同时首创"无损量化"技术和原生引用功能。CEO Aidan Gomez（《Attention is All You Need》共同作者）将此定位为"主权 AI"战略：让企业、政府和开发者能在完全自控的安全环境中运行前沿 AI，无需依赖云 API。社区对此反应热烈，尤其是 RedditLocalLLaMA 用户已成功将其移植到 Apple Silicon（MLX 框架），为本地部署大型 MoE 模型提供了新路径。

🔗 https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a/

6. 构建 Claude Skills 完整指南：33 页 Agent 工程实战手册引爆收藏

一份详尽的 33 页 Claude Skills 构建指南在 Twitter/X 上迅速走红，获得超过 1.1 万次浏览和 113 次收藏（远高于点赞数，说明用户视其为实用参考资料而非娱乐内容）。该指南覆盖真实 Agent 工程的核心要素：上下文管理、工具调用规范、错误处理、多步骤任务编排和性能优化。作者声称其信息密度超过价值 $2000 的 AI 训练营和 6 个月试错经验的总和。这背后反映出一个趋势：随着 Claude Code、Codex CLI 等 Agent 工具进入生产环境，"如何写好 Agent 技能文件"正在成为工程师的核心竞争力之一。

🔗 https://x.com/i/web/status/2057948737809576277

🔥

GitHub 热榜

colbymchenry/codegraph

今日 GitHub Trending 第一，单日新增 2,456 颗星，总星数已达 19,476。codegraph 为 Claude Code、Codex、Cursor、OpenCode 和 Hermes Agent 提供预索引的代码知识图谱，核心价值是大幅减少 AI 编程助手在处理大型代码库时的 token 消耗和工具调用次数，且 100% 本地运行无需上传代码。TypeScript 实现，适合需要在本地大型代码仓库中部署 AI Coding Agent 的工程团队。随着 AI 编程工具的普及，如何降低推理成本、提升上下文利用效率成为重要工程问题，codegraph 给出了一种图数据库预索引的解题思路。

🔗 https://github.com/colbymchenry/codegraph

Lum1104/Understand-Anything

今日第二热门，单日 2,299 星，累计 21,563 星。Understand-Anything 能将任何代码库转化为可探索、可搜索、可提问的交互式知识图谱，理念是"能教人的图谱 > 只是好看的图谱"。支持 Claude Code、Codex、Cursor、Copilot、Gemini CLI 等主流 AI 编程工具，TypeScript 实现。它的差异化在于知识图谱具备对话能力——开发者可以直接向图谱提问，例如"这个函数被哪些模块调用"、"哪里处理了认证逻辑"，极大降低了新人上手陌生代码库的难度。

🔗 https://github.com/Lum1104/Understand-Anything

anthropics/claude-plugins-official

Anthropic 官方维护的 Claude Code 插件目录，今日新增 2,193 星，总量 26,452 星。该仓库收录了高质量、经 Anthropic 审核的 Claude Code 插件，覆盖各类开发场景的工具集成。随着 Claude Code 在开发者群体中渗透率持续上升，一个权威的官方插件生态目录对于规范化 Claude Code 使用具有重要意义，也有助于防止低质量或恶意插件流通。适合所有 Claude Code 用户作为插件发现和质量参考的首选来源。

🔗 https://github.com/anthropics/claude-plugins-official

multica-ai/multica

累计 31,926 星，今日新增 410 星。multica 是一个开源托管 Agent 平台，核心理念是将 AI 编程 Agent 从单次任务工具升级为具有任务分配、进度追踪、技能复合能力的"真正团队成员"。TypeScript 实现，支持多 Agent 协作和技能累积。随着 AI Agent 从"单次对话"向"持续工作"演进，如何管理 Agent 的工作状态、协调多 Agent 分工、累积领域知识，成为企业级 AI 落地的核心挑战，multica 尝试从平台层解决这些问题。

🔗 https://github.com/multica-ai/multica

NVlabs/LongLive

NVIDIA 官方实验室发布 LongLive 2.0，专注于长视频生成基础设施，今日新增 94 星，总量 1,815 星。Python 实现，专门解决长时序视频生成中的帧一致性、场景连贯性等核心挑战。这是 NVIDIA 在视频生成赛道加码的重要信号——不同于 Sora、Kling 等面向消费者的产品，LongLive 更侧重底层推理基础设施，为研究者和开发者提供长视频生成的工程框架，适合需要在自有硬件上部署视频生成能力的机构。

🔗 https://github.com/NVlabs/LongLive

📺

YouTube 热门

1. Matt Wolfe

"AI News: These Google Updates Are Dividing People"

频道：Matt Wolfe | 播放量：60,834 | 时长：44:46 | 发布：1天前本期节目聚焦谷歌近期密集发布的 AI 更新，包括 Gemini 3.5 Flash 发布、Google Managed Agents API 上线、Google Search AI 模式扩展等一系列举措。Matt Wolfe 深入分析了为何这些更新在社区引发两极评价——支持者认为 Google 正在快速追赶并在部分领域超越 OpenAI，批评者则担忧 Google 将 AI 强行整合入搜索会破坏信息生态。节目还对比了 Gemini 3.5 Flash 与竞品的基准测试差距，以及 Google 的 AI 战略布局。适合想要了解 Google AI 生态系统最新动向的观众，是本周最具时效性的 AI 评论节目之一。

🔗 https://youtu.be/kyOPFFy3I38

2. Matt Wolfe

"Gemini 3.5" 深度评测

频道：Matt Wolfe | 播放量：100,612 | 时长：33:09 | 发布：8天前播放量突破 10 万的 Gemini 3.5 深度评测视频。Matt Wolfe 对 Gemini 3.5 系列模型进行了全面基准测试，涵盖代码生成、多模态理解、长上下文处理和推理能力。视频详细对比了 Gemini 3.5 与 GPT-5.5、Claude Opus 4.x 的性能差异，揭示了 Google 模型在特定任务上的独特优势（如 YouTube 视频理解、图像生成集成）以及当前短板（如复杂 Agent 任务中的稳定性）。视频最后给出了"不同使用场景下应该选哪个模型"的实用指南，对开发者和重度 AI 用户有较高参考价值。

🔗 https://youtu.be/Oy7tzmfbl64

3. Matt Wolfe

"Gemini Spark" 功能介绍

频道：Matt Wolfe | 播放量：102,435 | 时长：34:30 | 发布：2周前播放量逾 10 万，是 Matt Wolfe 近期播放最高的视频之一。节目介绍了 Google 发布的 Gemini Spark 功能——一个针对创意工作者的 AI 协作模式，支持实时思维导图生成、多模态创意提案和个性化内容风格适配。视频展示了 Gemini Spark 在产品设计、营销文案、学术写作等场景下的实际使用效果，并与 ChatGPT Canvas 和 Claude Projects 进行了横向比较。总体结论是 Gemini Spark 在多模态创意场景具有差异化优势，但在深度推理和代码任务上仍逊于竞品。

🔗 https://youtu.be/SXneZ3bRKO4

4. ABC News

"Gemini Omni" 主流媒体报道

频道：ABC News | 播放量：69,012 | 时长：4:06 | 发布：4天前美国主流媒体 ABC News 制作的 Gemini Omni 科普报道，时长仅 4 分钟但播放量近 7 万，显示 AI 新闻已深度进入大众媒体视野。报道重点介绍 Gemini Omni 的"全模态"特性——在单一模型中统一处理文本、图像、音频和视频输入输出，实现真正的跨模态理解。ABC News 以非技术受众为目标，通过日常场景案例（如实时翻译、医疗辅助诊断）展示 AI 的实际影响，并邀请专家就 AI 在就业、隐私和教育方面的社会影响进行评论。该视频反映 AI 技术讨论已从科技圈扩散至主流公众，社会层面的 AI 素养教育正在成为迫切需求。

🔗 https://youtu.be/Hf9EX1Gu1f0

5. Paul J Lipsky

AI 工具实战教程

频道：Paul J Lipsky | 播放量：32,842 | 时长：17:28 | 发布：7天前面向创业者和自由职业者的 AI 工具实战教程，一周内播放量近 3.3 万。视频展示如何利用当前 AI 工具（涵盖 Claude、GPT-5.5、Gemini 3）构建实际可运行的自动化工作流，重点案例包括内容创作自动化、客服 Bot 搭建和数据分析流水线。Paul J Lipsky 以"非技术背景创业者"视角切入，降低了 AI 工具使用门槛，着重强调"不需要写代码也能驾驭 AI Agent"。视频反映出 AI 工具的用户群体正在从工程师向更广泛的职业群体扩散，"无代码 AI 自动化"成为 2026 年重要的产品趋势。

🔗 https://youtu.be/S5VcqCD9zI4

💬

Reddit 精选

1. r/LocalLLaMA — GPT-5.5 的"秘密武器"只是简化版思维链？

分数：144 | https://reddit.com/r/LocalLLaMA/comments/1tljrtk/ 一位用户声称在普通对话中意外触发了 GPT-5.5 的内部思维链泄露，内容显示其推理模式类似于"穴居人模式"（Caveman Mode）——用极简、碎片化的语言快速生成推理步骤，而非复杂精密的 Chain-of-Thought。帖子引发了大量讨论：部分用户认为这说明 Token 效率才是推理质量的关键，而非推理步骤的精密程度；另一部分用户则指出这可能解释了为何 GPT-5.5 在某些逻辑任务上不如预期。更有人提出可以从开源模型中提取高质量的"穴居人化"思维链，用于微调，以更低成本实现类似效果。这个发现为理解前沿闭源模型的内部工作机制提供了难得的窗口。

🔗 https://reddit.com/r/LocalLLaMA/comments/1tljrtk/gpt_55_secret_sauce_is_just_having_the_thinking/

2. r/LocalLLaMA — Cohere Command A+（218B MoE）成功移植 Apple Silicon MLX

分数：17 | https://reddit.com/r/LocalLLaMA/comments/1tlqxeh/ 社区成员将刚刚开源的 Cohere Command A+（218B 参数，Apache 2.0）移植到了 Apple Silicon 的 MLX 框架，并在 GitHub 提交了 PR。技术细节方面，开发者为 mlx-lm 实现了全新的 cohere2_moe 架构，核心创新是单个共享专家使用更大的中间层（16384 维度），以及 top-8 激活策略。帖子附有详细的架构说明和性能数据，展示了在 Apple Silicon 上本地运行 218B 级别 MoE 模型的可行性。这对本地 AI 推理社区是一个重大激励——Apache 2.0 授权意味着完全自由使用，加上 MLX 的高效内存利用，让高端 Mac 用户也能跑上企业级开源模型。

🔗 https://reddit.com/r/LocalLLaMA/comments/1tlqxeh/command_a_218b_moe_running_on_apple_silicon_mlx/

3. r/artificial — 离职 Meta 员工在内网发布"反 AI"视频，背景是大规模裁员

分数：151 | https://reddit.com/r/artificial/comments/1tlcscq/ 一名即将离职的 Meta 员工在公司内网发布了一段措辞犀利的反 AI 批评视频，随后流传至网络。该视频在 Meta 大规模裁员（据报道与 AI 自动化替代相关）的背景下出现，触动了大量科技行业从业者的神经。帖子引发的讨论聚焦于：AI 自动化究竟在多大程度上加速了科技公司的裁员？大型科技公司是否将 AI 作为削减人力成本的借口？以及员工如何在 AI 转型中保护自身职业安全。这是近期最能反映 AI 技术对劳动市场冲击之社会情绪的讨论之一，评论区有大量真实从业者的亲身经历分享。

🔗 https://reddit.com/r/artificial/comments/1tlcscq/exclusive_departing_meta_staffer_posts_biting/

4. r/artificial — Palantir 等美国软件公司获授权无限制访问英国 NHS 患者数据

分数：121 | https://reddit.com/r/artificial/comments/1tlig93/ 国际特赦组织发布报告，揭露 Palantir 等多家美国科技公司获得了英国国家医疗服务体系（NHS）可识别患者信息的无限制访问权限。报告指出这一授权既无充分公众咨询，也缺乏明确的使用边界约束，涉及数百万英国公民的敏感医疗记录。这一事件在 Reddit 引发了关于"AI 训练数据伦理"和"医疗数据主权"的深度讨论，许多用户担忧这批数据将被用于训练商业 AI 模型。欧洲与美国在数据保护框架上的根本差异再次被推上讨论台，GDPR 的实际执行力度受到质疑。这也是 AI 政策领域的标志性争议案例，预计将引发更多监管讨论。

🔗 https://reddit.com/r/artificial/comments/1tlig93/amnesty_us_software_company_palantir_and_other/

5. r/LocalLLaMA — llama.cpp server 新增内置原生工具（exec_shell、edit_file 等）

分数：30 | https://reddit.com/r/LocalLLaMA/comments/1tluma3/ llama.cpp 发布 b9297 版本，服务器端新增了内置原生工具支持，包括 exec_shell（执行 Shell 命令）、edit_file（文件编辑）等 Agent 必备能力，无需额外的 MCP 服务器或外部工具框架。这意味着开发者可以直接在 llama.cpp server 上运行具备系统交互能力的本地 AI Agent，大幅简化了本地 Agent 的部署架构。社区反应普遍积极，认为这是 llama.cpp 向完整 Agent 运行时演进的重要一步。随着 Claude Code、Codex 等云端 Agent 工具的流行，本地化的开源替代方案需求也在上升，llama.cpp 的这次更新为本地 Agent 开发降低了工程门槛。 *生成时间：2026-05-24 09:00 (北京时间) | 数据来源：Twitter/X · GitHub Trending · YouTube · Reddit*

🔗 https://reddit.com/r/LocalLLaMA/comments/1tluma3/llamacpp_server_have_builtin_native_tools_exec/