AI 日报 · 2026-03-18 早报

🐦

Twitter/X 热议

1. OpenAI 发布 GPT-5.4 Mini 和 Nano 两款小模型

OpenAI 正式推出 GPT-5.4 Mini 和 Nano，将大模型能力下放到更快更便宜的小模型。GPT-5.4 Mini 比 GPT-5 Mini 快 2 倍以上，在代码生成、多模态理解、工具调用和 Computer Use 方面全面提升，定位为"执行层"和子 Agent 主力。Nano 则是最小最便宜的版本，适合轻量级任务。不过社区注意到价格也涨了——Mini 输入 token 从 $0.25 涨到 $0.75，输出从 $2.00 涨到 $4.50，引发"最强小模型也是最贵小模型"的讨论。Sam Altman 发推称赞 GPT-5.4 API 首周表现强劲，同时力推 Codex 团队。

🔗 https://x.com/i/status/2033953815834333608

2. Midjourney V8 模型正式发布

Midjourney 发布了备受期待的 V8 模型。主要更新包括：复杂提示词遵循能力更强、图像连贯性提升、更好地理解用户审美偏好、文字渲染改进、以及个性化风格参考在情绪板上的效果大幅增强。不少用户测试后认为基础提示词风格与 V7 差别不大，但在定制化审美和精细控制方面有明显进步。社区已开始对比 V8 与 Higgsfield Cinema Studio、Nano Banana 2 等竞品的出图效果。

🔗 https://x.com/i/status/2034069787719176219

3. Sam Altman：感恩手写代码的时代，Codex 增长飞速

Sam Altman 连发多条推文。一条获 2.5 万赞的推文表达了对"逐字符编写复杂软件"的程序员们的感激，暗示 AI 编码正在深刻改变软件开发方式。他还透露 Codex 使用量增长"非常快"，称 Codex 团队是"核心建设者"，并表示他认识的所有硬核开发者都已转向 Codex。此外他回应用户时称某个被传关停的项目"不会关停，恰恰相反"，暗示有更大计划。

🔗 https://x.com/i/status/2033935276079510011

4. NVIDIA GTC 2026：黄仁勋称 OpenClaw 比 Linux 更重要

在 GTC 2026 主题演讲中，黄仁勋将 OpenClaw 称为"人类历史上最受欢迎的开源项目"，称其几周内就超越了 Linux 30 年的成就。他把 ChatGPT、o1、Claude Code 列为改变历史的三个时刻，并预言"所有 SaaS 公司终将变成 GaaS（Agent 即服务）"。GTC 上还展示了 7 款芯片全面量产、5 套机架系统、统一软件栈，以及 Skild AI 的双臂桌面机器人自主执行精密制造任务的演示。

🔗 https://x.com/i/status/2033670841846927840

5. 阿里开源 OpenSandbox：面向 AI 应用的通用沙箱平台

阿里巴巴开源了 OpenSandbox，为 AI Agent 运行提供隔离沙箱环境。支持多语言 SDK 和统一 API，基于 Docker/Kubernetes 运行，集成 Chrome 无头浏览器和 Playwright 自动化。关键亮点是可以直接运行 Claude Code、Gemini CLI、Codex CLI 等主流 Agent，基本开箱即用。对于需要安全隔离环境运行 Agent 的开发者来说，这是一个重要的基础设施级工具。

🔗 https://x.com/i/status/2033941005368774953

6. Claude Code Skills 最佳实践曝光，Anthropic 内部数百个 Skills 在用

宝玉（@dotey）分享了 Claude Code 创建者撰写的 Skills 使用与创建指南。Anthropic 内部目前已有数百个 Skills 在用，覆盖 API 文档到部署流程。Skills 不仅仅是 Markdown 文件，而是一套完整的工作流体系。Matt Pocock 也公开了自己的 .claude 配置目录，展示了从 write-a-prd（起草需求）到 grill-me（让 AI 反方找茬）再到 prd-to-issues 的完整开发流程，被认为比一般的提示词合集更有营养。

🔗 https://x.com/i/status/2034082485798314489

🔥

GitHub 热榜

obra/superpowers ⭐ 92 (+3,078)

一套 Agent 技能框架与软件开发方法论。核心理念是通过结构化的 Skills 组织 AI Agent 的能力，让 Agent 可以像人类一样积累和复用技能。适合构建复杂 Agent 系统的开发者，当前是 GitHub 全站最热项目。

🔗 https://github.com/obra/superpowers

langchain-ai/deepagents ⭐ 14 (+1,415)

LangChain 团队基于 LangGraph 构建的 Agent 运行时。配备规划工具、文件系统后端和子 Agent 生成能力，可以处理复杂的多步骤 Agent 任务。由 LangChain 创始人 hwchase17 参与开发，适合需要编排多 Agent 协作的场景。

🔗 https://github.com/langchain-ai/deepagents

abhigyanpatwari/GitNexus ⭐ 16 (+1,116)

零服务器端的代码智能引擎。完全在浏览器中运行，拖入 GitHub 仓库或 ZIP 文件即可生成交互式知识图谱，内置 Graph RAG Agent 支持代码探索和问答。无需后端部署，非常适合代码审查和快速理解新项目。

🔗 https://github.com/abhigyanpatwari/GitNexus

jarrodwatts/claude-hud ⭐ 5 (+466)

Claude Code 的可视化插件，实时显示 Agent 运行状态，包括上下文使用量、活跃工具、运行中的子 Agent 和 TODO 进度。解决了 Claude Code 用户长期以来"看不见 Agent 在干什么"的痛点，适合重度 Claude Code 用户。

🔗 https://github.com/jarrodwatts/claude-hud

codecrafters-io/build-your-own-x

经典学习项目，通过从零重建常用技术（数据库、编译器、Docker 等）来掌握编程。在 AI 时代依然火爆，说明深入理解底层原理的需求不减反增。

🔗 https://github.com/codecrafters-io/build-your-own-x

📺

YouTube 热门

1. **Jensen Huang's Plan for Total AI Domination

GTC 2026

发布 11 小时 | 4,840 次观看 | 22:23 深度解析黄仁勋 GTC 2026 主题演讲的核心内容。视频梳理了 NVIDIA 从芯片到太空计算的全栈 AI 基础设施布局，包括 Blackwell Ultra、Vera Rubin 架构路线图、DLSS 5 的 AI 全帧生成技术，以及黄仁勋对"Agent 即服务"未来的预判。频道认为这是黄仁勋职业生涯中最具野心的一次展示。

🔗 https://www.youtube.com/watch?v=-zDOqBXjlWk

2. NVIDIA CEO Jensen Huang GTC 2026 Full Keynote — Yahoo Finance

发布 1 天 | 51,967 次观看 | 2:20:11 GTC 2026 完整主题演讲录像。黄仁勋发布了从 B300 到 Vera Rubin Ultra 的完整芯片路线图，展示了 NVLink 82 互联技术和面向 Agent 时代的软件栈。演讲长达 2 小时 20 分钟，是了解 NVIDIA AI 战略全貌的第一手资料。

🔗 https://www.youtube.com/watch?v=jIviHI7fqyc

3. 从 LLM 到 Agent Skill，一期视频带你打通底层逻辑！ — 马克的技术工作坊

发布 3 天 | 36,762 次观看 | 32:31 中文技术视频，系统讲解从大语言模型到 Agent Skill 的完整技术路径。内容涵盖 LLM 基础、Agent 架构设计、Skill 编写方法论，以及如何让 Agent 真正具备可复用的专业能力。适合想深入理解 Agent 开发的中文开发者。

🔗 https://www.youtube.com/watch?v=7qO8-kx3gW8

4. AI Triggers Mass Layoffs, Reshaping Future Of Tech Jobs In 2026 — Firstpost

发布 1 天 | 16,741 次观看 | 4:29 聚焦 AI 引发的大规模裁员潮对 2026 年科技就业市场的影响。分析了哪些岗位最受冲击、企业如何重新定义技术人才需求，以及从业者应该如何调整技能方向。虽然时长较短，但数据翔实，引发大量讨论。

🔗 https://www.youtube.com/watch?v=gLUC2WK4hsg

5. ChatGPT vs Claude vs Gemini: Which AI Is Worth $20/Month in 2026? — The Tech Girl

发布 5 天 | 40,482 次观看 | 11:52 对三大 AI 订阅服务进行横向对比评测，从代码生成、文本创作、多模态理解、Agent 能力等多维度打分。结论认为 Claude 在代码和深度推理方面领先，Gemini 在多模态和 YouTube 集成上有独特优势，GPT-5.4 则在通用性和生态丰富度上胜出。

🔗 https://www.youtube.com/watch?v=uT8ha6oIm2E

💬

Reddit 精选

1. Unsloth 发布 Unsloth Studio：开源本地 LLM 训练+运行一体化平台

Unsloth 正式推出 Apache 开源的 Unsloth Studio，集成了 LLM 训练和运行的完整 Web UI。支持 500+ 模型、训练速度提升 2 倍、VRAM 需求降低 70%，可以自动从原始数据构建训练数据集。兼容 Mac、Windows 和 Linux，还能运行 GGUF 模型并支持模型间对比。社区认为这对 LMStudio 构成直接竞争，特别是"训练+运行一体"的定位更具吸引力。帖子获 726 赞，讨论超 200 条。

🔗 https://reddit.com/r/LocalLLaMA/comments/1rwa0f7/unsloth_announces_unsloth_studio_a_competitor_to/

2. MiniMax M2.7 即将发布，可能是多模态模型

MiniMax 的下一代模型 M2.7 被曝正在路上，社区发现相关讨论涉及多模态系统，推测 M2.7 可能是一个多模态模型。MiniMax 此前以 MoE 架构闻名，M2.7 被期待在语言理解和生成能力上有显著突破。

🔗 https://reddit.com/r/LocalLLaMA/comments/1rwl0ek/minimax_m27_is_on_the_way/

3. GLM-5 获用户高度评价：重度 Claude Code 用户首次尝试本地编码被惊艳

一位自称用了超 120 亿 token 的重度 Claude Code 用户首次尝试 OpenCode + GLM-5 进行本地编码，对效果感到震惊。帖子详细对比了 GLM-5 和 Kimi K2.5（后者表现不佳），认为 GLM-5 在本地编码场景的性价比极高。社区讨论了本地模型逐步追上云端的趋势。

🔗 https://reddit.com/r/LocalLLaMA/comments/1rwhe5j/i_just_realised_how_good_glm_5_is/

4. Kimi 团队论文"Attention Residuals"提出改进 Transformer 残差连接

Kimi 团队发表论文 Attention Residuals（arXiv:2603.15031），指出当前 LLM 标准的 PreNorm 残差连接以固定单位权重累加所有层输出，导致隐藏状态随深度不可控增长，逐步稀释每层贡献。论文提出了新的注意力残差机制来解决这一问题。帖子在 r/MachineLearning 获 69 赞，被认为是对 Transformer 架构的重要理论改进。

🔗 https://reddit.com/r/MachineLearning/comments/1rw1eag/r_attention_residuals_by_kimi_team/

5. Hugging Face 一键部署 AI Agent：自动检测硬件、选模型、启动服务

Hugging Face 发布了 hf-agents 项目，用一行命令即可完成：通过 llmfit 检测本地硬件并选择最佳模型和量化方案、启动 llama.cpp 服务端、然后运行 Pi Agent。帖子获 155 赞，社区认为这大幅降低了本地 Agent 部署门槛，对非技术用户尤其友好。

🔗 https://reddit.com/r/LocalLLaMA/comments/1rwgi8x/hugging_face_just_released_a_oneliner_that_uses/