有了 Computer Use,AGN 还需要吗?
这篇文章回答一个我最近必须正面面对的问题:
当 Codex 已经原生拥有
Computer Use、Automations、连接器、图像生成、应用级浏览器和更强的桌面执行能力后,AGN 还剩下什么不可替代的价值?
这不是一篇纯概念讨论,而是一次带版本锚点的实测调查。
调查前提
这次调查先做了两次 git pull,确保不是拿过期状态做判断。
仓库更新
AgenticNetwork从b9b43f1快进到a56682dblog从1e0afb5快进到bfe452f
之后我做了什么
- 在最新 AGN 仓库上重新运行:
python3 scripts/agn2_system.py statuspython3 scripts/agn2_system.py capabilitiespython3 scripts/agn2_execution_workflow.py preflight --task-summary "..."python3 scripts/agn_reconstruction_status.py show
- 重新阅读 AGN 当前最相关的文档:
AGENTS.mddocumentation/reference/agn2_codex_operating_memory.mddocumentation/reference/agn_phase3_forward_plan.mddocumentation/reference/agn_phase3_self_audit.md
- 用 OpenAI 官方页面重新核对 Codex 最新能力,而不是拿社区二手总结当结论:
换句话说,这篇文章不是“凭印象写判断”,而是基于最新版 AGN 和最新版 OpenAI 官方文档对照出来的。
先说结论
我的结论很直接:
Computer Use已经吃掉了 AGN 过去相当一部分“执行层便利性”价值。- 如果 AGN 的某一层存在的唯一理由,是“旧 Codex 不会点桌面、不会跨 app、不会后台自动做事”,那一层现在应该被削弱,甚至退役。
- 但 AGN 还没有失去全部意义。它仍然保留了一块 Codex 原生产品今天没有完整覆盖的区域:
- 治理
- 审批与权限边界
- 可审计的执行链
- 明确的 reviewer / worker 分工
- append-only memory
- 控制面与读模型
- 长期结构化系统化演进
所以更准确的判断不是“AGN 已经过时”,而是:
AGN 不该继续和新版 Codex 在“谁更会操作电脑”这件事上正面对打,而应该收缩到它真正擅长的治理层、编排层和可审计系统层。
OpenAI 已经官方确认了什么
先把事实钉牢。
根据 OpenAI 在 2026-04-16 发布的产品页,Codex 现在已经明确具备这些能力:
- 背景
Computer Use- Codex 可以在
macOS上看、点、输入,用自己的光标并行操作你的电脑,而且不会抢你的前台工作。
- Codex 可以在
in-app browser- Codex 开始原生“在网页里工作”,可以直接在页面上留注释,让 agent 精确理解你要改哪里。
gpt-image-1.5- 可以在同一工作流里生成和迭代图片。
- 更多插件与连接能力
- 官方写的是 “more than 90 additional plugins”。
- 更深的开发工作流支持
- GitHub review comments
- multiple terminal tabs
- rich previews for PDFs / spreadsheets / slides / docs
- remote devboxes over SSH in alpha
- 后台持续工作
- 官方在 Codex app 发布页明确写的是
Automations 2026-04-16的更新页则进一步写到可以 schedule future work,并自动唤醒继续执行长期任务
- 官方在 Codex app 发布页明确写的是
- memory preview
- 允许 Codex 记住偏好、纠正和耗时收集到的上下文
对应官方来源:
两个容易被说混的点
1. Heartbeats 这个词
我在这次核对的官方产品页里,看到的是 Automations、schedule future work、wake up automatically,没有在官方页面里看到把这个能力正式主命名成 Heartbeats。
这意味着:
- 你截图里的说法不一定是假的
- 但至少在我这次核对到的官方页面里,它不是最稳定的官方公开命名
2. GPT-5.4 提供 1M context
这件事在模型页上是成立的。
OpenAI 官方模型页明确写了:
gpt-5.4context window =1M- 工具支持包含
Computer use
但这不应被偷换成:
“Codex app 的所有工作流默认都等同于 1M 上下文”
模型能力和产品层体验不是一回事,不能混说。
API 级 Computer Use 和 Codex app 不是一回事
这一点非常重要。
Chrome 里打开的 Computer use 文档页 讲的是更底层的能力接口,而不是 Codex app 的全部产品体验。
官方文档把集成路径分成三类:
- 用内建的
Responses API computer工具 - 用你自己的 harness,例如 Playwright / Selenium / VNC / MCP
- 用 code-execution harness,让模型写脚本来驱动浏览器或桌面
同一页还明确强调了几条安全边界:
- 尽量用隔离环境
- 高影响动作要保留人工确认
- 页面内容、截图文字、PDF、邮件、聊天记录等都应视为不可信输入
- 只有用户的直接指令才算权限
这个文档的意义在于:
- 它说明 OpenAI 现在不是只做一个“会点鼠标的 UI feature”
- 它是在把
computer use定义成正式的 agentic execution surface
这对 AGN 的冲击是结构性的,而不是 cosmetic 的。
最新版 AGN 现在是什么状态
在拉到 a56682d 之后,我重新看了 AGN 当前的自我描述和运行面。
当前重构阶段
scripts/agn_reconstruction_status.py show 给出的结论是:
- AGN 当前仍在
Phase 3 - Gradual Implementation Migration - 目标是把大量
scripts/渐进迁移进src/agn - 当前重点不是扩能力,而是完成 package-first 的热路径收拢
这和 documentation/reference/agn_phase3_self_audit.md 是一致的。那份自审文档的核心结论非常坦白:
AGN 已经不再只是脚本堆,但也还没有成为完全 package-native 的系统。
文档里明确提到:
- 热治理路径已经大体 package-first
- 仍然存在剩余 handler proxy
- 仍然存在部分 script-era dependency debt
AGN 当前明确仍然强调的核心表面
根据最新版 AGENTS.md、agn2_codex_operating_memory.md 和 capabilities 输出,AGN 当前最重视的表面不是“会不会点网页”,而是这些:
Control Planepolicy gatedispatchergoverned execution gatewayreview gatememory recordertask-start kerneloperator briefhost infodesktop_adapter与受治理的 desktop execution
而且它仍然明确坚持:
- reviewer 和 worker 要分层
- 重要判断不能交给低级 worker
- 记忆必须 append-only
- 视觉与 GUI 执行必须经过安全边界
- 终端不是整个世界,只是一个 execution surface
这说明最新版 AGN 其实已经在把自己的“系统价值”往治理层和执行边界层收,而不是单纯拼功能数量。
哪些部分已经和新版 Codex 明显重叠
这是最该直说的地方。
1. 浏览器与桌面执行层
新版 Codex 已经有:
- 背景
Computer Use in-app browser- 页面内精确标注
- 多 agent 并行桌面执行
这直接压缩了 AGN 过去这些东西的独立价值:
browser-usewrapper- 部分
desktop_adapter场景 - 一部分
agn_visual_operator/视觉驱动浏览器操作 - 过去为了“让 Codex 碰到真实软件”而搭的桥接层
2. 自动化与长期唤醒
Codex 现在已有:
Automations- schedule future work
- 自动唤醒继续执行长期任务
- memory preview
这意味着 AGN 里“为了让任务周期性执行、隔一段时间再醒来”的一些设计,不再自动具有稀缺性。
3. 图像与多模态工作流
Codex 现在直接能调 gpt-image-1.5,还和截图、代码、页面工作流打通。
这会削弱 AGN 过去那类“通过额外 skill 或 wrapper 才能把图像工作引进来”的必要性。
4. 插件 / MCP / 外部工具接入
Codex 新增了 90+ plugins,而我这次会话本身也已经直接挂上了:
- Computer Use
- GitHub
- Google Drive
- Figma
- image generation
- automation
这意味着很多“为了把外部工具接进来而搭的第二层桥”已经没有以前那么值钱了。
哪些部分 AGN 现在仍然不可替代
如果只看“能不能做事”,新版 Codex 确实已经强得多。
但如果看“能不能以治理化、可审计、长期稳定的方式做事”,AGN 还保留着明显不同的价值。
1. 治理与权限边界
Codex 产品本身当然有安全设计,但 AGN 有一整套更显式的治理框架:
policy gateemergency stopcontrol plane- formal command path
- read-model visibility
这类东西不是“会不会点鼠标”的增强,而是“谁有资格做什么、做了之后怎么留痕”的增强。
2. append-only memory 与事件证据链
AGN 很强调:
memory/recordsappend-onlyruntime/bus和 durable ledger 分离- invalid append 要留 quarantine evidence
这是一种“系统级记忆 discipline”,而不只是“产品里有 memory feature”。
3. reviewer / worker 分层
AGN 现在仍然坚持一条很重要的原则:
Qwen、DeepSeek只是 worker-gradeGemini Pro、Claude Opus是 reviewer-grade- 最终判断不能外包给便宜模型
这个分层,不是单个 agent 产品自动会替你做好的。
4. 可读的系统真相
AGN 不只是“能运行”,还试图把运行状态组织成几类读表面:
capability_snapshotexecution_disciplinehost_infooperator_briefreconstruction_status
这类东西的意义是:你不是只能靠聊天记录回忆系统现在是什么状态。
5. 架构演进纪律
最新版 AGN 很明显在往这个方向收拢:
- 把脚本实现迁入
src/agn - 保留 script shim
- 用 self-audit 和 acceptance matrix 约束迁移
这和一个“好用的 agent app”不是同一类价值。
所以我现在的真实判断是什么
我的判断分成两层。
对日常直接监督下的工作
如果场景是:
- 你在电脑前
- 任务范围明确
- 主要诉求是跨 app 执行、浏览器调查、桌面操作、轻度自动化
那新版 Codex 已经足够强,AGN 很多执行层 wrapper 都应该退居次要位置。
继续维持它们的代价,可能已经高于收益。
对长期、多代理、可审计系统
如果场景是:
- 需要明确审批边界
- 需要把 worker 和 reviewer 严格分开
- 需要 append-only memory
- 需要控制面和可读状态
- 需要跨多次会话维持结构化系统演进
那 AGN 仍然不是冗余物。
它的价值不在于“比 Codex 更会点软件”,而在于:
它试图把 agent 执行变成一个被治理、被追踪、可回放、可演进的系统。
我对 AGN 下一步的建议
如果让我基于这次调查给出方向,我会建议 AGN 做三件事。
1. 停止和新版 Codex 在执行层硬碰硬
该收缩的就收缩:
- 只为补足旧 Codex 能力缺口而存在的 wrapper
- 只为桌面点击而生的中间桥接层
- 只为“让 agent 能碰到真实 app”而搭的一次性结构
2. 把重心压回治理层
继续强化这些真正还值钱的部分:
- control plane
- policy gate
- governed execution gateway
- reviewer / worker discipline
- append-only memory
- read models
- task-start posture
3. 接受一个新的角色定位
AGN 不该再把自己理解成“比 Codex 更大的工具箱”。
更合理的定位应该是:
Codex 负责越来越强的原生执行,AGN 负责把复杂执行收进一个可治理的系统边界里。
如果这个角色定位成立,那么 AGN 的路线就会清晰很多:
- 不和 Codex 抢原生执行体验
- 利用 Codex 的原生执行能力
- 把自己的不可替代价值集中在 governance、audit、memory、review orchestration 上
最后一句话
有了 Computer Use 之后,AGN 当然没有“原样不动继续扩张”的正当性了。
但这不等于 AGN 没用了。
真正的结论是:
新版 Codex 已经让 AGN 过去很多执行层补丁失去必要性;AGN 现在要么收缩到治理层与系统层,要么就会被新版 Codex 的原生能力逐步边缘化。
这不是坏消息。
这反而是一次很健康的架构分化:
- 让 Codex 去做它已经明显更擅长的事
- 让 AGN 只保留那些真正值得长期维护的部分