2026-05-02 · AI CODING · WORKFLOW

我的 AI 同事不是 4 件套：3 主力 + 1 临时工的动态组合

封面：凌晨两点，我发现一个 AI 在骗我 — 凌晨两点，我发现一个 AI 在骗我

0 · 4 个 AI 同事，工作流又变了

4/19 那条「我同时开着 4 个 AI 终端」的推文火了之后，下面有人问：到底怎么搭？

我答应整理。一晃过了 10 天，我的工作流又变了：

Copilot 砍掉了。用了一段时间发现它的补全场景跟 Cursor Tab 和 Claude Code 已经重合，单独占一个 SKU 但贡献度低，ROI 算不过来就砍。
Cursor 加进来了，但是临时工。5 月 1 日开始烧 $10K 免费额度跑后台 daemon，5 月 31 日到期。到期后看效果决定续不续。

所以这篇不能再写「4 件套实战」。真实状态是 3 主力 + 1 临时工。

这背后有一个我没在原推里讲清楚的判断：AI 同事不是一组固定 SKU，是按当下机会动态调整的组合。每个工具能不能留下，得看它是不是占了一个独有场景。重合的、ROI 算不过来的，再香也得砍。

下面 4 节按真实工作流展开，每节回答：定位是什么 / 配置怎么搭 / 协作链路接谁 / 用与不用。然后第 5 节单开一段讲为什么砍 Copilot——这本身比我推荐什么更值得看。第 6 节给一张协作图。第 7 节一句话收尾。

写给谁：已经在用 1-2 个 AI 编码工具、想搭多模型工作流但没头绪的独立开发者和内容创作者。
不写给谁：完全没用过 AI 工具的纯小白（先去看入门）；纯产品经理或不写代码的人（这套对你过拟合）。

1 · Claude Code · 主管

定位

我所有 AI 同事的「主管」。负责对话、判断、协调、审阅、复杂 plan、skill 调度，以及写中文内容（X 推文 / 长文 / 文档）。

它不是用来写代码最多的那个。它是用来 决定别的同事去写什么 的那个。

配置要点

入口：claude CLI（Max 订阅档，5x $100/月起步，跨周长项目才值得 20x $200/月）。

3 件 P0 配置：

~/.claude/CLAUDE.md = 全局行为规范 SSOT。所有交付标准、工作偏好、协作规则、SSOT 路由全在这里。
~/.claude/memory/active-tasks/T*.json per-task 文件（聚合视图 active-tasks.json 自动 rebuild）= 跨 session 任务接力面板。每条任务必填 id / title / owner，owner 只能是 claude 或 codex。
per-project MEMORY.md + patterns.md = 项目级踩坑记忆 + 跨项目可复用模式库。被纠正立即写 patterns.md，不等 session-end。

写回纪律是 P0 红线：active-tasks Schema 三必填没填 = 下游 /next /today 看不到任务名 = 跨模型协作断链。

skill 体系按需加载：用户级 ~/.claude/skills/ 命中关键词触发，不命中不加载。leo-style 写推文、article-pipeline 写长文、content-verify 核数字、humanizer 去 AI 八股，全是自定义 skill。

协作模式

上游谁喂它：我自己（对话）+ Codex 出 review 报告（多模型互搏）+ Cursor daemon 出后台产物（接力收口）
下游它给谁：Codex 跑 review / Cursor daemon 跑 backlog / 自己拍板发布
典型链路：我提需求 → Claude 出方案 + 写 SOP → 涉及策略代码就甩 Codex review → Codex 标 ✅ reviewed 才往下走

用与不用

✅ 用：3+ 文件改动、需要权衡的架构题、写 ≥1500 字长文、debug 卡 30min 还没头绪、跨 session 复杂任务接力、对外发推 / 写 Article。

❌ 不用：补一行类型签名、改 3 个变量名、装个依赖、纯命令 lookup（杀鸡用牛刀，烧 Max 额度浪费）。

2 · Codex · 码农 + 独立审查官

定位

策略、资金、数据基座代码的 独立 review 担当。不是用来写得多，是用来防止 Claude 主线程认知同化。

「独立」两个字是关键：给 Codex 的 prompt 必须包含独立的成功标准，禁止复制 Claude 的分析框架。Codex 应从零评估，不是在 Claude 的结论上做增量审查。这一条踩过坑——Codex 跟着 Claude 思路走，等于双重盲审失效。

它也能跑 headless 自动化，但我现在主用法是同步 review，不是 dispatcher。

配置要点

入口：codex CLI，与 Claude 共享 ~/.claude/memory/active-tasks/ per-task JSON 写回白名单。

reasoning effort 默认档位（这个调对省 debug 时间）：

任务类型	effort	命令
策略 / 资金 / PnL / 做市 / 钱包签名	xhigh	`codex -c model_reasoning_effort=xhigh`
数据基座 / 回测 / Pipeline	high	同上 high
普通 review / 重构	high	同上
文档 / 配置	medium	同上 medium

medium 档写策略代码会偷工，extreme 多花的 token 远小于 debug 时间。这是踩了几次坑后定的。

写回后必跑 node ~/.claude/scripts/sync-active-tasks.mjs 重建聚合视图，否则 active-tasks.json 滞后下游路由错。

协作模式

上游谁喂它：Claude 把方案打包丢过来 + 让它独立判断
下游它给谁：标 ✅ reviewed 或列出问题 → 回到 Claude 主线程裁决
典型链路：Claude 写完策略代码 → 「让 codex 看一下」→ Codex 独立 effort=xhigh review → 抓出 5 个真 bug → Claude 修 → 再过一轮

用与不用

✅ 用：策略相关计划 / 代码 / 数据基座执行计划 / 资金操作 / PnL 计算逻辑——任何涉及钱的改动 ship 前必须 codex review。

❌ 不用：纯文档 / 注释 / 日志格式 / ≤5 行配置（杀鸡用牛刀）。开放探索题（"看看哪里值得改"）也不要交给它，它给你一份没深度的清单。

月费：通过 ChatGPT Plus $20/月含 Codex CLI 基础，Pro $200/月含全量。

3 · Grok · 情报员

定位

实时信息抓取的「外勤同事」。X 推文检索、单条推文读取、Thread 续推、跨平台搜索、找 Quote 素材、验证某个数字是不是这两天才传开的——这些活全归 Grok。

它不写代码，不做判断，不参与决策。专门干 「现在外面在说什么 / 这条信息有没有源头」 这件事。

配置要点

入口：本地 Grok Bridge，127.0.0.1:19998 launchd 自启 Safari 注入会话态。调用方式：

rtk proxy curl -X POST http://127.0.0.1:19998/chat \
  -d '{"q":"<问题>","mode":"deepsearch"}'

为什么不用 opencli grok ask：那个频繁 NO RESPONSE，不稳定。Grok Bridge 借 Safari 已登录态走前端通道，稳得多。

配套抓取工具：

opencli twitter — 单条 / Thread 抓取（默认）
xreach — Thread 续推兜底（作者自己 reply 那种 🧵 thread，opencli 漏抓时用）
mcp__twitter — 用户画像 / 搜索 / KOL followers（不是首选，opencli/xreach 不行才走它）

URL 路由 SSOT 写在 ~/.claude/docs/url-routing.md，每个平台首选什么 / 兜底什么一览表。

协作模式

上游谁喂它：Claude 收到 URL / 问到 "xx 最近在说什么" / 要找 Quote 素材
下游它给谁：把抓到的原文 / 数据回给 Claude 做判断
典型链路：「Karpathy 那条新推大家什么反应」→ Grok Bridge 抓推 + 读评论 → Claude 出 Quote 草稿 → 我修

用与不用

✅ 用：搜热门话题 / 找 Quote 素材 / 分析单条推文 / 抓 Thread / 跨平台搜索（YouTube / Reddit / GitHub trending） / 验证某个数字 / 验证某段引用是不是真有出处。

❌ 不用：写代码 / 做架构判断 / 长会话推理（不是它的强项）。

月费：含在 X Premium+ 里（$16-22/月），不是单独订阅。

4 · Cursor · 临时工（5/31 到期）

定位

5 月份临时加进来的同事。5/1 起烧 $10K 免费额度跑后台 daemon，5/31 到期。到期后续不续看 ROI。

它的角色边界很清楚：

不进决策链——所有产物主线程 Opus 收口，daemon 不直接发布任何东西
不写策略 / 资金 / 钱包代码——红线 hardcode 在 daemon prompt 里
不假装跑 skill——daemon 不能真 invoke humanizer / content-verify skill / 不能真调 nano-banana 生图 / 不能真挂 SSOT footer 模板。这些都得主线程接

它能干的：明确验收硬约束 + 红线护栏齐全的批处理。比如批量产 spec doc / SOP / Python 脚本 + mock + README、长文初稿合稿 + 章节骨架。

配置要点

入口：cursor-agent SDK，launchd 起 cursor-sdk-loop（com.leo.cursor-sdk-loop），24/7 跑。

工作模式：daemon 倒序读 ~/Projects/_inventory/cursor-product-backlog.md 里的 ^- [ ] checkbox 任务，锁定后跑，完成改 [x-sdk]。

prompt 模板核心 3 步（A 类内容任务）：

合稿（多 section 合并 + 钩子段创作）
结构（4-6 锚点骨架）
inline css HTML 骨架（不嵌真图）

显式声明 daemon 不能做什么写进 prompt 头，不让它装作跑过。这是踩坑后加的——之前 daemon 自标「humanizer 自检过 + verify 清单已挂」结果一个都没真跑，等于说谎。

红线（强制内置 prompt）：

❌ 不动 prediction-trader / prediction-farmer 任何 .ts/.py/.mjs
❌ 不写 API key / cookie / token / 钱包私钥
❌ 不调外部资金 API
❌ 不发推 / 不发 GitHub PR / 不动 vault SSOT 主表
❌ 不假装跑过 skill 流程

协作模式

上游谁喂它：我（主线程 Opus）写 backlog 任务 + 路由到对应 Pipeline（A 内容 / B 脚本 / C doc）
下游它给谁：产物落 vault 或 _inventory/tools/ → 主线程 Opus 接力收口（A 类必接 / B/C 类抽检）
典型链路：我写 6 件 spec 任务 → daemon 倒序吃 5-10min/件 → 产 6 个 vault doc → 我抽 1-2 件 sonnet 预审 → 标 ⭐⭐⭐ 起就能直接归档

用与不用

✅ 用：批量 spec / SOP / 研究 doc 类（C 类）；脚本 + mock + README（B 类）；长文骨架合稿（A 类初稿，但 不期待终稿）。

❌ 不用：策略代码 / 资金代码 / 任何涉及独立判断的活 / 任何需要 verify 数字的活 / 配图 / 终稿发布。

月费：$0（试用期烧免费额度）。常态价格如果到期续费 Pro $20/月、Ultra $200/月。

5 · 砍掉的同事：Copilot 为什么不用了

这一节比我留下哪个工具更值得看。

之前用 GitHub Copilot Pro $19/月，主要场景是 VS Code 内 ghost text 补全 + 终端 gh copilot suggest。用了一段时间，发现两个问题：

第一个问题：场景跟其他工具重合度高。

IDE 内补全：Cursor 的 Tab 已经做得更好（agent 模式甚至能改多文件）
终端命令查询：直接问 Claude Code 比 gh copilot suggest 准

第二个问题：单独占一个 SKU 但贡献度低。

算月成本：$19 不算贵
算时间成本：经常要切换工具（VS Code Copilot ↔ Cursor ↔ Claude CLI ↔ Codex），切来切去本身比省下的几秒补全时间还多

砍掉之后没什么不适应。这本身就是答案——一个工具如果砍掉之后没痛点，它本来就不该在你的工作流里。

启示一条：AI 工具组合不能堆料，要按「独占场景」判断。两个工具有 70% 重合，留一个就够。

6 · 协作图：3 主力 + 1 临时工怎么串

注意 Cursor 那条线是虚线——临时工，5/31 到期。其他 3 个是实线，长期固定。

三轴分工速记表

维度	Claude Code 主管	Codex 码农	Grok 情报员	Cursor 临时工
思考深度	★★★★★	★★★★★	★★	★★★
上下文长度	★★★★★	★★★★	★★★	★★★★
交互即时性	★★	★（同步 review）	★★★★	★（headless daemon）
独占场景	主决策 / 写内容 / skill 调度	策略 / 资金独立审查	实时信息抓取	后台批处理（试用）
月度成本	$100 (5x) / $200 (20x)	$20 (Plus) / $200 (Pro)	含 X Premium+ ($16-22)	$0（试用） / 续约 $20-200
在岗状态	长期	长期	长期	5/31 到期决定续 / 砍

7 · takeaway：AI 同事是动态组合，不是固定 SKU

3 句话收尾：

3 主力（Claude / Codex / Grok）长期固定，因为各占独有场景：主决策 / 独立审查 / 实时情报。互不重合。
临时工按机会加，按 ROI 砍。Cursor 是因为 $10K 免费额度才进来，5/31 到期看效果决定。Copilot 是因为重合度高、独占场景不够才砍掉。
工具数 ≠ 产出。判断一个 AI 同事该不该留，问一句话：它砍掉之后我会不会有痛点。会有 → 留；没痛点 → 砍。这条比任何配置教程都重要。

下面那条线我准备 5/31 重新发一次更新版——到时候要么 Cursor 转正写「4 主力」，要么砍掉回 3 主力，结果直接告诉你。