我的 AI 同事不是 4 件套:3 主力 + 1 临时工的动态组合

0 · 4 个 AI 同事,工作流又变了
4/19 那条「我同时开着 4 个 AI 终端」的推文火了之后,下面有人问:到底怎么搭?
我答应整理。一晃过了 10 天,我的工作流又变了:
- Copilot 砍掉了。用了一段时间发现它的补全场景跟 Cursor Tab 和 Claude Code 已经重合,单独占一个 SKU 但贡献度低,ROI 算不过来就砍。
- Cursor 加进来了,但是临时工。5 月 1 日开始烧 $10K 免费额度跑后台 daemon,5 月 31 日到期。到期后看效果决定续不续。
所以这篇不能再写「4 件套实战」。真实状态是 3 主力 + 1 临时工。
这背后有一个我没在原推里讲清楚的判断:AI 同事不是一组固定 SKU,是按当下机会动态调整的组合。每个工具能不能留下,得看它是不是占了一个独有场景。重合的、ROI 算不过来的,再香也得砍。
下面 4 节按真实工作流展开,每节回答:定位是什么 / 配置怎么搭 / 协作链路接谁 / 用与不用。然后第 5 节单开一段讲为什么砍 Copilot——这本身比我推荐什么更值得看。第 6 节给一张协作图。第 7 节一句话收尾。
写给谁:已经在用 1-2 个 AI 编码工具、想搭多模型工作流但没头绪的独立开发者和内容创作者。
不写给谁:完全没用过 AI 工具的纯小白(先去看入门);纯产品经理或不写代码的人(这套对你过拟合)。
1 · Claude Code · 主管
定位
我所有 AI 同事的「主管」。负责对话、判断、协调、审阅、复杂 plan、skill 调度,以及写中文内容(X 推文 / 长文 / 文档)。
它不是用来写代码最多的那个。它是用来 决定别的同事去写什么 的那个。
配置要点
入口:claude CLI(Max 订阅档,5x $100/月起步,跨周长项目才值得 20x $200/月)。
3 件 P0 配置:
~/.claude/CLAUDE.md= 全局行为规范 SSOT。所有交付标准、工作偏好、协作规则、SSOT 路由全在这里。~/.claude/memory/active-tasks/T*.jsonper-task 文件(聚合视图active-tasks.json自动 rebuild)= 跨 session 任务接力面板。每条任务必填id/title/owner,owner 只能是claude或codex。- per-project
MEMORY.md+patterns.md= 项目级踩坑记忆 + 跨项目可复用模式库。被纠正立即写patterns.md,不等 session-end。
写回纪律是 P0 红线:active-tasks Schema 三必填没填 = 下游 /next /today 看不到任务名 = 跨模型协作断链。
skill 体系按需加载:用户级 ~/.claude/skills/ 命中关键词触发,不命中不加载。leo-style 写推文、article-pipeline 写长文、content-verify 核数字、humanizer 去 AI 八股,全是自定义 skill。
协作模式
- 上游谁喂它:我自己(对话)+ Codex 出 review 报告(多模型互搏)+ Cursor daemon 出后台产物(接力收口)
- 下游它给谁:Codex 跑 review / Cursor daemon 跑 backlog / 自己拍板发布
- 典型链路:我提需求 → Claude 出方案 + 写 SOP → 涉及策略代码就甩 Codex review → Codex 标 ✅ reviewed 才往下走
用与不用
✅ 用:3+ 文件改动、需要权衡的架构题、写 ≥1500 字长文、debug 卡 30min 还没头绪、跨 session 复杂任务接力、对外发推 / 写 Article。
❌ 不用:补一行类型签名、改 3 个变量名、装个依赖、纯命令 lookup(杀鸡用牛刀,烧 Max 额度浪费)。
2 · Codex · 码农 + 独立审查官
定位
策略、资金、数据基座代码的 独立 review 担当。不是用来写得多,是用来防止 Claude 主线程认知同化。
「独立」两个字是关键:给 Codex 的 prompt 必须包含独立的成功标准,禁止复制 Claude 的分析框架。Codex 应从零评估,不是在 Claude 的结论上做增量审查。这一条踩过坑——Codex 跟着 Claude 思路走,等于双重盲审失效。
它也能跑 headless 自动化,但我现在主用法是同步 review,不是 dispatcher。
配置要点
入口:codex CLI,与 Claude 共享 ~/.claude/memory/active-tasks/ per-task JSON 写回白名单。
reasoning effort 默认档位(这个调对省 debug 时间):
| 任务类型 | effort | 命令 |
|---|---|---|
| 策略 / 资金 / PnL / 做市 / 钱包签名 | xhigh | codex -c model_reasoning_effort=xhigh |
| 数据基座 / 回测 / Pipeline | high | 同上 high |
| 普通 review / 重构 | high | 同上 |
| 文档 / 配置 | medium | 同上 medium |
medium 档写策略代码会偷工,extreme 多花的 token 远小于 debug 时间。这是踩了几次坑后定的。
写回后必跑 node ~/.claude/scripts/sync-active-tasks.mjs 重建聚合视图,否则 active-tasks.json 滞后下游路由错。
协作模式
- 上游谁喂它:Claude 把方案打包丢过来 + 让它独立判断
- 下游它给谁:标
✅ reviewed或列出问题 → 回到 Claude 主线程裁决 - 典型链路:Claude 写完策略代码 → 「让 codex 看一下」→ Codex 独立 effort=xhigh review → 抓出 5 个真 bug → Claude 修 → 再过一轮
用与不用
✅ 用:策略相关计划 / 代码 / 数据基座执行计划 / 资金操作 / PnL 计算逻辑——任何涉及钱的改动 ship 前必须 codex review。
❌ 不用:纯文档 / 注释 / 日志格式 / ≤5 行配置(杀鸡用牛刀)。开放探索题("看看哪里值得改")也不要交给它,它给你一份没深度的清单。
月费:通过 ChatGPT Plus $20/月含 Codex CLI 基础,Pro $200/月含全量。
3 · Grok · 情报员
定位
实时信息抓取的「外勤同事」。X 推文检索、单条推文读取、Thread 续推、跨平台搜索、找 Quote 素材、验证某个数字是不是这两天才传开的——这些活全归 Grok。
它不写代码,不做判断,不参与决策。专门干 「现在外面在说什么 / 这条信息有没有源头」 这件事。
配置要点
入口:本地 Grok Bridge,127.0.0.1:19998 launchd 自启 Safari 注入会话态。调用方式:
rtk proxy curl -X POST http://127.0.0.1:19998/chat \
-d '{"q":"<问题>","mode":"deepsearch"}'
为什么不用 opencli grok ask:那个频繁 NO RESPONSE,不稳定。Grok Bridge 借 Safari 已登录态走前端通道,稳得多。
配套抓取工具:
- opencli twitter — 单条 / Thread 抓取(默认)
- xreach — Thread 续推兜底(作者自己 reply 那种 🧵 thread,opencli 漏抓时用)
- mcp__twitter — 用户画像 / 搜索 / KOL followers(不是首选,opencli/xreach 不行才走它)
URL 路由 SSOT 写在 ~/.claude/docs/url-routing.md,每个平台首选什么 / 兜底什么一览表。
协作模式
- 上游谁喂它:Claude 收到 URL / 问到 "xx 最近在说什么" / 要找 Quote 素材
- 下游它给谁:把抓到的原文 / 数据回给 Claude 做判断
- 典型链路:「Karpathy 那条新推大家什么反应」→ Grok Bridge 抓推 + 读评论 → Claude 出 Quote 草稿 → 我修
用与不用
✅ 用:搜热门话题 / 找 Quote 素材 / 分析单条推文 / 抓 Thread / 跨平台搜索(YouTube / Reddit / GitHub trending) / 验证某个数字 / 验证某段引用是不是真有出处。
❌ 不用:写代码 / 做架构判断 / 长会话推理(不是它的强项)。
月费:含在 X Premium+ 里($16-22/月),不是单独订阅。
4 · Cursor · 临时工(5/31 到期)
定位
5 月份临时加进来的同事。5/1 起烧 $10K 免费额度跑后台 daemon,5/31 到期。到期后续不续看 ROI。
它的角色边界很清楚:
- 不进决策链——所有产物主线程 Opus 收口,daemon 不直接发布任何东西
- 不写策略 / 资金 / 钱包代码——红线 hardcode 在 daemon prompt 里
- 不假装跑 skill——daemon 不能真 invoke
humanizer/content-verifyskill / 不能真调 nano-banana 生图 / 不能真挂 SSOT footer 模板。这些都得主线程接
它能干的:明确验收硬约束 + 红线护栏齐全的批处理。比如批量产 spec doc / SOP / Python 脚本 + mock + README、长文初稿合稿 + 章节骨架。
配置要点
入口:cursor-agent SDK,launchd 起 cursor-sdk-loop(com.leo.cursor-sdk-loop),24/7 跑。
工作模式:daemon 倒序读 ~/Projects/_inventory/cursor-product-backlog.md 里的 ^- [ ] checkbox 任务,锁定后跑,完成改 [x-sdk]。
prompt 模板核心 3 步(A 类内容任务):
- 合稿(多 section 合并 + 钩子段创作)
- 结构(4-6 锚点骨架)
- inline css HTML 骨架(不嵌真图)
显式声明 daemon 不能做什么写进 prompt 头,不让它装作跑过。这是踩坑后加的——之前 daemon 自标「humanizer 自检过 + verify 清单已挂」结果一个都没真跑,等于说谎。
红线(强制内置 prompt):
- ❌ 不动
prediction-trader/prediction-farmer任何.ts/.py/.mjs - ❌ 不写 API key / cookie / token / 钱包私钥
- ❌ 不调外部资金 API
- ❌ 不发推 / 不发 GitHub PR / 不动 vault SSOT 主表
- ❌ 不假装跑过 skill 流程
协作模式
- 上游谁喂它:我(主线程 Opus)写 backlog 任务 + 路由到对应 Pipeline(A 内容 / B 脚本 / C doc)
- 下游它给谁:产物落 vault 或
_inventory/tools/→ 主线程 Opus 接力收口(A 类必接 / B/C 类抽检) - 典型链路:我写 6 件 spec 任务 → daemon 倒序吃 5-10min/件 → 产 6 个 vault doc → 我抽 1-2 件 sonnet 预审 → 标 ⭐⭐⭐ 起就能直接归档
用与不用
✅ 用:批量 spec / SOP / 研究 doc 类(C 类);脚本 + mock + README(B 类);长文骨架合稿(A 类初稿,但 不期待终稿)。
❌ 不用:策略代码 / 资金代码 / 任何涉及独立判断的活 / 任何需要 verify 数字的活 / 配图 / 终稿发布。
月费:$0(试用期烧免费额度)。常态价格如果到期续费 Pro $20/月、Ultra $200/月。
5 · 砍掉的同事:Copilot 为什么不用了
这一节比我留下哪个工具更值得看。
之前用 GitHub Copilot Pro $19/月,主要场景是 VS Code 内 ghost text 补全 + 终端 gh copilot suggest。用了一段时间,发现两个问题:
第一个问题:场景跟其他工具重合度高。
- IDE 内补全:Cursor 的 Tab 已经做得更好(agent 模式甚至能改多文件)
- 终端命令查询:直接问 Claude Code 比
gh copilot suggest准
第二个问题:单独占一个 SKU 但贡献度低。
- 算月成本:$19 不算贵
- 算时间成本:经常要切换工具(VS Code Copilot ↔ Cursor ↔ Claude CLI ↔ Codex),切来切去本身比省下的几秒补全时间还多
砍掉之后没什么不适应。这本身就是答案——一个工具如果砍掉之后没痛点,它本来就不该在你的工作流里。
启示一条:AI 工具组合不能堆料,要按「独占场景」判断。两个工具有 70% 重合,留一个就够。
6 · 协作图:3 主力 + 1 临时工怎么串
注意 Cursor 那条线是虚线——临时工,5/31 到期。其他 3 个是实线,长期固定。
三轴分工速记表
| 维度 | Claude Code 主管 | Codex 码农 | Grok 情报员 | Cursor 临时工 |
|---|---|---|---|---|
| 思考深度 | ★★★★★ | ★★★★★ | ★★ | ★★★ |
| 上下文长度 | ★★★★★ | ★★★★ | ★★★ | ★★★★ |
| 交互即时性 | ★★ | ★(同步 review) | ★★★★ | ★(headless daemon) |
| 独占场景 | 主决策 / 写内容 / skill 调度 | 策略 / 资金独立审查 | 实时信息抓取 | 后台批处理(试用) |
| 月度成本 | $100 (5x) / $200 (20x) | $20 (Plus) / $200 (Pro) | 含 X Premium+ ($16-22) | $0(试用) / 续约 $20-200 |
| 在岗状态 | 长期 | 长期 | 长期 | 5/31 到期决定续 / 砍 |
7 · takeaway:AI 同事是动态组合,不是固定 SKU
3 句话收尾:
- 3 主力(Claude / Codex / Grok)长期固定,因为各占独有场景:主决策 / 独立审查 / 实时情报。互不重合。
- 临时工按机会加,按 ROI 砍。Cursor 是因为 $10K 免费额度才进来,5/31 到期看效果决定。Copilot 是因为重合度高、独占场景不够才砍掉。
- 工具数 ≠ 产出。判断一个 AI 同事该不该留,问一句话:它砍掉之后我会不会有痛点。会有 → 留;没痛点 → 砍。这条比任何配置教程都重要。
下面那条线我准备 5/31 重新发一次更新版——到时候要么 Cursor 转正写「4 主力」,要么砍掉回 3 主力,结果直接告诉你。