← 返回首页

罗福莉 3.5h 访谈精华:AI 范式已变

2026-04-28 · Leo (@runes_leo)

原视频:张小珺商业访谈录 · 时长 3:34:38

嘉宾:罗福莉(小米大模型负责人)

解读时间:2026-04-28


嘉宾与访谈背景

罗福莉,小米大模型负责人。她在阿里达摩院做过 NLP,去 DeepSeek 之后参与过几代核心模型,加入小米后主导 MiMo-V2 系列。媒体喜欢叫她"AI 天才少女",本人在访谈里直接说不喜欢这个称呼。

这次访谈由张小珺主持,3.5 小时,在 OpenClaw 框架开源和 MiMo-V2 系列发布之后录制。这是罗福莉第一次接受这种长度的技术深访,信息密度比她以往在论坛或圆桌上的发言高很多。

访谈聚焦的问题:2026 年由 Claude 4.6 Opus 引发的新一轮技术范式迁移,对国内一线团队意味着什么。下面拆成五个维度。

cover.png

一、算力配比 3:1:1

罗福莉给出的最具体的数字是算力分配。

"我自己觉得一个非常合理的卡的比例是 3:1:1。研究的比例应该至少是你正式起训练的卡总量的还要多一点,你要外流更多的卡来去做研究。"

换算一下:研究阶段 60%(3/5),预训练 20%(1/5),后训练 20%(1/5)。研究阶段的算力投入应当超过预训练加后训练之和。

01-compute-ratio.png

这跟过去几年大家熟悉的 "scale law 砸卡到训练" 的叙事不一样。在那个叙事里,研究是探索方向用的,是预算尾数。训练才是主菜。罗福莉的说法把研究本身重新定义成了主菜,研究决定方向,训练只是把方向跑出来。

她在访谈里没展开为什么是 3:1:1 而不是 2:1:1 或 4:1:1,但反复强调"环境反而比经验更重要"。大模型团队的真正资产是验证假设的能力,而验证假设是研究阶段的事。


二、Agent 入场圈 = Claude 4.6 Opus 级

"你要做到接近 Claude 4.6 Opus 的水平,那加一个入场圈。"

这是访谈里最直白的判断。如果你想做 Agent 应用,基础模型的能力必须接近 Claude 4.6 Opus 这个水平,否则做出来的东西就是玩具。

罗福莉没列具体 benchmark,但访谈里反复提到 Agent 的几个硬约束:长上下文稳定性、多步推理稳定性、工具使用准确率。这几项指标如果不到 Opus 级,Agent 跑两步就出错,业务无法成立。

这条判断的潜台词是国内目前能进 Agent 入场圈的模型还不多。罗福莉没点名,但访谈里能感受到她对国内团队整体能力的紧迫感。问题不是"国内排第几",而是"有没有进场资格"。


三、长上下文稳定性:宣传 ≠ 可用

"现在 Claude 在长上下文能力的稳定度上,基本上现在只有 Claude 4.6 Opus 和 Sonnet 是理想的。其他像 Gemini,虽然宣称长上下文的能力很好,但其实都是不行的。"

这是访谈里少数直接点名比较的地方。她区分了两个概念:

这两件事经常被混为一谈。Gemini 经常宣传自己的 1M / 2M context window,但实战中 Agent 系统跑长任务,结果稳定性不如 Claude。罗福莉直接说"实际上不行"。

对独立开发者的隐含建议:选模型时不要看模型卡片上的 context length 数字,要做实际任务的稳定性压测。这件事 Anthropic 自己一直在强调,他们 long-context recall 的论文专门讲过这个区别。罗福莉的发言等于从国内一线视角再确认了一次。


四、长任务训练的物理瓶颈

"做长程任务的时候,其实真实的训练不会在这么长程的任务上去训。"

这是访谈里最反直觉的一段。

很多人以为大模型训练 Agent 能力的方式是直接拿长程任务喂模型,让它学会做长任务。罗福莉说不是。

她举了一个例子:即便是 MiMo-V2 Pro 这种 TPS 80-100 的模型,在长任务上做完整的 RL 循环(生成 → 奖励 → 反传),单次往返也要 1-2 分钟。一个 batch 几千条样本,一天训不了几轮。长程任务的训练效率低到业务上不可行。

02-long-task-bottleneck.png

业界的实际策略是:

  1. 预训练阶段用短任务,让模型学会单步推理、工具使用、context 处理
  2. 后训练阶段做长任务激活:把短任务里学到的能力组合激活到长任务上,模型本身已经具备这个能力,只是需要在合适的场景下被唤醒

这个细节解释了一个外部观察者常有的疑问:为什么所有团队都说 Agent 是关键,但发布的模型 benchmark 还是侧重短任务?因为长任务真的训不动,业界都在用激活的方式做。


五、Agent 独立 Context 与多模态编排

后两个相关观点放一起讲。

Context 隔离

"当模型没有那么强的时候,有自己的独立的 context 它会更专注,专注还是蛮重要的。"

罗福莉的判断:弱模型做多 Agent 系统时,给每个 Agent 一个独立的 context 反而比共享全局 state 更可靠。原因是弱模型在拥挤的 context 下容易跑偏,独立 context 让它聚焦在当前任务上。

这跟很多 Agent 框架的默认设计相反。很多框架把 memory 做成全局共享,认为信息流通更重要。罗福莉的经验是:信息流通是强模型的奢侈品,弱模型先保证不分心。

多模态编排

"看到 OpenClaw 的时候我自己就一下就想到,这些模型在各自在什么样的环节发生什么样的作用,他们能够怎么被有效编排。"

OpenClaw 是小米开源的 Agent 框架。罗福莉强调的是它揭示的方法论:真正的智能必须是多模态的,单纯文本或单纯语音都做不出有交互价值的产品。编排比堆叠更重要。把不同模态的模型在合适的环节调用,比把所有能力塞进一个大模型更现实。


几个值得记住的金句

"环境反而比经验更重要。"

"做长程任务的时候,真实的训练不会在这么长程的任务上去训。"

"当模型没有那么强的时候,有自己的独立的 context 它会更专注,专注还是蛮重要的。"


访谈尾声:一个工作节奏的细节

访谈最后张小珺问到工作节奏,罗福莉的回答是:早上 11 点到晚上 12 到 14 点,睡眠 4-6 小时够用。

她紧接着补了一句:"这是我的状态,不代表别人。"

她解释自己睡眠需求本来就低,加上对当前工作内容兴奋,会觉得睡多了浪费时间。这是个人生理特性的描述,她明确说这不是给别人的建议。访谈里大模型团队的工作强度是真实的,罗福莉本人的可持续性建立在她生理特性的基础上。


解读总结

03-four-judgments.png

罗福莉这次访谈的信息密度集中在四个判断:

  1. 算力分配应该 3:1:1。研究是主菜不是配菜
  2. Agent 入场门槛是 Opus 级。达不到,不必上 Agent 架构
  3. 长上下文稳定性只有 Opus + Sonnet 真能用。别看宣传看实战
  4. 长任务训练物理上不可行。业界都用短训 + 激活迂回

这四点是一线大模型团队对 2026 年 Agent 范式的当下判断。

如果你在做 AI 应用、Agent 框架,或者在选模型,这四个判断值得收藏。如果你只是关心行业方向,这次访谈是 2026 年到目前为止最值得听的一场。


致谢

访谈原视频:张小珺商业访谈录 · 对罗福莉的 3.5 小时访谈

访谈主持:@zhang_benita — 推荐关注,她做的 AI 一线人物访谈在中文圈是稀缺品。

建议有时间的人去听完整版。本文是基于完整转录的解读版,但很多语气、停顿、张小珺的追问角度,原视频才能感受到。


关于作者:Leo (@runes_leo),AI x Crypto 独立构建者。在 Polymarket 做量化交易,用 Claude Code 和 Codex 搭建数据分析与自动化交易系统。

leolabs.me:文章 · 社群 · 开源工具 · 独立项目 · 全平台账号

X 订阅:付费内容周更,或请我喝杯咖啡 😁

Learn in public, Build in public.

最后更新:2026-04-28