← 返回首页

罗福莉 3.5h 访谈精华：AI 范式已变

2026-04-28 · Leo (@runes_leo)

原视频：张小珺商业访谈录 · 时长 3:34:38

嘉宾：罗福莉（小米大模型负责人）

解读时间：2026-04-28

嘉宾与访谈背景

罗福莉，小米大模型负责人。她在阿里达摩院做过 NLP，去 DeepSeek 之后参与过几代核心模型，加入小米后主导 MiMo-V2 系列。媒体喜欢叫她"AI 天才少女"，本人在访谈里直接说不喜欢这个称呼。

这次访谈由张小珺主持，3.5 小时，在 OpenClaw 框架开源和 MiMo-V2 系列发布之后录制。这是罗福莉第一次接受这种长度的技术深访，信息密度比她以往在论坛或圆桌上的发言高很多。

访谈聚焦的问题：2026 年由 Claude 4.6 Opus 引发的新一轮技术范式迁移，对国内一线团队意味着什么。下面拆成五个维度。

一、算力配比 3:1:1

罗福莉给出的最具体的数字是算力分配。

"我自己觉得一个非常合理的卡的比例是 3:1:1。研究的比例应该至少是你正式起训练的卡总量的还要多一点，你要外流更多的卡来去做研究。"

换算一下：研究阶段 60%（3/5），预训练 20%（1/5），后训练 20%（1/5）。研究阶段的算力投入应当超过预训练加后训练之和。

这跟过去几年大家熟悉的 "scale law 砸卡到训练" 的叙事不一样。在那个叙事里，研究是探索方向用的，是预算尾数。训练才是主菜。罗福莉的说法把研究本身重新定义成了主菜，研究决定方向，训练只是把方向跑出来。

她在访谈里没展开为什么是 3:1:1 而不是 2:1:1 或 4:1:1，但反复强调"环境反而比经验更重要"。大模型团队的真正资产是验证假设的能力，而验证假设是研究阶段的事。

二、Agent 入场圈 = Claude 4.6 Opus 级

"你要做到接近 Claude 4.6 Opus 的水平，那加一个入场圈。"

这是访谈里最直白的判断。如果你想做 Agent 应用，基础模型的能力必须接近 Claude 4.6 Opus 这个水平，否则做出来的东西就是玩具。

罗福莉没列具体 benchmark，但访谈里反复提到 Agent 的几个硬约束：长上下文稳定性、多步推理稳定性、工具使用准确率。这几项指标如果不到 Opus 级，Agent 跑两步就出错，业务无法成立。

这条判断的潜台词是国内目前能进 Agent 入场圈的模型还不多。罗福莉没点名，但访谈里能感受到她对国内团队整体能力的紧迫感。问题不是"国内排第几"，而是"有没有进场资格"。

三、长上下文稳定性：宣传 ≠ 可用

"现在 Claude 在长上下文能力的稳定度上，基本上现在只有 Claude 4.6 Opus 和 Sonnet 是理想的。其他像 Gemini，虽然宣称长上下文的能力很好，但其实都是不行的。"

这是访谈里少数直接点名比较的地方。她区分了两个概念：

宣传的 context 长度：模型架构上能吃多长的输入
实际的 context 稳定性：在 Agent 业务里，长输入能否稳定输出正确结果

这两件事经常被混为一谈。Gemini 经常宣传自己的 1M / 2M context window，但实战中 Agent 系统跑长任务，结果稳定性不如 Claude。罗福莉直接说"实际上不行"。

对独立开发者的隐含建议：选模型时不要看模型卡片上的 context length 数字，要做实际任务的稳定性压测。这件事 Anthropic 自己一直在强调，他们 long-context recall 的论文专门讲过这个区别。罗福莉的发言等于从国内一线视角再确认了一次。

四、长任务训练的物理瓶颈

"做长程任务的时候，其实真实的训练不会在这么长程的任务上去训。"

这是访谈里最反直觉的一段。

很多人以为大模型训练 Agent 能力的方式是直接拿长程任务喂模型，让它学会做长任务。罗福莉说不是。

她举了一个例子：即便是 MiMo-V2 Pro 这种 TPS 80-100 的模型，在长任务上做完整的 RL 循环（生成 → 奖励 → 反传），单次往返也要 1-2 分钟。一个 batch 几千条样本，一天训不了几轮。长程任务的训练效率低到业务上不可行。

业界的实际策略是：

预训练阶段用短任务，让模型学会单步推理、工具使用、context 处理
后训练阶段做长任务激活：把短任务里学到的能力组合激活到长任务上，模型本身已经具备这个能力，只是需要在合适的场景下被唤醒

这个细节解释了一个外部观察者常有的疑问：为什么所有团队都说 Agent 是关键，但发布的模型 benchmark 还是侧重短任务？因为长任务真的训不动，业界都在用激活的方式做。

五、Agent 独立 Context 与多模态编排

后两个相关观点放一起讲。

Context 隔离：

"当模型没有那么强的时候，有自己的独立的 context 它会更专注，专注还是蛮重要的。"

罗福莉的判断：弱模型做多 Agent 系统时，给每个 Agent 一个独立的 context 反而比共享全局 state 更可靠。原因是弱模型在拥挤的 context 下容易跑偏，独立 context 让它聚焦在当前任务上。

这跟很多 Agent 框架的默认设计相反。很多框架把 memory 做成全局共享，认为信息流通更重要。罗福莉的经验是：信息流通是强模型的奢侈品，弱模型先保证不分心。

多模态编排：

"看到 OpenClaw 的时候我自己就一下就想到，这些模型在各自在什么样的环节发生什么样的作用，他们能够怎么被有效编排。"

OpenClaw 是小米开源的 Agent 框架。罗福莉强调的是它揭示的方法论：真正的智能必须是多模态的，单纯文本或单纯语音都做不出有交互价值的产品。编排比堆叠更重要。把不同模态的模型在合适的环节调用，比把所有能力塞进一个大模型更现实。

几个值得记住的金句

"环境反而比经验更重要。"

"做长程任务的时候，真实的训练不会在这么长程的任务上去训。"

"当模型没有那么强的时候，有自己的独立的 context 它会更专注，专注还是蛮重要的。"

访谈尾声：一个工作节奏的细节

访谈最后张小珺问到工作节奏，罗福莉的回答是：早上 11 点到晚上 12 到 14 点，睡眠 4-6 小时够用。

她紧接着补了一句："这是我的状态，不代表别人。"

她解释自己睡眠需求本来就低，加上对当前工作内容兴奋，会觉得睡多了浪费时间。这是个人生理特性的描述，她明确说这不是给别人的建议。访谈里大模型团队的工作强度是真实的，罗福莉本人的可持续性建立在她生理特性的基础上。

解读总结

罗福莉这次访谈的信息密度集中在四个判断：

算力分配应该 3:1:1。研究是主菜不是配菜
Agent 入场门槛是 Opus 级。达不到，不必上 Agent 架构
长上下文稳定性只有 Opus + Sonnet 真能用。别看宣传看实战
长任务训练物理上不可行。业界都用短训 + 激活迂回

这四点是一线大模型团队对 2026 年 Agent 范式的当下判断。

如果你在做 AI 应用、Agent 框架，或者在选模型，这四个判断值得收藏。如果你只是关心行业方向，这次访谈是 2026 年到目前为止最值得听的一场。

致谢

访谈原视频：张小珺商业访谈录 · 对罗福莉的 3.5 小时访谈

访谈主持：@zhang_benita — 推荐关注，她做的 AI 一线人物访谈在中文圈是稀缺品。

建议有时间的人去听完整版。本文是基于完整转录的解读版，但很多语气、停顿、张小珺的追问角度，原视频才能感受到。

关于作者：Leo (@runes_leo)，AI x Crypto 独立构建者。在 Polymarket 做量化交易，用 Claude Code 和 Codex 搭建数据分析与自动化交易系统。

leolabs.me：文章 · 社群 · 开源工具 · 独立项目 · 全平台账号

X 订阅：付费内容周更，或请我喝杯咖啡 😁

Learn in public, Build in public.

最后更新：2026-04-28