原视频:张小珺商业访谈录 · 时长 3:34:38
嘉宾:罗福莉(小米大模型负责人)
解读时间:2026-04-28
罗福莉,小米大模型负责人。她在阿里达摩院做过 NLP,去 DeepSeek 之后参与过几代核心模型,加入小米后主导 MiMo-V2 系列。媒体喜欢叫她"AI 天才少女",本人在访谈里直接说不喜欢这个称呼。
这次访谈由张小珺主持,3.5 小时,在 OpenClaw 框架开源和 MiMo-V2 系列发布之后录制。这是罗福莉第一次接受这种长度的技术深访,信息密度比她以往在论坛或圆桌上的发言高很多。
访谈聚焦的问题:2026 年由 Claude 4.6 Opus 引发的新一轮技术范式迁移,对国内一线团队意味着什么。下面拆成五个维度。
罗福莉给出的最具体的数字是算力分配。
"我自己觉得一个非常合理的卡的比例是 3:1:1。研究的比例应该至少是你正式起训练的卡总量的还要多一点,你要外流更多的卡来去做研究。"
换算一下:研究阶段 60%(3/5),预训练 20%(1/5),后训练 20%(1/5)。研究阶段的算力投入应当超过预训练加后训练之和。
这跟过去几年大家熟悉的 "scale law 砸卡到训练" 的叙事不一样。在那个叙事里,研究是探索方向用的,是预算尾数。训练才是主菜。罗福莉的说法把研究本身重新定义成了主菜,研究决定方向,训练只是把方向跑出来。
她在访谈里没展开为什么是 3:1:1 而不是 2:1:1 或 4:1:1,但反复强调"环境反而比经验更重要"。大模型团队的真正资产是验证假设的能力,而验证假设是研究阶段的事。
"你要做到接近 Claude 4.6 Opus 的水平,那加一个入场圈。"
这是访谈里最直白的判断。如果你想做 Agent 应用,基础模型的能力必须接近 Claude 4.6 Opus 这个水平,否则做出来的东西就是玩具。
罗福莉没列具体 benchmark,但访谈里反复提到 Agent 的几个硬约束:长上下文稳定性、多步推理稳定性、工具使用准确率。这几项指标如果不到 Opus 级,Agent 跑两步就出错,业务无法成立。
这条判断的潜台词是国内目前能进 Agent 入场圈的模型还不多。罗福莉没点名,但访谈里能感受到她对国内团队整体能力的紧迫感。问题不是"国内排第几",而是"有没有进场资格"。
"现在 Claude 在长上下文能力的稳定度上,基本上现在只有 Claude 4.6 Opus 和 Sonnet 是理想的。其他像 Gemini,虽然宣称长上下文的能力很好,但其实都是不行的。"
这是访谈里少数直接点名比较的地方。她区分了两个概念:
这两件事经常被混为一谈。Gemini 经常宣传自己的 1M / 2M context window,但实战中 Agent 系统跑长任务,结果稳定性不如 Claude。罗福莉直接说"实际上不行"。
对独立开发者的隐含建议:选模型时不要看模型卡片上的 context length 数字,要做实际任务的稳定性压测。这件事 Anthropic 自己一直在强调,他们 long-context recall 的论文专门讲过这个区别。罗福莉的发言等于从国内一线视角再确认了一次。
"做长程任务的时候,其实真实的训练不会在这么长程的任务上去训。"
这是访谈里最反直觉的一段。
很多人以为大模型训练 Agent 能力的方式是直接拿长程任务喂模型,让它学会做长任务。罗福莉说不是。
她举了一个例子:即便是 MiMo-V2 Pro 这种 TPS 80-100 的模型,在长任务上做完整的 RL 循环(生成 → 奖励 → 反传),单次往返也要 1-2 分钟。一个 batch 几千条样本,一天训不了几轮。长程任务的训练效率低到业务上不可行。
业界的实际策略是:
这个细节解释了一个外部观察者常有的疑问:为什么所有团队都说 Agent 是关键,但发布的模型 benchmark 还是侧重短任务?因为长任务真的训不动,业界都在用激活的方式做。
后两个相关观点放一起讲。
Context 隔离:
"当模型没有那么强的时候,有自己的独立的 context 它会更专注,专注还是蛮重要的。"
罗福莉的判断:弱模型做多 Agent 系统时,给每个 Agent 一个独立的 context 反而比共享全局 state 更可靠。原因是弱模型在拥挤的 context 下容易跑偏,独立 context 让它聚焦在当前任务上。
这跟很多 Agent 框架的默认设计相反。很多框架把 memory 做成全局共享,认为信息流通更重要。罗福莉的经验是:信息流通是强模型的奢侈品,弱模型先保证不分心。
多模态编排:
"看到 OpenClaw 的时候我自己就一下就想到,这些模型在各自在什么样的环节发生什么样的作用,他们能够怎么被有效编排。"
OpenClaw 是小米开源的 Agent 框架。罗福莉强调的是它揭示的方法论:真正的智能必须是多模态的,单纯文本或单纯语音都做不出有交互价值的产品。编排比堆叠更重要。把不同模态的模型在合适的环节调用,比把所有能力塞进一个大模型更现实。
"环境反而比经验更重要。"
"做长程任务的时候,真实的训练不会在这么长程的任务上去训。"
"当模型没有那么强的时候,有自己的独立的 context 它会更专注,专注还是蛮重要的。"
访谈最后张小珺问到工作节奏,罗福莉的回答是:早上 11 点到晚上 12 到 14 点,睡眠 4-6 小时够用。
她紧接着补了一句:"这是我的状态,不代表别人。"
她解释自己睡眠需求本来就低,加上对当前工作内容兴奋,会觉得睡多了浪费时间。这是个人生理特性的描述,她明确说这不是给别人的建议。访谈里大模型团队的工作强度是真实的,罗福莉本人的可持续性建立在她生理特性的基础上。
罗福莉这次访谈的信息密度集中在四个判断:
这四点是一线大模型团队对 2026 年 Agent 范式的当下判断。
如果你在做 AI 应用、Agent 框架,或者在选模型,这四个判断值得收藏。如果你只是关心行业方向,这次访谈是 2026 年到目前为止最值得听的一场。
访谈原视频:张小珺商业访谈录 · 对罗福莉的 3.5 小时访谈
访谈主持:@zhang_benita — 推荐关注,她做的 AI 一线人物访谈在中文圈是稀缺品。
建议有时间的人去听完整版。本文是基于完整转录的解读版,但很多语气、停顿、张小珺的追问角度,原视频才能感受到。
关于作者:Leo (@runes_leo),AI x Crypto 独立构建者。在 Polymarket 做量化交易,用 Claude Code 和 Codex 搭建数据分析与自动化交易系统。
leolabs.me:文章 · 社群 · 开源工具 · 独立项目 · 全平台账号
X 订阅:付费内容周更,或请我喝杯咖啡 😁
Learn in public, Build in public.
最后更新:2026-04-28