12月17日上午,2025小米人车家全生态合作伙伴大会在北京举行。南方+记者注意到,此前曾引发热议的“AI天才少女”罗福莉在本次大会上进行了主题为《Xiaomi MiMo:小米基座大模型》的分享。这也是罗福莉加入小米后首次公开亮相。
高速低成本的全新大模型
在分享环节,罗福莉主要针对小米MiMo-V2-Flash基座大模型的特点进行了阐述。
据她介绍,这是小米从语言出发构建了全新一代面向agent的基座模型,总参数只有309B,激活参数只有15B,但其代码能力和agent能力,在一些世界级的榜单上已经进入全球开源模型的Top2,大部分评测基准上超过 DeepSeek V3.2 和K2-Thinking,对比参数量减少了二分之一到三分之二。
罗福莉指出,大模型通过算力、数据去理解人类思维和人类世界,但它并不真正像人类一样具备对物理世界的感知能力,严谨来说,大模型成功解码了人类思维在文本空间的投影。
她表示,小米MiMo-V2-Flash的研发主要围绕三个关键问题展开。
“我们认为当代的智能体需要有高效的沟通语言,也就是代码能力和工具调用能力。”她指出,目前智能体之间的沟通带宽非常低,需要高推理效率的模型,要面向推理高效率,重新设计模型结构,同时高效稳定扩展强化学习训练也需要全新的后训练范式。
“我们发现,MiMo-V2-Flash已经初步具备在语言空间模拟世界的能力,可以通过Html写操作系统,用HTML模拟太阳系,也可以用来做一些小型Demo并跟它产生交互。”
她介绍,小米MiMo-V2-Flash具有低成本、高速度的特点。这是围绕极致推理效率设计模型结构的结果,全新的后训练范式也让其可以通过简短几十步,就能将各个领域专家模型能力快速蒸馏。
罗福莉表示,小米MiMo-V2-Flash已经发布,并且开源了所有模型权重、技术报告的细节,并向开发者提供API,体验web也已经上线。
智能体要在交互中“活”出来
在谈及对智能体的展望时,罗福莉认为,下一代智能体系统不是“语言模拟器”,而是真正理解我们世界、并与之共存的“智能体”。
这种智能体需要具备两个潜能,一是“Agent执行”,从“回答问题”到“完成任务”,具有记忆、推理、自主策划、决策、执行等能力,二是具备“Omni感知能力”,要有统一多模态感知,为理解物理世界打基础,有了这一基础后,可以无缝嵌入眼镜等智能终端,融入日常工作流。
“大模型本质上是用算力的暴力美学,直接攻克最顶层的语言、第二层的强化学习,但跳过了中间非常多的步骤,比如对世界的感知、模拟,另外必须有实体和环境产生的交互。”
罗福莉表示,这也是为何大家认为大模型已经做到了数学奥赛水平,也能模仿莎士比亚风格写作,但并不太懂“重力”这类物理法则的含义,仅有完美的语言外壳,但缺乏锚定现实世界的物理模型。“真正的智能不是纯粹在文本里读出来的,而是在交互里‘活’出来。”
她认为,AI的下一个起点,是要有能与真实环境产生交互的物理模型,要打造的并不是程序,其实是具备在物理上的一致性、时空连贯性的虚拟宇宙,不仅满足于看懂画面、处理文本,更要理解背后的物理规律,推演背后世界的运作逻辑。
在分享结尾,罗福莉也对小米大模型Core团队进行了介绍,表示小米构建了研究、产品与工程深度耦合的年轻团队。“我们认为技术上是可以追赶的,算力和数据也并非最终的护城河,真正的护城河是科学的研究文化和方法,是将未知问题结合模型优势转化为可用产品的能力。”
“从数据压缩到算法范式创新再到物理空间的深度连接,小米与全球AI共同定义未来。”罗福莉说。
南方+记者 葛政涵
订阅后可查看全文(剩余80%)



