


为什么你说一句话,机器人就能执行一串动作?| AI问为什么
在汽车工厂里精准搬运物料,在运动场上奔跑、格斗,在社区里流畅写字、娴熟泡咖啡,甚至在舞台上翩翩起舞、打鼓、弹奏古筝……
今年以来,机器人正以令人惊叹的速度“解锁”各种技能,仿佛无所不能。
为什么你只需说一句话,机器人就能完成一连串复杂动作?
答案,就藏在一个正在重塑人工智能未来的关键概念里——具身智能。
具身智能,就是先让AI“拥有身体”,通过看、听、触摸,与真实世界互动。
正是这一突破,让机器人真正“活”了起来!
从“专机”到“通才”
让机器人学会“举一反三”
过去,工业机器人大多是“专机专用”——编程固定动作,只能在一个特定位置完成单一任务。换一条产线?立刻“抓瞎”。它像一个只会死记硬背的学生,无法迁移知识,更谈不上灵活应变。
而今天的机器人,正在成为能“举一反三”的“通才”。
这一切,始于模仿学习。就像孩子看着大人开门、用筷子,一遍遍尝试直到掌握,机器人也能通过观察人类动作,由算法提取关键细节,再反复练习,越做越熟练。跌倒、翻倒?这些失败不是终点,而是积累经验的过程。
掌握了基本动作后,机器人还要学会“动脑”——理解语言指令,判断环境变化,做出合理决策,并执行相应动作。这才是具身智能的核心:看得见、听得懂,还能做得对。
大模型为机器人带来了完整的智能行为链。以端到端的VLA大模型为例——将视觉(Vision)、语言(Language)、动作(Action)深度融合。机器人从此可以像人一样,从“看到”到“理解”,再到“行动”,一气呵成。
来自深圳的智平方是全球最早布局“端到端”大模型的创业公司之一。该公司副总裁莫磊介绍,现在只需一句“倒杯水”, 机器人就能自己找杯子、走过去、稳稳拿起、倒水,动作自然流畅。“只要理解‘倒水’这一概念,它就能举一反三,实现跨场景通用。”
“我们的机器人最聪明的地方,是‘零样本适应多场景,小样本完成多任务’。”莫磊说。这意味着,在A工厂学会搬箱子,到了B工厂照样能干;而如果要学习新技能,只要很少量的数据,就能快速学习,成为各领域的“通才”。
不仅如此,多模态感知融合让它“指尖一碰就知轻重,眼睛一扫即判满空,脚底一踩感应地滑”。多种感官协同,让它拿得稳、走得稳,做得巧。
它甚至能像手机安装APP那样,远程下载新技能:今天搬箱,明天分拣或质检,还能与“同伴”协同工作。无需更换硬件,越用越聪明,在试错中持续进化,为在各行各业落地应用打下了基础。
从“能动”到“能用”
成为人人可用的智能终端
机器人本领强大,但人们更关心的是,它到底能不能真正用起来?
答案正在浮现。如今,广东的具身机器人已走进电子制造、生物医药、高端装备等工厂,干起了搬运、整理、检查的活儿,为未来进入家庭持续积累“实战经验”。
“我们从最初就坚持让制造业客户先用起来,”莫磊表示,“制造业环境相对稳定,存在大量需要灵活处理的工位,是机器人理想的‘练级场’。”在实际使用中持续收集数据、迭代模型与硬件,机器人才能像智能手机和电动汽车一样,逐步变得可靠、好用。
但他也提醒:“不能为了炫技去挑战太难的场景,也不能只做简单重复、没技术含量的活。”智平方从“半结构化场景”入手,如半导体车间、医药洁净室等,这些环境相对固化,任务流程标准化程度高,对机器人的柔性要求适中,是当前技术能力可及的“甜蜜区”。
人形机器人的“实用性”,正成为行业分水岭。在智平方创始人兼CEO郭彦东看来,当前机器人本体处于“研发成熟、量产爬坡”阶段, 2—3年内将迎来平滑上量期。当硬件性能逐渐趋同,智能化将成为下一个战场。人形机器人进入消费端的“iPhone时刻”,他预测还需5—7年沉淀。
眼下,落地正在加速。最近,智平方与深圳慧智物联达成合作,未来三年内将部署超1000台具身机器人,用于仓储物流、物料搬运、装配和质检等环节,订单金额接近5亿元。“我们已开始小批量生产,9月已启动自己的生产线。”莫磊说。
从“能动”到“能用”,机器人正一步步走进现实生活,掀起一场智能制造的变革。
策划:陈枫 王海军
统筹:袁佩如 王良珏
采写:南方+记者 昌道励 许宁宁
摄影:南方+记者 钟志辉 见习记者 赵子杰
剪辑:南方+记者 何志豪 龙达洋 王良珏 实习生 万骏芳
设计:吴颖岚 谭唯
【编者按】
这是一场关于未来的追问。
爱问为什么,爱较真答案,更爱那些让生活变得更美好的可能。
即日起,南方+推出“AI问为什么”系列融媒体报道。
我们走进一个个被AI改变的现场,从工厂车间到城市街巷,从医疗场景到日常生活……
借助AI技术,用听得懂的语言,层层追问变革背后的“为什么”。
AI解难题,问透为什么——
带你一起,看见千行百业如何被AI点亮,预见正在到来的未来。
往期链接:
订阅后可查看全文(剩余80%)