一句话创造3D世界,还能训练机器人?他们做到了|世界算法看琶洲

作者 吴雨伦;苏韵桦;钟冠婷;刘珊;李嘉益 2025-09-22 11:13

(点击以上图片获取更多新闻)

一句话或者一张图生成3D世界,在第四届琶洲算法大赛上,这项技术格外吸睛。

9月22日,第四届琶洲算法大赛总决赛在广州市海珠区上演。

众多创新算法方案中,一支源自香港科技大学的科研创业团队——光影焕像,展示了其仅凭单张图像或文字描述即可生成高精度、可交互、带语义的3D物体与场景的技术,吸引了在场专家和业界的广泛关注。

从虚拟世界到具身智能

光影焕像是一家专注于3D AIGC和空间智能的人工智能初创公司,拥有全链路自主研发与训练的3D生成与空间理解基础模型。

这是光影焕像第一次参加琶洲算法大赛,这次他们的参赛项目,主要聚焦于空间智能与3D AI生成的融合,以团队自主研发的“三维物体与场景生成基座模型”为核心。

该模型能够根据文本或图像输入,生成各类3D物体,具备强大的泛化能力。无论是家具、工业零件、真实或虚拟人物形象,还是怪兽、奇幻场景,都能生成结构完整、细节丰富的3D模型。

“进入这个场景,你可以拿起一杯水,也可以打开一个电脑,与场景互动起来。”光影焕像联合创始人田飞鹏这样描述他们的技术。

相比近期国际知名团队发布的"无限3D世界生成"模型,光影焕像的技术更进一步——不仅能生成3D场景,还确保场景中每个物体都独立可交互。

这项技术的应用前景广阔。

在游戏和影视行业,传统3D建模需要数人花费数周时间完成一个三维模型,而如今只需几分钟即可生成,效率提升显著。

“游戏领域的三维建模是一个巨大的应用市场,包括影视行业中依赖3D建模的作品,其中的景观、道具等都可以通过AI生成方式实现。”田飞鹏表示。

更重要的是,该技术为具身智能机器人的训练提供了前所未有的虚拟环境。

“机器人可以在我们的大模型生成的虚拟场景中训练,跟物体产生交互,从而提升智能化水平。”田飞鹏解释道。

与世界知名团队的技术相比,光影焕像生成的3D场景中每个物体都是独立、完整的个体,具备可交互属性,支持用户对物体进行独立编辑、移动、调整等操作,同时每个物体还附带独立的语义信息。

二十年技术积淀的产业化之路

在该团队的技术研发过程中,面临三大核心挑战。

首先,是3D模型的压缩表征,团队提出了Dora-VAE模型,通过独创的显著边缘采样算法,将3D几何压缩到紧凑的隐空间,实现了优异的3D几何细节表征和拟合能力。其次,是三维生成算法。团队提出了Craftsman 3D的两阶段生成算法,可以更好地生成模型的几何细节,做到结果栩栩如生。最后是数据清洗和处理,团队搭建了完整的数据处理系统,能够高效且保真地完成数据清洗、筛选和标注工作。

这些突破的背后,是深厚的积淀。该公司创始人为香港科技大学教授谭平,在3D视觉领域已深耕20余年,曾任阿里达摩院XR实验室负责人,负责探索AR/VR眼镜及其相关应用。

公司自设立后便迅速建立了算法研发和产品落地并重的海内外人才梯队,汇集了来自港科大博士、字节、美团等具有顶级研发能力和丰富技术产品化经验的专业人才。同时,公司依托港科大的实验室资源,拥有充足的博士人才储备,能够将最先进的科研技术实现产业共创和转化。

谈到海珠的人工智能产业生态,田飞鹏说:“琶洲的AI生态非常好。除了常规的政策扶持外,琶洲还聚集了AI算法研发企业、大量的应用场景方,在落地应用方向有很细致的设计。”

最近,在海珠区相关部门的带队下,光影焕像已与多家游戏企业对接,正筹备在海珠注册公司。

展望未来,光影焕像的产品将首先在三维模型制作方面落地,在游戏、家具行业实现应用,后续将进一步与机器人产业结合。随着元宇宙(AR/VR/MR)和具身智能领域的发展,对3D内容的需求将呈现爆发式增长。

策划:龚晶

统筹:冯艳丹 谭超

撰文:吴雨伦 刘珊 李嘉益 

摄影:苏韵桦 钟冠婷

编辑 程钰琳
校对 蓝淑茹

订阅后可查看全文(剩余80%)

手机扫码打开本网页
扫码下载南方+客户端