清华参与,这个有深圳“血统”的顶尖语音生成大模型登顶

作者 马芳 2025-09-24 13:14

近日,由面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)携手的新一代语音生成模型VoxCPM正式开源。

凭借与真人无异的模型语音生成、克隆效果以及高效、低成本推理等优势,这个有深圳“血统”的模型一经发布,迅速获得了来自国内外的开发者、科研机构的高度认可,迅速登顶 HuggingFace全球模型趋势榜榜首。

值得一提的是,凭借5亿参数的“小身材”,VoxCPM 可无压力运行在电脑等终端设备上,成为推动端侧智能快速发展进程中的重要拼图。

“小身材”大本领,生成语音与真人无异

此前,语音合成模型(Text-to-Speech,TTS)一直因为声音机械生硬、不自然等缺陷被市场诟病,也限制了其应用普及的进展。随着大语言模型的成功,语音技术也逐渐步入大模型时代,语音生成音色、语气、自然度提升明显,语音细节更丰富,音质逐渐接近真人。

面壁智能相关负责人9月24日告诉南方+,此次发布的 VoxCPM再一次拉高了的语音生成水准,虽然只有5亿参数的小尺寸,但生成的语音在情绪、音色、口音、停顿、韵律等方面表现与真人无异,达到了语音合成领域 SOTA (State-of-the-Art,特定任务或领域中性能最优的模型)水平。

得益于文本基座的强大能力和大规模的语音训练数据,VoxCPM 无论是文本理解和表达、极少样本的声音复刻、甚至公式及符号音频输出等能力,都展现了出色生成效果。例如,VoxCPM 可根据对文本内容的超强理解,自主选择合适的声音、腔调、韵律风格生成音频,带来“声”临其境的听觉体验。

语音相似度、词错误率是评判语音模型的关键指标。根据在 Seed-TTS-EVAL 等权威语音合成评测榜单测试,VoxCPM 在词错率方面达到极低水平,在音色相似度方面,尤其在 Zero-shot(要求模型具有广泛的背景知识和推理能力)音色克隆任务中,VoxCPM 同样展示出顶尖性能。

此外,VoxCPM 也具备卓越的推理效率,可以在家用电脑这类极低算力水平的端侧设备上即可实现部署,并能实现高效推理速度,为不同场景下高性能语音合成应用的普及提供了基础。

共探前沿学术研究、产业落地应用融合路径

清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)长期聚焦于智能语音交互技术的前沿研究,先后承担和参与了国家自然科学基金(NSFC)重点项目、面上项目、青年基金项目、NSFC-RGC联合项目,国家高技术研究发展计划(863计划)、国家重点基础研究发展计划(973计划)、国家社会科学基金重大项目等,取得了一系列国际先进的研究成果。

近年来,该实验室在表现力可控生成、多模态交互、智能语音大模型等方向取得突破性进展。研究成果多次获得教育部科学技术进步奖、北京市科学技术进步奖、深圳市科学技术进步奖等部委及省部级奖励,并在AAAI、NeurIPS、IJCAI、ICLR、CVPR、ACM Multimedia、ICASSP、INTERSPEECH等国际顶级会议和IEEE/ACM TASLP、IEEE TMM、IEEE TPMI等权威期刊发表论文200余篇。实验室申请中国发明专利30余项,已授权10余项,拥有多项软件著作权。

作为国内最早布局大模型研究的机构之一,面壁智能以推动AGI终端场景革命为战略核心,专注于打造同等参数下性能更高、成本更低、功耗更低、速度更快的高效大模型。

该公司自主研发MiniCPM面壁小钢炮系列端侧模型,囊括了文本基座模型、多模态模型、全模态模型、语音生成基座模型,凭借超高效能优势,赋能汽车人机交互系统、智能家居、AI手机、AIPC等终端,有效推动了端侧大模型在各领域的拓展和普及。

双方此次的强强联合,不仅成功打造了语音大模型领域的标杆之作,更共同探索出了一条前沿学术研究与产业落地应用深度融合的创新路径。业界人士认为,VoxCPM 的成功开源,显著降低了高性能语音合成技术的应用门槛,不仅为语音交互智能体验带来了革命性提升,也将极大拓宽语音生成大模型的产业赋能场景,加速产业应用进程。

南方+记者 马芳

受访单位供图

编辑 张博

订阅后可查看全文(剩余80%)

手机扫码打开本网页
扫码下载南方+客户端