一半算力在“摸鱼”?华为云发布柔性智算操作系统FlexNPU

作者 郜小平 2026-03-22 15:03

3月20日,华为云中小企业AI解决方案发布会上推出了一项算力黑科技——柔性智算操作系统FlexNPU,将Token消耗“吞金兽”有效控制在企业预算范围内,打造面向Agentic时代的极致Token性价比,为企业级智能体的普及突破算力瓶颈。

当下,“养龙虾”成为全民热点话题,但AI实际应用往往面临着成本高山、技术壁垒、场景错位等挑战。

“我们的推理池平均利用率竟然不足30%,我们花费重金建设、动辄数万、数十万卡的AI硬件算力池,竟有超过一半以上的算力在‘摸鱼,吃空饷’。”华为云首席架构师、华为公司Fellow顾炯炯在现场抛出了一组惊人数据。他指出,Agent时代企业普遍面临算力痛点:Agent自主规划、多轮迭代、长上下文导致Token消耗量呈指数级增长,如何有效降低Token成本,成为最核心和迫切的挑战。

受访者 供图

为此,华为云发布了黑科技——柔性智算FlexNPU,通过构筑强大而灵活的AI Infra层算力调度技术,大幅提升推理池的有效算力利用率,从而以相同AI硬件算力投入,提供更大的Token吞吐输出。

对于柔性智算FlexNPU,顾炯炯以可大可小、变化随心的“如意金箍棒”形容,其核心价值体现在:无需再为大模型推理的闲置算力,以及小模型推理的独占算力浪费买单,更不再需要为昂贵的故障重算买单,实现了AI算力分配供给从“资源模式”到“效率模式”的范式转变,“让每分AI算力投入迸发最大价值,让智能体的海量Token人人消费得起。”

华为云伙伴代表分享了多个案例。天宽科技有限公司CTO龚徐建介绍,基于昇腾算力平台打造制造业Agent解决方案,可实现智能知识问答、合同智能审核、风险识别等功能,合同审核准确率达90%,审核效率提升3倍,生产数据查询时间从1小时缩短到2分钟,将企业人力从繁琐重复的工作中解放,双方后续将在市场洞察、能力共建、成单路径等方面进行拓展合作。

天津宏达瑞信科技有限公司CEO丁照祥则介绍,基于华为云天筹求解能力,打造AI智能路径规划方案,助力商家获得商品从仓库到经销商的运输最优解,并且可以根据复杂的交通条件灵活配置,排线效率提升60倍以上,减少冗余出车次数20%,物流成本降低5.8%。

南方+记者 郜小平

编辑 邵玉梅

订阅后可查看全文(剩余80%)

手机扫码打开本网页
扫码下载南方+客户端