黑芝麻智能创始人兼CEO单记章在6月13日举行的一场论坛上表示,辅助驾驶可能是对算力需求最高的端侧推理芯片,黑芝麻智能一直在做大算力芯片,也见证了技术的演进。他表示,目前有几种技术方向在并行开发:
一方面,从功能上看,通勤领航的算力需要在50TOPS-100TOPS,可以在城区做一些复杂场景,甚至包括小区等“毛细路”,接下来还要增加“大脑”功能,在BV+端到端算法的基础上,增加VLM多模态大模型,甚至是VLA模型,算力可能需要300TOPS-500TOPS。
再进一步延伸,车路云也是当前非常重要的技术路线,预计对算力的需求在1000TOPS-2000TOPS。
另一方面,摩尔定律在继续推动整个计算芯片的发展,但随着制造工艺越来越先进、线宽越来越小,甚至已逼近了1.6纳米,再往上其实非常困难。
单记章指出,从中国的角度,能得到的制造工艺比较有限,能拿到的7纳米工艺良率也不是太高。另外还有一些技术,如HBM、Hyperband也很难获取。
“我们的思考是,如何用可以得到的技术和工艺,来提升计算效率。”单记章说,今年年初DeepSeek震动了全世界,用了一个FP8的训练,就能够把模型训练做到更为先进。做芯片也是同样的,英伟达可以用更先进的工艺,国内因为各种原因拿不到,但也可以想办法提升效率。
未来计算芯片面临的一大挑战,带宽将是一个非常重要的问题,比如1000、2000TOPS的算力,其实是可以做得到,但带宽很成问题。
例如,英伟达从Orin到Thor,Thor号称770TOPS,Orin是250TOP,标称算力超过3倍,但比较性能只有1.7倍-2倍差距,原因在于带宽不够。Thor的带宽大概是270G/s,Orin是205G/s,这大大限制了计算性能。
单记章认为,下一步要解决的就是带宽问题。很重要的一个技术方向,用Hyperband把DRAM和Logic这个计算直接封装在一起,不仅可以大幅提升带宽,还可以降低成本,但该工艺存在非常大的挑战。
基于上述预测,单记章提到,黑芝麻智能推出了一系列产品,最早的A1000芯片,除了大力支持卷积之外,还可以支持Transformer。这颗芯片也可以部署端到端的算法。
而到了第二代“武当”系列,则在电子电气架构进行了突破,做出了融合芯片,特别是当辅助驾驶已经下探到主流车型,10万元甚至更低价格的车,黑芝麻提供的方案是把多个域融合到一颗芯片,减少了外围器件,比如,DRAM、电源芯片等就可以节省不少,这个是未来的另外一个产品线。
去年底,黑芝麻智能推出其专为下一代AI模型设计的高算力芯片平台——华山A2000家族。单记章提到,7纳米工艺的计算效率实际上达到和超过4纳米。
此外,黑芝麻很大不同在于,单芯片也实现神经网络互相冗余备份,这在全世界都是首创——过去针对CPU、GPU存在冗余备份,但黑芝麻NPU也做到这样的性能,且计算单元支持Transformer。“作为一个新进入的计算芯片,特别是高性能计算的公司,我们很难跟随比如英伟达这样的公司,其架构也很难追上,我们只能另辟蹊径,想办法换道超车。”单记章说,从技术上面,黑芝麻有非常大的优势。
一方面,黑芝麻没有采用几千上万个的CUDA架构,实际上里面的计算单元就两个,利用多模态提升计算效率。另一方面则是灵活扩展,多颗芯片当成一颗芯片来用。此外,国内还有一大优势是可以快速部署,在部署阶段可大量减少工程化时间。
目前,武当C1200家族专为多域融合与舱驾一体场景设计,它有丰富的功能,除了基础的底座,还增加了娱乐功能,单记章说,这让底座的生命周期大幅增加,除了跨车型,还可以实现跨代,叠加不同的计算能力。
除了智能汽车,公司也在积极向机器人及具身智能领域拓展。单记章说,未来机器人的大脑对计算需求量非常大,黑芝麻A2000芯片也可以应用到机器人,也可以作为各种各样端侧推理的通用计算来应用。
“现在机器人的状态可能相当于2018年智能车的状态,但前者的增长速度会远超过智能汽车。”单记章说,一方面,现有芯片非常成熟,比2018年的AI计算芯片成熟不少,另一方面,大语言模型、多模态大模型、世界模型等大模型进展快速,机器人市场会爆发非常快。
目前,黑芝麻智能的芯片也提供机器人的接口,还有非常丰富的计算能力,各种传感器的处理能力、计算能力,CPU、GPU、DSP、NPU等各种各样的处理能力,应用在机器人的“大脑”和“小脑”上可以显著降低易用性。其中,2000系列主要是用做“大脑”,1200系列主要是用做“小脑”,即控制运动。
南方+记者 郜小平
订阅后可查看全文(剩余80%)