“P90目前的分数为19453分,已经超过其他家的高端旗舰芯片水平”,联发科无线通信事业部产品规划季行销资深总监李彦奇谈道。
这里的“其他家”,指的是三个月前华为发布的7nm旗舰高端芯片麒麟980。在苏黎世联邦理工学院最新推出的AI Benchmark公布的主流AI芯片测试榜单中,联发科“P80”(最终型号名称定为P90 )的AI部分得分超过麒麟980。
P90的AI计算能力最主要支持来自于NeuroPilot2.0。在P90即将发布的前夕,机器之心与联发科相关的产品与研发高管进行交流,共同探讨了NeuroPilot2.0架构的特性与研发逻辑,事先获得不少一手独家信息。
一向只能在“中低端”段位夺食的联发科在今年扳回了重要的一局,成为AI芯片领域的大赢家。
2018年第三季度,联发科营收创下了七个季度以来的新高,达到670亿新台币(约21.7亿美金)。在全球十大IC设计公司的营收排名中,联发科迎来3%的营收增长,与竞争对手高通0.1%的下降形成鲜明对比。
联发科一路的高歌猛进很大原因来自于人工智能Helio P60芯片受到市场肯定——采用P60的数款产品OPPO R15、vivo X21i等的热销拉动了联发科业绩创收。
P60之所以被称为“人工智能芯片”,因为它是联发科首款采用Neuro Pilot AI技术的系统级芯片,内建人工智能处理单元APU。一般来说,芯片厂商在加入AI时会考虑独立一块芯片专门处理人工智能方面的任务,而联发科则采用两块(双核APU),并且多核多线程的APU可以同时进行工作。
Neuro Pilot2.0升级:剪枝和量化
随着年底P90的即将到来,Neuro Pilot AI也进阶到2.0版本。
联发科计算与人工智能技术群处长吴骅介绍,NeuroPilot 2.0沿袭了1.0的计算加速思路,将CPU、GPU、APU2.0等异构计算单元的优势内建到SOC中,同时提供谷歌安卓神经网路API(AndroidNNAPI)和联发科NeuroPilot扩充元件,能够让开发人员和制造商能以更加贴近硬体的方式编码,以提高性能和省电效率。
在面向开发者的工具包(Toolkits)中,NeuroPilot 2.0包括深度神经网络的修剪和量化、平台感知深度神经网络设计的自动化,以及系统层面的AI优化,优化的关键指标包括发热量、计算性能、功率、内存等。
此外,NeuroPilot2.0还支持各种主流AI应用的DNN框架,包括人脸识别、美颜、背景虚化、手势识别、声音识别、Benchmark等。
基于平台感知深度神经网络设计的自动化技术,AI能够基于具体应用的特点搜寻到传输速率、时延、功耗等参数最适合的网络架构,即通过AI设计一个最适宜的计算加速神经网络。
DNN的冗余性决定了参数个数不会对网络的精度造成影响。传统的DNN算法通常采用32位浮点数格式,但是大部分算法,比如SGD(Stochastic Gradient Descent)所需要的精度仅为6~8bit,因此合理的量化网络也可保证精度的情况下减小模型的存储体积。
NeuroPilot 2.0的深度神经网络量化过程主要采用数据训练时量化。值得注意的是,与改变密度类方法不同,量化类的方法属于改变网络多样性的方法,容易造成精度损失。量化后需要针对精度和准确度校核。
官方数据显示,NeuroPilot 2.0量化后准确度不变,能耗从90.2mJ下降到8.4mJ,降低近1/10,占内存量降低到1/4。
在深度神经网络减枝(Pruning)方面,基于NeuroPilot2.0的工具包,运行MobileNet时可减少35-40%的计算量,功耗下降25-30%,准确率提升0.06%;运行ResNet-34时可减少25-30%的计算量,功耗下降25-30%,准球率不变。
此外,NeuroPilot2.0中除了安卓系统最新P版本提供的39个API外,联发科还会整合了当下AI主流的应用API。
升级逻辑:从低功耗出发
2012年,深度学习领域大牛Hinton发表论文《ImageNet Classification with Deep Convolutional Neural Networks》为计算机视觉领域带来了一场“革命”,凭借一项名为“深度学习”的新技术首次将ImageNet的准确率提升至85%。
联发科计算与人工智能技术群的吴骅正是从彼时开始关注深度学习。
“2014年,我们正式切入到深度学习技术在芯片加速方面的应用。”吴骅谈道,“经过AlphaGo等重要事件的影响,产品部对我们的研发越发重视。”
吴骅认为,除了终端载体本身存在内存有限、发热量不宜过高,电池容量有限等客观限制。目前在手机端应用深度学习还面临四个层面的挑战:
1)网络模型的复杂度,仅仅只是在手机端运行的MoblieNet也有6亿次的加减运算。
2)网络层级更深,特征点多,需要更大的内存规模。
3)从最基本的AI辨识到影像处理,音频处理,AI衍生出越来越多的应用,对网络提出多任务处理的能力。
4)续航能力的保证,要求应用处理过程中的更低功耗。
与此同时,消费者以及手机客户对于芯片层面的心理期待还包括低延时、隐私性、安全性、稳定性等要求。综合以上考虑,吴骅表示,手机AI芯片的研发应该首先从低功耗出发,最终聚焦于功能与性能的平衡。
谈到在NeuroPilot2.0中首次采用的深度神经网络压缩技术,自然很容易联想到国内知名的AI创业团队深鉴科技。去年5月,联发科还曾参与了深鉴科技的A轮投资,今年7月深鉴科技被FPGA芯片巨头赛灵思收购,目前深鉴科技团队并入赛灵思的工程部门。
那么,联发科此次NeuroPilot2.0所植入的网络减枝和量化技术与前者有何不同呢?
吴骅向机器之心介绍,联发科此前的投资主要是资本层面的动作,并没有引入深鉴科技的技术,P90上采用的压缩技术为联发科自研。与一般的深度神经网络压缩技术不同的是,联发科采用减枝技术的过程中,还需要硬件架构的配合,在压缩计算量的同时还减少了带宽,能够使效能比进一步提升。
与之对应的,传统通过软件算法实现的减枝并没有硬件层面的配合,运算量降低或者算法加速时并没有带宽层面的调整,对整体运算效能的提升并不大。
将AI算力赋能到手机只是联发科的第一步,吴骅表示,面对一年15亿台的出货量(包括专利),联发科的产品路线是首先将NeuroPilot植入手机端,明年放会在智能家居产品上落地,比如帮助电视改善画像品质,加速音箱等语音智能助理等,再进一步,联发科将会在车载芯片端发力AI。
谈道P60为联发科今年在财报和业绩上带来的收益,联发科无线通信事业部产品规划季行销资深总监李彦奇认为贡献主要来自两个方面:
一是出货量超过预期,直接反映在财报数据上的提升;
二是芯片落地到手机上的性能和功耗表现,比如OPPO R15等,这大幅提升了联发科在手机芯片市场的品牌印象和口碑。
结语:“更加靠近高端市场”
年初,联发科一套“P60+NeuroPilot”的组合拳为AI芯片市场带来有力的冲击,而经过大半年的检验,NeuroPilot的软硬合体战略为联发科获得了市场与口碑的双赢。随后,P22、P70的追加发布,也预示着联发科乘胜追击的野心,尤其在竞争对手高通今年局势不利的背景下。
“如果有一个高端硬件作为基础当然是理想化的”,吴骅谈道,“但是当我们在硬件条件受到限制的时候,尤其在某些产品定位不允许有专门的加速器,而是基于通用的硬件架构时,我们只有最大程度地挖掘软件加速和优化的能力”。
“没错,这是我们此前一直以来对于芯片研发的要求”,李彦奇进一步补充道,但是接下来的P90将会是一款更靠近高端芯片的产品,在硬件和软件层面都追求达到旗舰产品的能力。