华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构

来源: IT之家

8月23日,华为将召开Ascend 910 AI处理器和MindSpore计算框架发布会,会上将宣布华为自研的AI芯片昇腾910正式上市商用。此前,华为正式推出了麒麟810芯片,这款芯片采用华为自研的达芬奇架构,其AI得分在苏黎世联邦理工学院推出的AI Benchmark榜单中位列前三。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


资料显示,昇腾910是目前单芯片计算密度最大的芯片,计算力远超国际同类产品。华为将向全球开发者公布其技术参数,共同打造AI生态,推动AI产业落地。芯片是布局人工智能的硬件基础,值得一提的是,除华为外,百度也在这一方面发力,据了解,百度在去年和今年连续发布了“昆仑”和“鸿鹄”两款AI芯片。


在今天开幕的行业顶级活动、第31届Hot Chips大会上,华为也作为主角之一参加,与AMD、Intel、ARM等巨头一道介绍自家在芯片方面的最新成果。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


华为此次活动的主题是AI芯片所用的“Da Vinci(达芬奇)”架构,成品是去年发布的昇腾310(Ascend 310)、昇腾910芯片和麒麟810芯片,另外,AI训练芯片已经应用上了HBM2E内存,即HBM2增强版,SK海力士产品的阵脚传输速率高达3.6Gbps。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


华为达芬奇核心分为三种,最完整的是“Max”,其次是Lite,再次是Tiny,Max可在一个周期内完成8192次MAC运算,Tiny仅512次。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


具体到昇腾AI芯片上,310基于12nm工艺,半精度8TFOPs,910基于7nm增强版EUV工艺,单Die内建32颗达芬奇核心,半精度高达256TFOPs,同样功耗也有350W。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


昇腾910 的运算密度超越了精品NVIDIA Tesla V100和谷歌TPU v3,华为还设计了拥有2048个节点的AI运算服务器,整体性能多达512 Peta Flops(2048 x 256)。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


针对达芬奇框架,华为中国今天发文进行深度科普。以下则是华为对达芬奇框架的科普内容。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


源起:为什么要做达芬奇架构?


华为预测,到2025年全球的智能终端数量将会达到400亿台,智能助理的普及率将达到90%,企业数据的使用率将达到86%。可以预见,在不久的将来,AI将作为一项通用技术极大地提高生产力,改变每个组织和每个行业。为了实现AI在多平台多场景之间的协同,华为设计达芬奇计算架构,在不同体积和功耗条件下提供强劲的AI算力。


初见:达芬奇架构的核心优势


达芬奇架构,是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性,是实现万物智能的重要基础。具体来说,达芬奇架构采用3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现数量级的提升。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


▲3D Cube


同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算,支撑训练和推理两种场景的数据精度要求,实现AI的全场景需求覆盖。


深耕:达芬奇架构的AI硬实力


科普1:常见的AI运算类型有哪些?


在了解达芬奇架构的技术之前,我们先来弄清楚一下几种AI运算数据对象:


标量(Scalar):由单独一个数组成


向量(Vector):由一组一维有序数组成,每个数由一个索引(index)标识


矩阵(Matrix):由一组二维有序数组成,每个数由两个索引(index)标识


张量(Tensor):由一组n维有序数组成,每个数由n个索引(index)标识


其中,AI计算的核心是矩阵乘法运算,计算时由左矩阵的一行和右矩阵的一列相乘,每个元素相乘之后的和输出到结果矩阵。在此计算过程中,标量(Scalar)、向量(Vector)、矩阵(Matrix)算力密度依次增加,对硬件的AI运算能力不断提出更高要求。


典型的神经网络模型计算量都非常大,这其中99%的计算都需要用到矩阵乘,也就是说,如果提高矩阵乘的运算效率,就能最大程度上提升AI算力——这也是达芬奇架构设计的核心:以最小的计算代价增加矩阵乘的算力,实现更高的AI能效。


科普2:各单元角色分工揭秘,Da Vinci Core是如何实现高效AI计算的?


在2018年全联接大会上,华为推出AI芯片Ascend 310(昇腾310),这是达芬奇架构的首次亮相,Ascend 310相当于AI芯片中的NPU。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


其中,Da Vinci Core只是NPU的一个部分,Da Vinci Core内部还细分成很多单元,包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等,它们各自负责不同的运算任务实现并行化计算模型,共同保障AI计算的高效处理。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


3D Cube矩阵乘法单元是AI计算的核心,这部分运算由3D Cube完成,Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据,负责向Cube计算单元输送数据和存放计算结果。


虽然Cube的算力很强大,但只能完成矩阵乘运算,还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富,可以覆盖各种基本的计算类型和许多定制的计算类型。


Scalar标量运算单元主要负责AI Core的标量运算,功能上可以看作一个小CPU,完成整个程序的循环控制,分支判断,Cube、Vector等指令的地址和参数计算以及基本的算术运算等。


科普3:3D Cube计算方式的独特优势是什么?


不同于以往的标量、矢量运算模式,华为达芬奇架构以高性能3D Cube计算引擎为基础,针对矩阵运算进行加速,大幅提高单位面积下的AI算力,充分激发端侧AI的运算潜能。以两个N*N的矩阵A*B乘法为例:如果是N个1D的MAC,需要N2的cycle数;如果是1个N2的2D MAC阵列,需要N个Cycle;如果是1个N维3D的Cube,只需要1个Cycle。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


▲图中计算单元的数量只是示意,实际可灵活设计


达芬奇架构将大幅提升算力,16*16*16的3D Cube能够显著提升数据利用率,缩短运算周期,实现更快更强的AI运算。举例来说,同样是完成4096次运算,2D结构需要64行*64列才能计算,3D Cube只需要16*16*16的结构就能算出。其中,64*64结构带来的问题是:运算周期长、时延高、利用率低。


达芬奇架构的这一特性也体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片,麒麟810实现强劲的AI算力,在单位面积上实现最佳能效,FP16精度和INT8量化精度业界领先。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


麒麟810支持自研中间算子格式IR开放,算子数量多达240+,处于业内领先水平。更多算子、开源框架的支持以及提供更加完备的工具链将助力开发者快速转换集成基于不同AI框架开发出的模型,极大地增强了华为HiAI移动计算平台的兼容性、易用性,提高开发者的效率,节约时间成本,加速更多AI应用的落地。


预见:达芬奇架构解锁AI无限可能


基于灵活可扩展的特性,达芬奇架构能够满足端侧、边缘侧及云端的应用场景,可用于小到几十毫瓦,大到几百瓦的训练场景,横跨全场景提供最优算力。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


以Ascend芯片为例,Ascend-Nano可以用于耳机电话等IoT设备的使用场景;Ascend-Tiny和Ascend-Lite用于智能手机的AI运算处理;在笔记本电脑等算力需求更高的便携设备上,由Ascend 310(Ascend-Mini)提供算力支持;而边缘侧服务器上则需要由Multi-Ascend 310完成AI计算;至于超复杂的云端数据运算处理,则交由算力最高可达256 TFLOPS@FP16的Ascend 910(Ascend-Max)来完成。正是由于达芬奇架构灵活可裁剪、高能效的特性,才能实现对上述多种复杂场景的AI运算处理。


同时,选择开发统一架构也是一个非常关键的决策。统一架构优势很明显,那就是对广大开发者非常利好。基于达芬奇架构的统一性,开发者在面对云端、边缘侧、端侧等全场景应用开发时,只需要进行一次算子开发和调试,就可以应用于不同平台,大幅降低了迁移成本。不仅开发平台语言统一,训练和推理框架也是统一的,开发者可以将大量训练模型放在本地和云端服务器,再将轻量级的推理工作放在移动端设备上,获得一致的开发体验。


华为自研的AI芯片昇腾910将正式商用,深度解读达芬奇架构


在算力和技术得到突破性提升后,AI将广泛应用于智慧城市、自动驾驶、智慧新零售、机器人、工业制造、云计算AI服务等场景。未来,AI将应用更加广泛的领域,并逐渐覆盖至生活的方方面面。达芬奇架构作为AI运算的重要技术基础,将持续赋能AI应用探索,为各行各业的AI应用场景提供澎湃算力。


平安证券认为,从当前AI芯片市场前景和竞争格局看,国内AI芯片企业在边缘端的机会多于云端。一方面,在边缘场景下,语音、视觉等领域国内已经形成了一批芯片设计企业队伍,相关芯片产品已经在安防、数据中心推理、智能家居、服务机器人、智能汽车等领域找到落地场景,未来随着5G、物联网等应用的兴起,相关企业的市场空间将进一步扩大。另一方面,在云端,国内企业也正在加速追赶,未来个别企业有望取得突破。尤其是寒武纪,作为云端芯片重要的技术厂商,有望通过授权等方式,为下游芯片设计、服务器企业赋能。目前,AI芯片上市公司标的较为稀缺,覆盖标的中,重点推荐中科曙光、科大讯飞、中科创达以及四维图新。


国泰君安指出,5G+AI时代,中国大陆话语权提升。在5G领域,华为已推出基于非独立组网(NSA)的全套5G商用网络解决方案,5G基站核心芯片天罡+终端麒麟1020基带芯片核心技术自主可控;AI领域海思7nm昇腾910云端运算能力显著超出英伟达V100,预计5G+AI时代大陆芯片企业话语权将显著提升。芯片自主可控大势所趋,持续看好板块后续机会。”


国海证券指出,美国对于我国高新技术产业的扼制不会轻易放松,自主可控与关键技术创新是我国突破技术封锁的唯一途径,将成为我国信息技术产业发展核心。建议积极关注自主可控、核心技术板块,相关A股标的:浪潮信息、中科曙光、中国长城、中国软件、紫光股份、太极股份。


文章来源:IT之家


最新评论(0)条评论
不吐不快,我来说两句

还没有人评论哦,抢沙发吧~