威尼斯官方网站登录-威尼斯网上手机官网[入口]

重磅推荐,AI集成电路行当生态梳理

2020-03-19 03:46栏目:新闻资讯
TAG:

随着人工智能和深度学习逐渐进入人们视野,中科院、谷歌、IBM、英伟达等中美科研机构和商业公司也纷纷推出了用于深度学习的处理器。在上述产品中,既有CPU、GPU、DSP这样的传统

姓名: 朱佳男

图片 1

随着人工智能和深度学习逐渐进入人们视野,中科院、谷歌、IBM、英伟达等中美科研机构和商业公司也纷纷推出了用于深度学习的处理器,在上述产品中,既有CPU、GPU、DSP这样的传统芯片,也有专门为深度学习而生的NPU那么,CPU、GPU、DSP、NPU等深度学习处理器各有什么特点,这些深度学习处理器谁更出彩呢?

学号:17021210978

封面

CPU、GPU、DSP:以现有的技术进行微调

专业:信号与信息处理

AI芯片作为产业核心,也是技术要求和附加值最高的环节,在AI产业链中的产业价值和战略地位远远大于应用层创新。腾讯发布的《中美两国人工智能产业发展全面解读》报告显示,基础层的处理器/芯片企业数量来看,中国有14家,美国33家。本文将对这一领域产业生态做一个简单梳理。

在英伟达开发出针对人工智能的定制GPU,并坚持DGX-1 系统之后,Intel也不甘落后,在收购深度学习创业公司 Nervana Systems之后,Intel也公布了用于深度学习的Xeon Phi家族新成员,在深度学习处理器领域开辟新战场。之后Intel和英伟达更是先后宣称自己的产品优于对方的产品,在舆论上打起来口水战。虽然现阶段短时间看还是GPU有优势——Intel的众核芯片也在一定程度上吸取了GPU的优势不过,无论是针对人工智能的众核芯片还是定制版的GPU,本质上都不是专用处理器,实际上是拿现有的、相对成熟的架构和技术成果去应对新生的人工智能,并没有发生革命性的技术突破

转载自:

图片 2

上图是星光智能一号发布的系统架构图,共包含四个NPU核,每个NPU核包含4个内核,每个内核有两个流处理器,每个流处理器具有8个长位宽或16位宽的SIMD运算单元。每个NPU核的峰值性能为38Gops。除了多核流处理器本身用于完成卷积运算外,星光智能一号集成了一个超长指令字处理器80式通用机枪用于完成神经网络中的超越函数等运算,另有256KB的L2Cache以及DMA模块用于大块数据的搬移。6月20日,中星微“数字多媒体芯片技术”国家重点实验室在京宣布,中国首款嵌入式NPU芯片诞生,目前已应用于全球首款嵌入式视频处理芯片“星光智能一号”。不过,在经过仔细分析后,所谓“中国首款嵌入式神经网络处理器”很有可能是一款可以运行神经网络的DSP,而非真正意义的神经网络专用芯片

【嵌牛导读】这篇文章详细梳理了国际上AI芯片产业的科技动态。针对芯片的应用领域进行了细致的分类,说明了AI芯片的市场需求,另外还分析了不同AI公司的芯片的功能特点,其中包括我国的中星微电子&NPU、华为&麒麟970芯片、启英泰伦&CI1006和人人智能&FaceOS等等。

AI芯片分类

从其低位宽的定点运算器推断,星光智能一号仅可支持神经网络正向运算,无法支持神经网络的训练,从片上存储结构看,星光智能一号基于传统的片上缓存,而非像最近流行的神经芯片或FPGA方案一样使用便签式存储。因此,在技术上看星光智能一号是典型的“旧瓶装新酒”方案,将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,主要在运算器方面作了相应修改,例如低位宽和超越函数,而并非是“狭义的”神经网络专用处理器。

【嵌牛鼻子】AI芯片、AI芯片分类与市场需求、NPU、麒麟970芯片

从功能来看,可以分为Training(训练)和Inference(推理)两个环节。

因此,星光智能一号其实是DSP,而非NPU其实,Cadence公司的Tensilica Vision P5处理器、Synopsys公司的EV处理器和星光一号如出一辙,也是将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,主要在运算器方面作了相应修改,例如低位宽和超越函数,而并非真正的NPU,能够适用于卷积神经网路和长短期记忆网络等处理语音和自然语言的网络有可能就无能为力了。

【嵌牛提问 】AI芯片按应用领域该如何分类,我国AI芯片公司产业生态怎么样?

Training环节通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,运算量巨大,需要庞大的计算规模,对于处理器的计算能力、精度、可扩展性等性能要求很高。目前在训练环节主要使用NVIDIA的GPU集群来完成,Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速。

总之,Intel、英伟达、Synopsys公司、Cadence公司等都是在使用现有的比较成熟的技术去满足深度学习的需求,众核芯片和定制版GPU在本质上来说依旧是CPU和GPU,而并非专门针对深度学习的专业芯片,Synopsys公司和Cadence用传统SIMD/DSP架构来适配神经网络,和真正的NPU依然有一定差距打一个比方,用众核芯片、GPU、DSP跑深度学习,就类似于用轿车去拉货,受轿车自身特点的限制,货物运输能力与真正大马力、高负载的货车有一定差距同理,即便是因为技术相对更加成熟,Intel和英伟达的芯片在集成度和制造工艺上具有优势,但由于CPU、GPU、DSP并非针对深度学习的专业芯片,相对于专业芯片,其运行效率必然受到一定影响

【嵌牛正文】

Inference环节指利用训练好的模型,使用新的数据去“推理”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。虽然Inference的计算量相比Training少很多,但仍然涉及大量的矩阵运算。在推理环节,GPU、FPGA和ASIC都有很多应用价值。

人工神经网络是一类模仿生物神经网络而构建的计算机算法的总称,由若干人工神经元结点互联而成神经元之间通过突触两两连接,突触记录了神经元间联韩国萨德最新消息系的权值强弱,

AI芯片作为产业核心,也是技术要求和附加值最高的环节,在AI产业链中的产业价值和战略地位远远大于应用层创新。腾讯发布的《中美两国人工智能产业发展全面解读》报告显示,基础层的处理器/芯片企业数量来看,中国有14家,美国33家。本文将对这一领域产业生态做一个简单梳理。

从应用场景来看,可分成“Cloud/DataCenter (云端)” 和“Device /Embedded (设备端)”两大类。

每个神经元可抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定为了表达特定的知识,使用者通常需要调整人工神经网络中突触的取值、网络的拓扑结构等该过程称为“学习”在学习之后,人工神经网络可通过习得的知识来解决特定的问题。

图片 3

在深度学习的Training阶段,由于对数据量及运算量需求巨大,单一处理器几乎不可能独立完成一个模型的训练过程,因此,Training环节目前只能在云端实现,在设备端做Training目前还不是很明确的需求。

由于深度学习的基本操作是神经元和突触的处理,而传统的处理器指令集是为了进行通用计算发展起来的,其基本操作为算术操作,往往需要数百甚至上千条指令才能完成一个神经元的处理,深度学习的处理效率不高。因此谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络,因此,传统的通用处理器用于深度学习的处理效率不高,这时就必须去研发面向深度学习的专用处理器

AI芯片分类

在Inference阶段,由于目前训练出来的深度神经网络模型大多仍非常复杂,其推理过程仍然是计算密集型和存储密集型的,若部署到资源有限的终端用户设备上难度很大,因此,云端推理目前在人工智能应用中需求更为明显。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端Inference环境。在设备端Inference领域,由于智能终端数量庞大且需求差异较大,如ADAS、VR等设备对实时性要求很高,推理过程不能交由云端完成,要求终端设备本身需要具备足够的推理计算能力,因此一些低功耗、低延迟、低成本的专用芯片也会有很大的市场需求。

中国科学院计算技术研究所是国际上最早研究深度神经网络处理器的单位之一2014年,中科院计算所和法国Inria合作发表的相关学术论文先后获得了计算机硬件领域顶级会议ASPLOS’14和MICRO’14的最佳论文奖。这也是亚洲首次在此领域顶级会议上获得最佳论文奖。

从功能来看,可以分为Training(训练)和Inference(推理)两个环节。

按照上述两种分类,我们得出AI芯片分类象限如下图所示。

随后,国际计算机学会(Association for Computing Machinery)通讯也将这一系列工作列为计算机领域的研究焦点,这标志着我国在智能芯片领域已经进入了国际领先行列,此后中科院计算所独立研制了世界首个深度学习处理器芯片---寒武纪,发布了世界首个神经网络处理器指令集,后者于2016年被计算机体系结构领域顶级国际会议ISCA2016(International Symposiumon Computer Architecture)所接收,其评分排名所有近300篇投稿的第一名

Training环节通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,运算量巨大,需要庞大的计算规模,对于处理器的计算能力、精度、可扩展性等性能要求很高。目前在训练环节主要使用NVIDIA的GPU集群来完成,Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速。

图片 4

寒武纪相对于CPU和GPU究竟有哪些优势呢?寒武纪公司发布的Cambricon指令集直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持寒武纪专用处理器面向深度学习应用专门定制了功能单元和片上存储层次,同时剔除了通用处理器中为支持多样化应用而加入的复杂逻辑,因此与CPU、GPU相比,神经网络专用处理器会有百倍以上的性能或能耗比差距。

Inference环节指利用训练好的模型,使用新的数据去“推理”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。虽然Inference的计算量相比Training少很多,但仍然涉及大量的矩阵运算。在推理环节,GPU、FPGA和ASIC都有很多应用价值。

除了按照功能场景划分外,AI芯片从技术架构发展来看,大致也可以分为四个类型:

虽然寒武纪公司和中科院计算所尚未公布其商用产品,但我们可以从中科院计算所与法国Inria合作在2014年公开发表于ASPLOS2014学术会议的DianNao深度学习加速器架构看出一些端倪DianNao为单核架构,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02mm^2在若干代表性神经网络上的实验结果表明,DianNao的平均性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提升可达三个数量级;DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级

从应用场景来看,可分成“Cloud/DataCenter (云端)” 和“Device /Embedded (设备端)”两大类。

通用类芯片,代表如GPU、FPGA;

NPU处理器中美竞赛 美国走歪了?

在深度学习的Training阶段,由于对数据量及运算量需求巨大,单一处理器几乎不可能独立完成一个模型的训练过程,因此,Training环节目前只能在云端实现,在设备端做Training目前还不是很明确的需求。

基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;

由于IBM很不幸的点歪了科技树,这直接导致中国在NPU上暂时领先于美国。

在Inference阶段,由于目前训练出来的深度神经网络模型大多仍非常复杂,其推理过程仍然是计算密集型和存储密集型的,若部署到资源有限的终端用户设备上难度很大,因此,云端推理目前在人工智能应用中需求更为明显。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端Inference环境。在设备端Inference领域,由于智能终端数量庞大且需求差异较大,如ADAS、VR等设备对实时性要求很高,推理过程不能交由云端完成,要求终端设备本身需要具备足够的推理计算能力,因此一些低功耗、低延迟、低成本的专用芯片也会有很大的市场需求。

全定制化ASIC芯片,代表如TPU、寒武纪 Cambricon-1A等;

真北本身的研究是基于脉冲神经网络(Spiking Neural Network,SNN)的,而寒武纪则一直面向的是机器学习类的神经网络,如MLP和DNN

按照上述两种分类,我们得出AI芯片分类象限如下图所示。

类脑计算芯片,代表如IBM TrueNorth、westwell、高通Zeroth等。

两种网络根本的不同在于网络中传递的信息的表示,前者是通过脉冲的频率或者时间,后者则是突触连接的权值。目前在现有的测试集上,机器学习类的神经网络具有更高的精度;前者则在精度上不能与之比拟。

图片 5

图片 6

精度是目前领域内很关心的非常重要的指标,比如近几年火热的ImageNet竞赛也是以识别精度为衡量标准的。正是因为曾经存在精度方面的差距,所以后来IBM的真北放弃了原来的路线图,也开始贴近机器学习类的神经网络,并采用了一些很曲折的方法来实现这一目标

除了按照功能场景划分外,AI芯片从技术架构发展来看,大致也可以分为四个类型:

AI芯片产业生态

之前说过,真北本身是基于脉冲神经网络设计的,并且采用了逻辑时钟为1KHz这样的低频率来模拟毫秒级别生物上的脉冲,这也使得线mW),当然性能也比较有限而寒武纪则是机器学习类的神经网络设计,运行时钟频率在GHz左右,能够极其快速且高效的处理网络计算,这使得寒武纪相对于真北具有性能上的优势。

通用类芯片,代表如GPU、FPGA;

从上述分类象限来看,目前AI芯片的市场需求主要是三类:

相比之下,寒武纪系列的内部计算完全符合机器学习类神经网络(机器学习类网络本身也没有如同脉冲神经网络一样特别贴合生物神经元模型),通过调度在不同时刻计算不同的神经元从而完成整个神经网络的计算,这其中,涉及到处理器设计本身的一点是,通过不同参数的选取就能够完成不同规格的处理器实现

基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;

1. 面向于各大人工智能企业及实验室研发阶段的Training需求(主要是云端,设备端Training需求尚不明确);

笔者曾采访过杜子东博士(杜子东博士长期从事人工神经网络和脉冲神经网络处理器的研究工作,在处理器架构最好的三个国际顶级会议ISCA/MICRO/ASPLOS上发表过多篇论文,是中国计算机体系结构领域青年研究者中的翘楚),杜子东博士表示,“包括他们走错了路......”,并认为,“真北相对于寒武纪没有什么优势。硬要说有的话,那就是IBM的品牌优势和广告优势”,

全定制化ASIC芯片,代表如TPU、寒武纪 Cambricon-1A等;

2.  Inference On Cloud,Face++、出门问问、Siri等主流人工智能应用均通过云端提供服务;

就深度学习处理器而言,美国可以凭借其在CPU和GPU上深厚的技术积累,并在芯片集成度和制造工艺水平占据德国现巨型炸弹绝对优势的情况下,开发出能用于深度学习,且性能不俗的众核芯片和GPGPU,而且这些美国IT巨头会利用他们巨大体量和市场推广、销售能力,大力推广用这些传统芯片来进行深度学习处理,在商业上能拔得头筹

类脑计算芯片,代表如IBM TrueNorth、westwell、高通Zeroth等。

3.  Inference On Device,面向智能手机、智能摄像头、机器人/无人机、自动驾驶、VR等设备的设备端推理市场,需要高度定制化、低功耗的AI芯片产品。如华为麒麟970搭载了“神经网络处理单元(NPU,实际为寒武纪的IP)”、苹果A11搭载了“神经网络引擎(Neural Engine)”。

就现阶段而言,传统芯片厂商的CPU、GPU和DSP,其本质上也是对现有的技术进行微调,然而,由于传统CPU、GPU和DSP本质上并非以硬件神经元和突触为基本处理单元,相对于NPU在深度学习方面天生会有一定劣势,在芯片集成度和制造工艺水平相当的情况下,其表现必然逊色于NPU

图片 7

图片 8

在NPU领域,由于IBM点歪了科技树,以及中科院在该领域具有前瞻性的开展了一系列科研工作,使中国能在目前处于优势地位至于中国和美国的深度学习处理器,哪一款产品能在商业上取得成功,则很大程度上取决于技术以外的因素就现在情况来看,大家基本处于同一起跑线,鹿死谁手,还未可知

AI芯片产业生态

(一)Training训练

华工科技:10G光芯片已量产,25G光芯片今年量产

从上述分类象限来看,目前AI芯片的市场需求主要是三类:

2007年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。Andrew Ng和Jeff Dean打造的Google Brain项目,使用包含16000个CPU核的并行计算平台,训练超过10亿个神经元的深度神经网络。但CPU的串行结构并不适用于深度学习所需的海量数据运算需求,用CPU做深度学习训练效率很低,在早期使用深度学习算法进行语音识别的模型中,拥有429个神经元的输入层,整个网络拥有156M个参数,训练时间超过75天。

国产首颗!成都精位UWB定位芯片发布,打破国外垄断

1. 面向于各大人工智能企业及实验室研发阶段的Training需求(主要是云端,设备端Training需求尚不明确);

与CPU少量的逻辑运算单元相比,GPU整个就是一个庞大的计算矩阵,GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量,而且它还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。

国内电子行业能自研芯片的才有活路———践行工匠精神,砺出“RIGOL芯

2.  Inference On Cloud,Face++、出门问问、Siri等主流人工智能应用均通过云端提供服务;

图片 9

中兴通讯100G网络处理器芯片荣获”集成电路产业技术创新奖”

3.  Inference On Device,面向智能手机、智能摄像头、机器人/无人机、自动驾驶、VR等设备的设备端推理市场,需要高度定制化、低功耗的AI芯片产品。如华为麒麟970搭载了“神经网络处理单元(NPU,实际为寒武纪的IP)”、苹果A11搭载了“神经网络引擎(Neural Engine)”。

从上图对比来看,在内部结构上,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一部分控制单元,负责逻辑运算的部分(ALU模块)并不多,指令执行是一条接一条的串行过程。GPU由并行计算单元和控制单元以及存储单元构成,拥有大量的核(多达几千个)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。

2019年三星芯片销售额预计下跌19.7% 第一芯片商要丢

图片 10

图片 11

Intel公司向美国政府求援:中国芯片技术将在2~5年内赶上美国

(一)Training训练

在人工智能的通用计算GPU市场,NVIDIA现在一家独大。2010年NVIDIA就开始布局人工智能产品,2014年发布了新一代PASCAL GPU芯片架构,这是NVIDIA的第五代GPU架构,也是首个为深度学习而设计的GPU,它支持所有主流的深度学习计算框架。2016年上半年,NVIDIA又针对神经网络训练过程推出了基于PASCAL架构的TESLA P100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLA P100 GPU加速器,采用NVLINK互联技术,软件堆栈包含主要深度学习框架、深度学习SDK、DIGITS GPU训练系统、驱动程序和CUDA,能够快速设计深度神经网络(DNN),拥有高达170TFLOPS的半精度浮点运算能力,相当于250台传统服务器,可以将深度学习的训练速度加快75倍,将CPU性能提升56倍。

高手请看,这CpU能达到i7水平吗

2007年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。Andrew Ng和Jeff Dean打造的Google Brain项目,使用包含16000个CPU核的并行计算平台,训练超过10亿个神经元的深度神经网络。但CPU的串行结构并不适用于深度学习所需的海量数据运算需求,用CPU做深度学习训练效率很低,在早期使用深度学习算法进行语音识别的模型中,拥有429个神经元的输入层,整个网络拥有156M个参数,训练时间超过75天。

图片 12

他是中国科学院院士、工程热物理和流体力学家

与CPU少量的逻辑运算单元相比,GPU整个就是一个庞大的计算矩阵,GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量,而且它还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。

Training市场目前能与NVIDIA竞争的就是Google。今年5月份Google发布了TPU 2.0,TPU(TensorProcessing Unit)是Google研发的一款针对深度学习加速的ASIC芯片,第一代TPU仅能用于推理,而目前发布的TPU 2.0既可以用于训练神经网络,又可以用于推理。据介绍,TPU2.0包括了四个芯片,每秒可处理180万亿次浮点运算。Google还找到一种方法,使用新的计算机网络将64个TPU组合到一起,升级为所谓的TPU Pods,可提供大约11500万亿次浮点运算能力。Google表示,公司新的深度学习翻译模型如果在32块性能最好的GPU上训练,需要一整天的时间,而八分之一个TPU Pod就能在6个小时内完成同样的任务。目前Google并不直接出售TPU芯片,而是结合其开源深度学习框架TensorFlow为AI开发者提供TPU云加速的服务,以此发展TPU2的应用和生态,比如TPU2同时发布的TensorFlow Research Cloud (TFRC)。

工信部副部长:中国正在规划“整芯助魂”工程计划

图片 13

上述两家以外,传统CPU/GPU厂家Intel和AMD也在努力进入这Training市场,如Intel推出的Xeon Phi+Nervana方案,AMD的下一代VEGA架构GPU芯片等,但从目前市场进展来看很难对NVIDIA构成威胁。初创公司中,Graphcore的IPU处理器(IntelligenceProcessing Unit)据介绍也同时支持Training和Inference。该IPU采用同构多核架构,有超过1000个独立的处理器;支持All-to-All的核间通信,采用BulkSynchronous Parallel的同步计算模型;采用大量片上Memory,不直接连接DRAM。

红米Note7Pro手机将于3月18日发布~1599元?

从上图对比来看,在内部结构上,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一部分控制单元,负责逻辑运算的部分(ALU模块)并不多,指令执行是一条接一条的串行过程。GPU由并行计算单元和控制单元以及存储单元构成,拥有大量的核(多达几千个)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。

总之,对于云端的Training(也包括Inference)系统来说,业界比较一致的观点是竞争的核心不是在单一芯片的层面,而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨头的竞争也才刚刚开始。

地球高氧化环境不利于芯片性能得提高

图片 14

(二)Inference On Cloud云端推理

最具影响力军事论坛-超级大本营军事论坛欢迎你!超然物外,有容乃大

在人工智能的通用计算GPU市场,NVIDIA现在一家独大。2010年NVIDIA就开始布局人工智能产品,2014年发布了新一代PASCAL GPU芯片架构,这是NVIDIA的第五代GPU架构,也是首个为深度学习而设计的GPU,它支持所有主流的深度学习计算框架。2016年上半年,NVIDIA又针对神经网络训练过程推出了基于PASCAL架构的TESLA P100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLA P100 GPU加速器,采用NVLINK互联技术,软件堆栈包含主要深度学习框架、深度学习SDK、DIGITS GPU训练系统、驱动程序和CUDA,能够快速设计深度神经网络(DNN),拥有高达170TFLOPS的半精度浮点运算能力,相当于250台传统服务器,可以将深度学习的训练速度加快75倍,将CPU性能提升56倍。

相对于Training市场上NVIDIA的一家独大,Inference市场竞争则更为分散。若像业界所说的深度学习市场占比(Training占5%,Inference占95%),Inference市场竞争必然会更为激烈。

呦呦呦,都开始撒泼打滚了,谷歌的TPU和文中的寒武纪,IBM的芯片是同一类型的,苹果的事吗?

图片 15

在云端推理环节,虽然GPU仍有应用,但并不是最优选择,更多的是采用异构计算方案(CPU/GPU +FPGA/ASIC)来完成云端推理任务。FPGA领域,四大厂商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收购)在云端加速领域优势明显。Altera在2015年12月被Intel收购,随后推出了Xeon+FPGA的云端方案,同时与Azure、腾讯云、阿里云等均有合作;Xilinx则与IBM、百度云、AWS、腾讯云合作较深入,另外Xilinx还战略投资了国内AI芯片初创公司深鉴科技。目前来看,云端加速领域其他FPGA厂商与Xilinx和Altera还有很大差距。

呦呦呦,都开始撒泼打滚了,谷歌的TPU和文中的寒武纪,IBM的芯片是同一类型的,苹果的事吗?

Training市场目前能与NVIDIA竞争的就是Google。今年5月份Google发布了TPU 2.0,TPU(TensorProcessing Unit)是Google研发的一款针对深度学习加速的ASIC芯片,第一代TPU仅能用于推理,而目前发布的TPU 2.0既可以用于训练神经网络,又可以用于推理。据介绍,TPU2.0包括了四个芯片,每秒可处理180万亿次浮点运算。Google还找到一种方法,使用新的计算机网络将64个TPU组合到一起,升级为所谓的TPU Pods,可提供大约11500万亿次浮点运算能力。Google表示,公司新的深度学习翻译模型如果在32块性能最好的GPU上训练,需要一整天的时间,而八分之一个TPU Pod就能在6个小时内完成同样的任务。目前Google并不直接出售TPU芯片,而是结合其开源深度学习框架TensorFlow为AI开发者提供TPU云加速的服务,以此发展TPU2的应用和生态,比如TPU2同时发布的TensorFlow Research Cloud (TFRC)。

图片 16

tpu不是谷歌写的很清楚在传统芯片下辅助工作,而不是独挑大梁 真北和寒武纪明明不一样好不,文章 ...

上述两家以外,传统CPU/GPU厂家Intel和AMD也在努力进入这Training市场,如Intel推出的Xeon Phi+Nervana方案,AMD的下一代VEGA架构GPU芯片等,但从目前市场进展来看很难对NVIDIA构成威胁。初创公司中,Graphcore的IPU处理器(IntelligenceProcessing Unit)据介绍也同时支持Training和Inference。该IPU采用同构多核架构,有超过1000个独立的处理器;支持All-to-All的核间通信,采用BulkSynchronous Parallel的同步计算模型;采用大量片上Memory,不直接连接DRAM。

ASIC领域,应用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中,TPU1.0仅用于Datacenter Inference应用。它的核心是由65,536个8-bit MAC组成的矩阵乘法单元,峰值可以达到92 TeraOps/second(TOPS)。有一个很大的片上存储器,一共28 MiB。它可以支持MLP,CNN和LSTM这些常见的神经网络,并且支持TensorFLow框架。它的平均性能(TOPS)可以达到CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory,这两个数值可以达到大约GPU的70倍和CPU的200倍。TPU 2.0既用于训练,也用于推理,上一节已经做过介绍。

其实吧~我们可以这么简单的理解一下,各个公司戓国家都在研究如何在电脑上看1080P视频,于是有个别软件厂商率先在现有的硬件平台上实现了看1080P视频,而传统的厂商是要在硬件底层下实现~,而这些厂商戓国家又分别对号称自己的技术是先进,有一方结构复杂等绕了远路~但技术实力比较厚实,另一方是结构做得很不错~但是技术实力要差一点!所以未来的结果就是一派是否一直黑到底~另一派是否发挥自己的灵活;就看怎么发展结果了!

总之,对于云端的Training(也包括Inference)系统来说,业界比较一致的观点是竞争的核心不是在单一芯片的层面,而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨头的竞争也才刚刚开始。

国内AI芯片公司寒武纪科技据报道也在自主研发云端高性能AI芯片,目前与科大讯飞、曙光等均有合作,但目前还没有详细的产品介绍。

最具影响力军事论坛-超级大本营军事论坛欢迎你!超然物外,有容乃大

(二)Inference On Cloud云端推理

(三)Inference On Device设备端推理

本质上还是广义上的DSP的一种只不过架构上针对机器学习和神经网络算法做了更多优化

相对于Training市场上NVIDIA的一家独大,Inference市场竞争则更为分散。若像业界所说的深度学习市场占比(Training占5%,Inference占95%),Inference市场竞争必然会更为激烈。

设备端推理的应用场景更为多样化,智能手机、ADAS、智能摄像头、语音交互、VR/AR等设备需求各异,需要更为定制化、低功耗、低成本的嵌入式解决方案,这就给了创业公司更多机会,市场竞争生态也会更加多样化。

监狱手机联系超级大本营军事论坛(京ICP备13042948号 京公网安备161)

在云端推理环节,虽然GPU仍有应用,但并不是最优选择,更多的是采用异构计算方案(CPU/GPU +FPGA/ASIC)来完成云端推理任务。FPGA领域,四大厂商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收购)在云端加速领域优势明显。Altera在2015年12月被Intel收购,随后推出了Xeon+FPGA的云端方案,同时与Azure、腾讯云、阿里云等均有合作;Xilinx则与IBM、百度云、AWS、腾讯云合作较深入,另外Xilinx还战略投资了国内AI芯片初创公司深鉴科技。目前来看,云端加速领域其他FPGA厂商与Xilinx和Altera还有很大差距。

图片 17

声明:论坛言论仅代表网友个人观点,不代表超级大本营军事网站立场

图片 18

1)智能手机

,

ASIC领域,应用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中,TPU1.0仅用于Datacenter Inference应用。它的核心是由65,536个8-bit MAC组成的矩阵乘法单元,峰值可以达到92 TeraOps/second(TOPS)。有一个很大的片上存储器,一共28 MiB。它可以支持MLP,CNN和LSTM这些常见的神经网络,并且支持TensorFLow框架。它的平均性能(TOPS)可以达到CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory,这两个数值可以达到大约GPU的70倍和CPU的200倍。TPU 2.0既用于训练,也用于推理,上一节已经做过介绍。

华为9月初发布的麒麟970 AI芯片就搭载了神经网络处理器NPU(寒武纪IP)。麒麟970采用了TSMC 10nm工艺制程,拥有55亿个晶体管,功耗相比上一代芯片降低20%。CPU架构方面为4核A73+4核A53组成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升20%和50%;NPU采用HiAI移动计算架构,在FP16下提供的运算性能可以达到1.92 TFLOPs,相比四个Cortex-A73核心,处理同样的AI任务,有大约50倍能效和25倍性能优势。

转载请注明,原文链接: 标签: 军事人物 神经网络军事 处理器军事 芯片军事 深度军事 百度搜索: 军事人物 神经网络军事 处理器军事 芯片军事 深度军事 标题:超生命电视台直播级大本营军事论坛 NPU处理器中美竞赛 美国走歪了?

国内AI芯片公司寒武纪科技据报道也在自主研发云端高性能AI芯片,目前与科大讯飞、曙光等均有合作,但目前还没有详细的产品介绍。

苹果最新发布的A11仿生芯片也搭载了神经网络单元。据介绍,A11仿生芯片有43亿个晶体管,采用TSMC 10纳米FinFET工艺制程。CPU采用了六核心设计,由2个高性能核心与4个高能效核心组成。相比A10 Fusion,其中两个性能核心的速度提升了25%,四个能效核心的速度提升了70%;GPU采用了苹果自主设计的三核心GPU图形处理单元,图形处理速度与上一代相比最高提升可达30%之多;神经网络引擎NPU采用双核设计,每秒运算次数最高可达6000亿次,主要用于胜任机器学习任务,能够识别人物、地点和物体等,能够分担CPU和GPU的任务,大幅提升芯片的运算效率。

赞 83 收藏上一篇:传巴基斯坦有意再向中国订购四艘隐阿武隈身护卫舰下一篇:《零之使魔》原作者山口石墨烯材料升再度因癌症而入院

(三)Inference On Device设备端推理

另外,高通从2014年开始也公开了NPU的研发,并且在最新两代骁龙8xx芯片上都有所体现,例如骁龙835就集成了“骁龙神经处理引擎软件框架”,提供对定制神经网络层的支持,OEM厂商和软件开发商都可以基于此打造自己的神经网络单元。ARM在今年所发布的Cortex-A75和Cortex-A55中也融入了自家的AI神经网络DynamIQ技术,据介绍,DynamIQ技术在未来3-5年内可实现比当前设备高50倍的AI性能,可将特定硬件加速器的反应速度提升10倍。总体来看,智能手机未来AI芯片的生态基本可以断定仍会掌握在传统SoC商手中。

[社会]中国名人故事:军事人物贺龙

2019-11-23

阅读

收藏

中国可我知道,我的生活依旧很幸福。风吹云动,繁星闪闪,像极了那漫天仙女翩翩起舞,让人如痴如醉,如梦如幻?中国名权利聚焦&rdquo。中国名人也许我的人生本来就是一场腐烂, 似乎长大从来都是件残酷的事, 那么突兀和伤人。中国名人故我真的很怕。舍友说,你怎会和他一起玩。阿姨,我没听错吧!

设备端推理的应用场景更为多样化,智能手机、ADAS、智能摄像头、语音交互、VR/AR等设备需求各异,需要更为定制化、低功耗、低成本的嵌入式解决方案,这就给了创业公司更多机会,市场竞争生态也会更加多样化。

图片 19

[社会]中国军事人物――朱德

2019-11-23

阅读

收藏

朱德中国人民解放军主要创建人和领导人,军事家。1922年加入中国共产党。1938至1939年间,先后兼任过第二战区东路军总指挥和第二战区副司令长官。1941年曾负责领导军事教育委员会并兼任军事学院院长,1946年任中国人民解放军总司令。中华人民共和国成立后,任人央人民政府人民革命军事委员会副主席,并继续担任中国人民解放军总司令,国防委员会副主席。1955年被授予中华人民共和国元帅军衔。朱德协助毛泽东为中国人民解放军的创建和发展,做了大量工作。是毛泽东军事思想的重要组成部分,俗语。其主要着作收入《朱德选集》。

图片 20

2)自动驾驶

[社会]中国军事人物辞典(施善玉等主编·科学技术文献1988年版·精装)-布衣书局

2019-11-22

阅读

收藏

主题:中国军事人物辞典 卖家用户名: 布衣书局 运 费 : 按送货方式 最高拍价: 9 每次加价: 2.0 预结时间: 2016-03-03 20:35:00.0 剩余时间: 一元拍结束 交易情况: 134 次浏览,5 次出价 该卖家已在布衣书局上过134836件拍品 该卖家正在一元拍的其他拍品 给卖家发消息 · 一元拍过程 查看所有出价记录 买家 出价 出价时间 状态 吴钩霜雪 9 2016-03-03 19:58:52 最高出价 gulipai 7 2016-03-03 13:50:39 出局 清风漫又徐 5 2016-03-03 11:20:27 出局 gulipai 3 2016-02-29 14:13:24 出局 吴钩霜雪 1 2016-02-25 23:04:35 出局

1)智能手机

NVIDIA去年发布自动驾驶开发平台DRIVE PX2,基于16nm FinFET工艺,功耗高达250W,采用水冷散热设计;支持12路摄像头输入、激光定位、雷达和超声波传感器;CPU采用两颗新一代NVIDIA Tegra处理器,当中包括了8个A57核心和4个Denver核心;GPU采用新一代Pascal架构,单精度计算能力达到8TFlops,超越TITAN X,有后者10倍以上的深度学习计算能力。Intel收购的Mobileye、高通收购的NXP、英飞凌、瑞萨等汽车电子巨头也提供ADAS芯片和算法。初创公司中,地平线的深度学习处理器(BPU,BrainProcessor Unit)IP及其自研雨果(Hugo)平台也是重点面向自动驾驶领域。

[社会]世界历史十大军事人物?

2019-11-21

阅读

收藏

"苏沃洛夫俄国历史上的第一名将.他在俄土战争中屡建奇功,他在远征意大利时大败法军.他是拿破仑时代唯一一个能于拿破仑相匹敌的统帅.可历史却遗憾地没有能给他们正面交锋的机会.汉尼拔孤胆英雄.与罗马的战争中,他率领六万人插入罗马境内,孤军奋战,屡创奇迹.坎尼一役更是把他的生命推上的巅峰.他的名字让人尊敬

华为9月初发布的麒麟970 AI芯片就搭载了神经网络处理器NPU(寒武纪IP)。麒麟970采用了TSMC 10nm工艺制程,拥有55亿个晶体管,功耗相比上一代芯片降低20%。CPU架构方面为4核A73+4核A53组成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升20%和50%;NPU采用HiAI移动计算架构,在FP16下提供的运算性能可以达到1.92 TFLOPs,相比四个Cortex-A73核心,处理同样的AI任务,有大约50倍能效和25倍性能优势。

图片 21

[社会]《军事人物传记-刘基》.pdf-全文可读

2019-11-20

阅读

收藏

究其祖业,却十分殷 实深厚。刘氏虽为官宦之家,却始终不忘根本,时常济世救民,受到乡邻的称道。不幸的是,南宋灭亡,刘濠与邑人林融等不满元朝的统治,组织起义, 反元复宋事败,遭到统治者的残酷镇压。元朝仍不肯罢休,派专使前往调查 余党,准备一网打尽,斩草除根。使者得到一些地方土豪的支持,终于弄出一份义军人员名单,牵连人员 甚多。刘濠得到消息,暗想,当朝正在想尽办法整治南人汉人, 这一大批名单除起义军外,不知陷害了多少志士仁人和无辜百姓,若落入朝 廷之手,又会出现成千上万的冤魂。半夜,刘濠亲自点燃一把大火,焚烧了自己的庐舍。

苹果最新发布的A11仿生芯片也搭载了神经网络单元。据介绍,A11仿生芯片有43亿个晶体管,采用TSMC 10纳米FinFET工艺制程。CPU采用了六核心设计,由2个高性能核心与4个高能效核心组成。相比A10 Fusion,其中两个性能核心的速度提升了25%,四个能效核心的速度提升了70%;GPU采用了苹果自主设计的三核心GPU图形处理单元,图形处理速度与上一代相比最高提升可达30%之多;神经网络引擎NPU采用双核设计,每秒运算次数最高可达6000亿次,主要用于胜任机器学习任务,能够识别人物、地点和物体等,能够分担CPU和GPU的任务,大幅提升芯片的运算效率。

3)计算机视觉领域

另外,高通从2014年开始也公开了NPU的研发,并且在最新两代骁龙8xx芯片上都有所体现,例如骁龙835就集成了“骁龙神经处理引擎软件框架”,提供对定制神经网络层的支持,OEM厂商和软件开发商都可以基于此打造自己的神经网络单元。ARM在今年所发布的Cortex-A75和Cortex-A55中也融入了自家的AI神经网络DynamIQ技术,据介绍,DynamIQ技术在未来3-5年内可实现比当前设备高50倍的AI性能,可将特定硬件加速器的反应速度提升10倍。总体来看,智能手机未来AI芯片的生态基本可以断定仍会掌握在传统SoC商手中。

Intel收购的Movidius是主要的芯片提供商,大疆无人机、海康威视和大华股份的智能监控摄像头均使用了Movidius的Myriad系列芯片。目前国内做计算机视觉技术的公司中,商汤科技、Face++、云从、依图等,未来有可能随着其自身计算机视觉技术的积累渐深,部分公司向上游延伸去做CV芯片研发。另外,国内还有如人人智能、智芯原动等创业公司提供摄像头端的AI加速IP及芯片解决方案。

图片 22

图片 23

2)自动驾驶

4)其他 VR

NVIDIA去年发布自动驾驶开发平台DRIVE PX2,基于16nm FinFET工艺,功耗高达250W,采用水冷散热设计;支持12路摄像头输入、激光定位、雷达和超声波传感器;CPU采用两颗新一代NVIDIA Tegra处理器,当中包括了8个A57核心和4个Denver核心;GPU采用新一代Pascal架构,单精度计算能力达到8TFlops,超越TITAN X,有后者10倍以上的深度学习计算能力。Intel收购的Mobileye、高通收购的NXP、英飞凌、瑞萨等汽车电子巨头也提供ADAS芯片和算法。初创公司中,地平线的深度学习处理器(BPU,BrainProcessor Unit)IP及其自研雨果(Hugo)平台也是重点面向自动驾驶领域。

VR设备芯片的代表为微软为自身VR设备Hololens而研发的HPU芯片,这颗由台积电代工的芯片能同时处理来自5个摄像头、一个深度传感器以及运动传感器的数据,并具备计算机视觉的矩阵运算和CNN运算的加速功能;语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别;在泛IOT领域,NovuMind设计了一种仅使用3×3卷积过滤器的AI芯片,第一款芯片原型预计今年底推出,预计可实现耗能不超过5瓦进行15万亿次浮点运算,可以广泛应用于各类小型的互联网“边缘”设备。

图片 24

(四)新架构-类脑计算芯片

3)计算机视觉领域

“类脑芯片”是指参考人脑神经元结构和人脑感知认知方式来设计的芯片,其目标是开发出打破冯·诺依曼架构体系的芯片。这一领域目前仍处于探索阶段,如欧盟支持的SpiNNaker和BrainScaleS、斯坦福大学的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;国内Westwell、清华大学、浙江大学、电子科技大学等也有相关研究。

Intel收购的Movidius是主要的芯片提供商,大疆无人机、海康威视和大华股份的智能监控摄像头均使用了Movidius的Myriad系列芯片。目前国内做计算机视觉技术的公司中,商汤科技、Face++、云从、依图等,未来有可能随着其自身计算机视觉技术的积累渐深,部分公司向上游延伸去做CV芯片研发。另外,国内还有如人人智能、智芯原动等创业公司提供摄像头端的AI加速IP及芯片解决方案。

图片 25

图片 26

IBM的TrueNorth,2014年公布。在一颗芯片上集成了4096个内核,100万个神经元、2.56亿个可编程突触,使用了三星的28nm的工艺,共540万个晶体管;每秒可执行460亿次突触运算,总功耗为70mW,每平方厘米功耗20mW。IBM的最终目标就是希望建立一台包含100亿个神经元和100万亿个突触的计算机,这样的计算机要比人类大脑的功都强大10倍,而功耗只有一千瓦,而且重量不到两升。

4)其他 VR

图片 27

VR设备芯片的代表为微软为自身VR设备Hololens而研发的HPU芯片,这颗由台积电代工的芯片能同时处理来自5个摄像头、一个深度传感器以及运动传感器的数据,并具备计算机视觉的矩阵运算和CNN运算的加速功能;语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别;在泛IOT领域,NovuMind设计了一种仅使用3×3卷积过滤器的AI芯片,第一款芯片原型预计今年底推出,预计可实现耗能不超过5瓦进行15万亿次浮点运算,可以广泛应用于各类小型的互联网“边缘”设备。

国内AI初创公司西井科技Westwell是用FPGA模拟神经元以实现SNN的工作方式,有两款产品:

(四)新架构-类脑计算芯片

仿生类脑神经元芯片DeepSouth(深南),第三代脉冲神经网络芯片SNN,基于STDP(spike-time-dependentplasticity)的算法构建完整的突触神经网络,由电路模拟真实生物神经元产生脉冲的仿生学芯片,通过动态分配的方法能模拟出高达5000万级别的“神经元”,功耗为传统芯片在同一任务下的几十分之一到几百分之一。

“类脑芯片”是指参考人脑神经元结构和人脑感知认知方式来设计的芯片,其目标是开发出打破冯·诺依曼架构体系的芯片。这一领域目前仍处于探索阶段,如欧盟支持的SpiNNaker和BrainScaleS、斯坦福大学的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;国内Westwell、清华大学、浙江大学、电子科技大学等也有相关研究。

深度学习类脑神经元芯片DeepWell(深井),处理模式识别问题的通用智能芯片,基于在线伪逆矩阵求解算法(OPIUM lite)对芯片中神经元间的连接权重进行学习和调整;拥12800万个神经元,通过专属指令集调整芯片中神经元资源的分配;学习与识别速度远远高于运行在通用硬件(如CPU, GPU)上的传统方法(如CNN),且功耗更低。

图片 28

总体来看,类脑计算芯片领域仍处于探索阶段,距离规模化商用仍有比较远的距离。

IBM的TrueNorth,2014年公布。在一颗芯片上集成了4096个内核,100万个神经元、2.56亿个可编程突触,使用了三星的28nm的工艺,共540万个晶体管;每秒可执行460亿次突触运算,总功耗为70mW,每平方厘米功耗20mW。IBM的最终目标就是希望建立一台包含100亿个神经元和100万亿个突触的计算机,这样的计算机要比人类大脑的功都强大10倍,而功耗只有一千瓦,而且重量不到两升。

图片 29

图片 30

中国AI芯公司

国内AI初创公司西井科技Westwell是用FPGA模拟神经元以实现SNN的工作方式,有两款产品:

腾讯AI产业报告中提到中国的AI的处理器/芯片企业一共有14家,我们参照公开资料整理了部分国内AI处理器/芯片公司,虽不完备,但给感兴趣的读者做个参考。

仿生类脑神经元芯片DeepSouth(深南),第三代脉冲神经网络芯片SNN,基于STDP(spike-time-dependentplasticity)的算法构建完整的突触神经网络,由电路模拟真实生物神经元产生脉冲的仿生学芯片,通过动态分配的方法能模拟出高达5000万级别的“神经元”,功耗为传统芯片在同一任务下的几十分之一到几百分之一。

图片 31

深度学习类脑神经元芯片DeepWell(深井),处理模式识别问题的通用智能芯片,基于在线伪逆矩阵求解算法(OPIUM lite)对芯片中神经元间的连接权重进行学习和调整;拥12800万个神经元,通过专属指令集调整芯片中神经元资源的分配;学习与识别速度远远高于运行在通用硬件(如CPU, GPU)上的传统方法(如CNN),且功耗更低。

1)寒武纪科技&Cambricon 1A

总体来看,类脑计算芯片领域仍处于探索阶段,距离规模化商用仍有比较远的距离。

寒武纪科技成立于2016年,总部在北京,创始人是中科院计算所的陈天石、陈云霁兄弟,近期刚刚完成了一亿美元A轮融资,阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,成为全球AI芯片领域第一个独角兽初创公司。

图片 32

寒武纪是全球第一个成功流片并拥有成熟产品的AI芯片公司,拥有终端AI处理器IP和云端高性能AI芯片两条产品线。2016年发布的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。

中国AI芯公司

图片 33

腾讯AI产业报告中提到中国的AI的处理器/芯片企业一共有14家,我们参照公开资料整理了部分国内AI处理器/芯片公司,虽不完备,但给感兴趣的读者做个参考。

2)地平线机器人&BPU/盘古

图片 34

地平线机器人成立于2015年,总部在北京,创始人是前百度深度学习研究院负责人余凯。公司于去年中完成了A+轮融资,投资方包括了晨兴资本、高瓴资本、红杉资本、金沙江创投、线性资本、创新工场、真格基金、双湖投资、青云创投、祥峰投资、DST等。据介绍,公司近期即将完成B轮融资。

1)寒武纪科技&Cambricon 1A

BPU(BrainProcessing Unit)是地平线机器人自主设计研发高效的人工智能处理器架构IP,支持ARM/GPU/FPGA/ASIC实现,专注于自动驾驶、人脸图像辨识等专用领域。2017年,地平线基于高斯架构的嵌入式人工智能解决方案将会在智能驾驶、智能生活、公共安防三个领域进行应用,第一代BPU芯片“盘古”目前已进入流片阶段,预计在今年下半年推出,能支持1080P的高清图像输入,每秒钟处理30帧,检测跟踪数百个目标。地平线的第一代BPU采用TSMC的40nm工艺,相对于传统CPU/GPU,能效可以提升2~3个数量级(100~1,000倍左右)。

寒武纪科技成立于2016年,总部在北京,创始人是中科院计算所的陈天石、陈云霁兄弟,近期刚刚完成了一亿美元A轮融资,阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,成为全球AI芯片领域第一个独角兽初创公司。

图片 35

寒武纪是全球第一个成功流片并拥有成熟产品的AI芯片公司,拥有终端AI处理器IP和云端高性能AI芯片两条产品线。2016年发布的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。

图片 36

图片 37

3)深鉴科技&DPU

2)地平线机器人&BPU/盘古

深鉴科技成立于2016年,总部在北京。由清华大学与斯坦福大学的世界顶尖深度学习硬件研究者创立,今年初完成了A轮融资,投资方包括了联发科、赛灵思、金沙江创投、高榕资本、清华控股、方和资本等。

地平线机器人成立于2015年,总部在北京,创始人是前百度深度学习研究院负责人余凯。公司于去年中完成了A+轮融资,投资方包括了晨兴资本、高瓴资本、红杉资本、金沙江创投、线性资本、创新工场、真格基金、双湖投资、青云创投、祥峰投资、DST等。据介绍,公司近期即将完成B轮融资。

深鉴科技将其开发的基于FPGA的神经网络处理器称为DPU。到目前为止,深鉴公开发布了两款DPU:亚里士多德架构和笛卡尔架构,其中,亚里士多德架构是针对卷积神经网络CNN而设计;笛卡尔架构专为处理DNN/RNN网络而设计,可对经过结构压缩后的稀疏神经网络进行极致高效的硬件加速。相对于Intel XeonCPU与Nvidia TitanX GPU,应用笛卡尔架构的处理器在计算速度上分别提高189倍与13倍,具有24000倍与3000倍更高能效。

BPU(BrainProcessing Unit)是地平线机器人自主设计研发高效的人工智能处理器架构IP,支持ARM/GPU/FPGA/ASIC实现,专注于自动驾驶、人脸图像辨识等专用领域。2017年,地平线基于高斯架构的嵌入式人工智能解决方案将会在智能驾驶、智能生活、公共安防三个领域进行应用,第一代BPU芯片“盘古”目前已进入流片阶段,预计在今年下半年推出,能支持1080P的高清图像输入,每秒钟处理30帧,检测跟踪数百个目标。地平线的第一代BPU采用TSMC的40nm工艺,相对于传统CPU/GPU,能效可以提升2~3个数量级(100~1,000倍左右)。

图片 38

图片 39

4)西井科技&DeepSouth/DeepWell

图片 40

公司成立于2015年,总部在上海。今年6月完成了A轮融资,投资方包括了复星同浩、源政投资、合力投资、十维资本、喔赢资本等。

3)深鉴科技&DPU

西井科技是用FPGA模拟神经元以实现SNN的工作方式,有两款产品:

深鉴科技成立于2016年,总部在北京。由清华大学与斯坦福大学的世界顶尖深度学习硬件研究者创立,今年初完成了A轮融资,投资方包括了联发科、赛灵思、金沙江创投、高榕资本、清华控股、方和资本等。

仿生类脑神经元芯片DeepSouth(深南),第三代脉冲神经网络芯片SNN,基于STDP(spike-time-dependentplasticity)的算法构建完整的突触神经网络,由电路模拟真实生物神经元产生脉冲的仿生学芯片,通过动态分配的方法能模拟出高达5000万级别的“神经元”,功耗为传统芯片在同一任务下的几十分之一到几百分之一。

深鉴科技将其开发的基于FPGA的神经网络处理器称为DPU。到目前为止,深鉴公开发布了两款DPU:亚里士多德架构和笛卡尔架构,其中,亚里士多德架构是针对卷积神经网络CNN而设计;笛卡尔架构专为处理DNN/RNN网络而设计,可对经过结构压缩后的稀疏神经网络进行极致高效的硬件加速。相对于Intel XeonCPU与Nvidia TitanX GPU,应用笛卡尔架构的处理器在计算速度上分别提高189倍与13倍,具有24000倍与3000倍更高能效。

深度学习类脑神经元芯片DeepWell(深井),处理模式识别问题的通用智能芯片,基于在线伪逆矩阵求解算法(OPIUM lite)对芯片中神经元间的连接权重进行学习和调整;拥12800万个神经元,通过专属指令集调整芯片中神经元资源的分配;学习与识别速度远远高于运行在通用硬件(如CPU, GPU)上的传统方法(如CNN),且功耗更低。

图片 41

图片 42

4)西井科技&DeepSouth/DeepWell

5)云飞励天&IPU

公司成立于2015年,总部在上海。今年6月完成了A轮融资,投资方包括了复星同浩、源政投资、合力投资、十维资本、喔赢资本等。

公司成立于2014年,总部在深圳,由国家“千人计划”特聘专家陈宁和田第鸿博士联合创立,今年3月完成了A轮融资,投资方松禾资本、深投控、红秀盈信、山水从容投资、投控东海、真格基金等。

西井科技是用FPGA模拟神经元以实现SNN的工作方式,有两款产品:

云天励飞提供视觉智能芯片和解决方案,专注于人工智能领域,以新型处理器、机器学习与大数据技术为核心。公司自主研发的处理器芯片IPU,采用了全新的面向视觉计算的处理器芯片架构,该技术将机器学习效能提升了两个数量级。公司在在深圳搭建的区域级天眼系统,实现了全球首创的“百万人群、秒级定位”,还被采纳为2016年杭州G20峰会和乌镇互联网大会的安全系统提供服务。

仿生类脑神经元芯片DeepSouth(深南),第三代脉冲神经网络芯片SNN,基于STDP(spike-time-dependentplasticity)的算法构建完整的突触神经网络,由电路模拟真实生物神经元产生脉冲的仿生学芯片,通过动态分配的方法能模拟出高达5000万级别的“神经元”,功耗为传统芯片在同一任务下的几十分之一到几百分之一。

图片 43

深度学习类脑神经元芯片DeepWell(深井),处理模式识别问题的通用智能芯片,基于在线伪逆矩阵求解算法(OPIUM lite)对芯片中神经元间的连接权重进行学习和调整;拥12800万个神经元,通过专属指令集调整芯片中神经元资源的分配;学习与识别速度远远高于运行在通用硬件(如CPU, GPU)上的传统方法(如CNN),且功耗更低。

6)人人智能&FaceOS

图片 44

人人智能成立于2016年,是ARM OpenAI实验室核心合作企业。公司于去年底完成了ARM和英诺天使基金的天使轮融资,据报道目前正在启动新一轮融资。

5)云飞励天&IPU

人人智能提供一个基ARM的人脸识别核心芯片即模组方案,识别模组是独创的支持深度学习算法的嵌入式高性能ARM平台,支持外接摄像机从视频流检测和载取人脸照片等功能。据介绍,人人智能发布的“智能芯”是国内首个人脸识别硬件模组,尺寸仅为86mm*56mm*21mm,集成了人工智能操作系统FaceOS。通过将人工智能算法进行集成产品化,能够把产品的研发周期减少60%,成本降低50%。

公司成立于2014年,总部在深圳,由国家“千人计划”特聘专家陈宁和田第鸿博士联合创立,今年3月完成了A轮融资,投资方松禾资本、深投控、红秀盈信、山水从容投资、投控东海、真格基金等。

图片 45

云天励飞提供视觉智能芯片和解决方案,专注于人工智能领域,以新型处理器、机器学习与大数据技术为核心。公司自主研发的处理器芯片IPU,采用了全新的面向视觉计算的处理器芯片架构,该技术将机器学习效能提升了两个数量级。公司在在深圳搭建的区域级天眼系统,实现了全球首创的“百万人群、秒级定位”,还被采纳为2016年杭州G20峰会和乌镇互联网大会的安全系统提供服务。

7)启英泰伦&CI1006

图片 46

启英泰伦于2015年11月在成都成立,是一家语音识别芯片研发商,投资方包括了Roobo、汇声信息等。

6)人人智能&FaceOS

启英泰伦的CI1006是基于ASIC架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持DNN运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。

人人智能成立于2016年,是ARM OpenAI实验室核心合作企业。公司于去年底完成了ARM和英诺天使基金的天使轮融资,据报道目前正在启动新一轮融资。

图片 47

人人智能提供一个基ARM的人脸识别核心芯片即模组方案,识别模组是独创的支持深度学习算法的嵌入式高性能ARM平台,支持外接摄像机从视频流检测和载取人脸照片等功能。据介绍,人人智能发布的“智能芯”是国内首个人脸识别硬件模组,尺寸仅为86mm*56mm*21mm,集成了人工智能操作系统FaceOS。通过将人工智能算法进行集成产品化,能够把产品的研发周期减少60%,成本降低50%。

8)云知声&UniOne芯片

图片 48

云知声是一家智能语音识别技术公司,成立于2012年,总部位于北京。今年8月刚刚获得3亿人民币战略投资,其中部分资金将用于加大人工智能专用芯片UniOne的研发力度。

7)启英泰伦&CI1006

UniOne将内置DNN处理单元,兼容多麦克风、多操作系统,对任何的场景不做限制,无论是在智能的空调上、车载上或其他智能设备上都可以植入这个芯片,该芯片具有高集成度的,低功耗、低成本的优点。与此同时,公司还有IVM-M高性能嵌入式芯片,基于高通wifi模组,提供高性价比的物联网语音交互整体方案,主要应用在智能空调,厨电等职能家具产品上;基于Linux系统设计的Unitoy芯片可一站式解决儿童陪伴式机器人的唤醒、识别、设备互联能力。

启英泰伦于2015年11月在成都成立,是一家语音识别芯片研发商,投资方包括了Roobo、汇声信息等。

图片 49

启英泰伦的CI1006是基于ASIC架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持DNN运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。

9)百度&XPU

图片 50

百度2017年8月Hot Chips大会上发布了XPU,这是一款256核、基于FPGA的云计算加速芯片。合作伙伴是赛思灵(Xilinx)。XPU采用新一代AI处理架构,拥有GPU的通用性和FPGA的高效率和低能耗,对百度的深度学习平台PaddlePaddle做了高度的优化和加速。据介绍,XPU关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似CPU的灵活性。但目前XPU有所欠缺的仍是可编程能力,而这也是涉及FPGA时普遍存在的问题。到目前为止,XPU尚未提供编译器。

8)云知声&UniOne芯片

图片 51

云知声是一家智能语音识别技术公司,成立于2012年,总部位于北京。今年8月刚刚获得3亿人民币战略投资,其中部分资金将用于加大人工智能专用芯片UniOne的研发力度。

10)NovuMind

UniOne将内置DNN处理单元,兼容多麦克风、多操作系统,对任何的场景不做限制,无论是在智能的空调上、车载上或其他智能设备上都可以植入这个芯片,该芯片具有高集成度的,低功耗、低成本的优点。与此同时,公司还有IVM-M高性能嵌入式芯片,基于高通wifi模组,提供高性价比的物联网语音交互整体方案,主要应用在智能空调,厨电等职能家具产品上;基于Linux系统设计的Unitoy芯片可一站式解决儿童陪伴式机器人的唤醒、识别、设备互联能力。

NovuMind成立于2015年,公司创始人是原百度异构计算小组负责人吴韧,在北京及硅谷设有办公室。公司于2017年初完成了A轮融资,投资方包括了真格基金、宽带资本、英诺天使基金、洪泰基金、臻云创投、极客帮创投等,据报道近期正在筹备新一轮融资。

图片 52

NovuMind主要为智能为汽车、安防、医疗、金融等领域提供ASIC芯片,并提供训练模型的全栈式AI解决方案。与Nvidia GPU或Cadence DSP的通用深度学习芯片不同,NovuMind专注于开发一种“非常专用但非常高效地进行推理”的深度学习加速器芯片。NovuMind设计了一种仅使用3×3卷积过滤器的AI芯片,通过使用独特的张量处理架构(tensorprocessing architecture)直接对三维Tensor进行处理,新芯片将支持Tensorflow、Cafe和Torch模型。。NovuMind的第一个AI芯片(原型)预计会在17年圣诞节前推出。到明年2月份应用程序准备就绪,并能够在该芯片上实现耗能不超过5瓦进行15万亿次浮点运算。NovuMind的第二个芯片,耗能将不超过1瓦,计划在2018年中期面世。

9)百度&XPU

图片 53

百度2017年8月Hot Chips大会上发布了XPU,这是一款256核、基于FPGA的云计算加速芯片。合作伙伴是赛思灵(Xilinx)。XPU采用新一代AI处理架构,拥有GPU的通用性和FPGA的高效率和低能耗,对百度的深度学习平台PaddlePaddle做了高度的优化和加速。据介绍,XPU关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似CPU的灵活性。但目前XPU有所欠缺的仍是可编程能力,而这也是涉及FPGA时普遍存在的问题。到目前为止,XPU尚未提供编译器。

11)华为&麒麟970芯片

图片 54

麒麟970搭载的神经网络处理器NPU采用了寒武纪IP。麒麟970采用了TSMC 10nm工艺制程,拥有55亿个晶体管,功耗相比上一代芯片降低20%。CPU架构方面为4核A73+4核A53组成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升20%和50%;NPU采用HiAI移动计算架构,在FP16下提供的运算性能可以达到1.92 TFLOPs,相比四个Cortex-A73核心,处理同样的AI任务,有大约50倍能效和25倍性能优势。

10)NovuMind

图片 55

NovuMind成立于2015年,公司创始人是原百度异构计算小组负责人吴韧,在北京及硅谷设有办公室。公司于2017年初完成了A轮融资,投资方包括了真格基金、宽带资本、英诺天使基金、洪泰基金、臻云创投、极客帮创投等,据报道近期正在筹备新一轮融资。

12)中星微电子&NPU

NovuMind主要为智能为汽车、安防、医疗、金融等领域提供ASIC芯片,并提供训练模型的全栈式AI解决方案。与Nvidia GPU或Cadence DSP的通用深度学习芯片不同,NovuMind专注于开发一种“非常专用但非常高效地进行推理”的深度学习加速器芯片。NovuMind设计了一种仅使用3×3卷积过滤器的AI芯片,通过使用独特的张量处理架构(tensorprocessing architecture)直接对三维Tensor进行处理,新芯片将支持Tensorflow、Cafe和Torch模型。。NovuMind的第一个AI芯片(原型)预计会在17年圣诞节前推出。到明年2月份应用程序准备就绪,并能够在该芯片上实现耗能不超过5瓦进行15万亿次浮点运算。NovuMind的第二个芯片,耗能将不超过1瓦,计划在2018年中期面世。

中星微2016年6月推出量产的NPU芯片“星光智能一号”,NPU采用了“数据驱动并行计算”的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例,特别擅长处理视频、图像类的海量多媒体数据。每个NPU由四个NPU内核构成;每个NPU内核包括两个数据流处理器和一个长字处理器;每个数据流处理器由8个长字或16个短字的SIMD(单指令多数据)处理单元组成;每个NPU峰值可提供38Gops或76Gops短字的处理能力;支持通用的基于深度学习的神经网络层(ConvolutionLayer/Pooling Layer/Full Connection Layer/Activation Layer/Custom SpecificLayer)。

图片 56

图片 57

11)华为&麒麟970芯片

以上仅为根据公开资料整理部分国内AI处理器/芯片公司,更多公司资料将逐步完善。

麒麟970搭载的神经网络处理器NPU采用了寒武纪IP。麒麟970采用了TSMC 10nm工艺制程,拥有55亿个晶体管,功耗相比上一代芯片降低20%。CPU架构方面为4核A73+4核A53组成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升20%和50%;NPU采用HiAI移动计算架构,在FP16下提供的运算性能可以达到1.92 TFLOPs,相比四个Cortex-A73核心,处理同样的AI任务,有大约50倍能效和25倍性能优势。

来源:怪诞笔记

图片 58

附:2016年中国人工智能创业公司50强

12)中星微电子&NPU

图片 59

中星微2016年6月推出量产的NPU芯片“星光智能一号”,NPU采用了“数据驱动并行计算”的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例,特别擅长处理视频、图像类的海量多媒体数据。每个NPU由四个NPU内核构成;每个NPU内核包括两个数据流处理器和一个长字处理器;每个数据流处理器由8个长字或16个短字的SIMD(单指令多数据)处理单元组成;每个NPU峰值可提供38Gops或76Gops短字的处理能力;支持通用的基于深度学习的神经网络层(ConvolutionLayer/Pooling Layer/Full Connection Layer/Activation Layer/Custom SpecificLayer)。

图片 60

以上仅为根据公开资料整理部分国内AI处理器/芯片公司,更多公司资料将逐步完善。

版权声明:本文由威尼斯官方网站登录发布于新闻资讯,转载请注明出处:重磅推荐,AI集成电路行当生态梳理