人工智能浪潮的推动下,ai相关产业的商用场景正逐步大规模落地,基于ai技术的三大支柱:“算法+大数据+计算能力”智能应用已成为计算机最主要的负载之一。我国在用户数据方面拥有数量的先天优势,但面对有限的规模、结构固定、能耗受限的硬件制约下,如何用ai芯片处理海量的并不断演进的深度学习算法呢?跟随ofweek编辑一起来看看各大科技巨头们研发的ai芯片吧。(排名按首字母顺序排列)
1.含光800
2019年的杭州云栖大会上,达摩院院长张建锋现场展示了这款全球最强的 ai芯片——含光800。在业界标准的 resnet-50 测试中,含光 800 推理性能达到 78563 ips,比目前业界最好的 ai 芯片性能高 4 倍;能效比500 ips/w,一个含光800的算力相当于10个gpu。
目前,含光800已经实现了大规模应用于阿里巴巴集团内多个场景,例如视频图像识别/分类/搜索、城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。以杭州城市大脑实时处理1000路视频为例,过去使用gpu需要40块,延时为300ms,单路视频功耗2.8w;使用含光800仅需4块,延时150ms,单路视频功耗1w。
2.graphcore ipu
总部位于英国布里斯托的graphcore公司日前推出了一款称为智能处理单元(ipu)的新型ai加速处理器。芯片本身,即ipu处理器,是迄今为止最复杂的处理器芯片:它在一个16纳米芯片上有几乎240亿个晶体管,每个芯片提供125 teraflops运算能力。一个标准4u机箱中可插入8张卡,卡间通过ipu链路互连。8张卡中的ipu可以作为一个处理器元件工作,提供两个petaflops的运算能力。与芯片在cpu和gpu中的存在形式不同,它为机器智能提供了更高效的处理平台。
graphcore公司于2016年启动风险投资计划,并在2018年12月的最后一轮融资中募集了2亿美元。基于其17亿美元的公司估值,graphcore已成为西方半导体界的唯一“独角兽”。它的投资者们包括戴尔、博世、宝马、微软和三星。
3.inferentia芯片
2019年,亚马逊的云服务业务aws在其发布会aws re:invent上带来了高性能机器学习加速芯片inferentia。据了解,aws inferentia 是一个由 aws 定制设计的机器学习推理芯片,旨在以极低成本交付高吞吐量、低延迟推理性能。该芯片将支持 tensorflow、apache mxnet 和 pytorch 深度学习框架以及使用 onnx 格式的模型。
每个 aws inferentia 芯片都能在低功率下支持高达 128 tops(每秒数万亿次运行)的性能,从而为每个 ec2 实例启用多个芯片。aws inferentia 支持 fp16、bf16 和 int8 数据类型。此外,inferentia 可以采用 32 位训练模型,并使用 bfloat16 以 16 位模型的速度运行该模型。与ec4上的常规nvidia g4实例相比,借助inferentia,aws可提供更低的延迟和三倍的吞吐量,且每次推理成本降低40%。
4.昆仑芯片
2019年尾声,百度宣布首款ai芯片昆仑已经完成研发,将由三星代工生产。该芯片使用的是三星14nm工艺技术,封装解决方案采用的是i-cube tm。
据悉,昆仑ai芯片提供512gbps的内存带宽,在150瓦的功率下实现260tops的处理能力,能支持语音,图像,nlp等不同的算法模型,其中ernie模型的性能是t4gpu的三倍以上,兼容百度飞桨等主流深度学习框架。该款芯片主要用于云计算和边缘计算,预计在2020年初实现量产,
5.nervana nnp 芯片
2019 英特尔人工智能峰会,英特尔推出面向训练 (nnp-t1000) 和面向推理 (nnp-i1000) 的英特尔 nervana 神经网络处理器 (nnp)。据了解,nervana nnp-t 代号 spring crest,采用了台积电的 16nm ff+ 制程工艺,拥有 270 亿个晶体管,硅片面积 680 平方毫米,能够支持 tensorflow、paddlepaddle、pytorch 训练框架,也支持 c++ 深度学习软件库和编译器 ngraph。
nervana nnp-i,代号为 spring hill,是一款专门用于大型数据中心的推理芯片。这款芯片是基于 10nm 技术和 ice lake 内核打造的,打造地点是以色列的 haifa ,intel 号称它能够利用最小的能量来处理高负载的工作,它在 resnet50 的效率可达 4.8tops/w,功率范围在 10w 到 50w 之间。
6.orin芯片
2019年nvidia gtc中国大会中英伟达发布了全新的软件定义自动驾驶平台——nvidia drive agx orin,该平台内置全新orin系统级芯片,由170亿个晶体管组成。
orin系统级芯片集成了nvidia新一代gpu架构和arm hercules cpu内核以及全新深度学习和计算机视觉加速器,每秒可运行200万亿次计算,几乎是nvidia上一代xavier系统级芯片性能的7倍。此外,orin可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,并且达到了iso 26262 asil-d等系统安全标准。
7.邃思dtu
由腾讯领投、融资累计超过 6 亿元的 ai 芯片公司燧原科技,在2019年发布会中推出自主研发的首款 ai 训练芯片“邃思 dtu”。
据了解邃思dtu采用格罗方德12nm finfet工艺,480平方毫米主芯片上承载141亿个晶体管,实现2.5d高级立体封装,据称单卡单精度算力为业界第一,达20tflops,首次支持混合精度,半精度及混合精度下算力达80tflops,最大功耗仅225w。
邃思芯片基于可重构芯片的设计理念,其计算核心包含 32 个通用可扩展神经元处理器(sip),每 8 个 sip 组合成 4 个可扩展智能计算群(sic)。sic 之间通过 hbm 实现高速互联,通过片上调度算法,数据在迁移中完成计算,实现了 sip 利用率最大化。
8.思元220芯片
寒武纪在第21届高交会正式发布边缘ai系列产品思元220(mlu220)芯片及m.2加速卡产品,标志寒武纪在云、边、端实现了全方位、立体式的覆盖。
思元220芯片采用了寒武纪在处理器架构领域的一系列创新性技术,其架构为寒武纪最新一代智能处理器mluv02,实现最大32tops(int4)算力,而功耗仅10w,可提供16/8/4位可配置的定点运算。作为通用处理器,支持各类深度学习技术,支持多模态智能处理(视觉、语音和自然语言处理),应用领域广泛,客户可以根据实际应用灵活的选择运算类型来获得卓越的人工智能推理性能。
9.昇腾910
2019年8月,华为在深圳总部发布ai处理器ascend 910(昇腾910),据华为发布的参数显示,昇腾910是一款具有超高算力的ai处理器,其最大功耗为310w,华为自研的达芬奇架构大大提升了其能效比。八位整数精度(int8)下的性能达到512tops,16位浮点数(fp16)下的性能达到256 tflops。
作为一款高集成度的片上系统(soc),除了基于达芬奇架构的ai核外,昇腾910还集成了多个cpu、dvpp和任务调度器(task scheduler),因而具有自我管理能力,可以充分发挥其高算力的优势。
昇腾910集成了hccs、pcie 4.0和roce v2接口,为构建横向扩展(scale out)和纵向扩展(scale up)系统提供了灵活高效的方法。hccs是华为自研的高速互联接口,片内roce可用于节点间直接互联。最新的pcie 4.0的吞吐量比上一代提升一倍。
10.征程二代
2019世界人工智能大会中,人工智能芯片初创公司地平线正式宣布量产中国首款车规级人工智能芯片——征程二代,并且获得五个国家市场客户的前装定点项目。
据介绍,征程二代于今年初流片成功,搭载地平线自主创新研发的高性能计算架构bpu2.0(brain processing unit),可提供超过4tops的等效算力,典型功耗仅2瓦,满足aec-q100标准,算力利用率超过90%,每tops算力可以处理的帧数可达同等算力gpu的10倍以上,识别精度超过99%,延迟少于100毫秒,多任务模式下可以同时跑超过60个分类任务,每秒钟识别目标数可以超过2000个。
此次地平线率先推出首款车规级ai芯片不仅实现了中国车规级ai芯片量产零的突破,也补齐了国内自动驾驶产业生态建设的关键环节。
小结
目前通过cpu/gpu处理人工神经网络效率低下,谷歌大脑需要1.6万个cpu核跑数天方能完成猫脸识别训练;aipha go与李世石下棋时用了1000个cpu和200个gpu,ai芯片的发展是第三次ai浪潮中极为明显的趋势,算法已渗透到云服务器和智能手机的方方面面,未来每台计算机可能都需要一个专门的深度学习处理器。