自动驾驶芯片行业专题报告:GPU的现在和ASIC的未来
(获取报告请登陆未来智库www.vzkoo.com)
一、车载芯片的发展趋势(CPU-GPU-FPGA-ASIC)
过去汽车电子芯片以与传感器一一对应的电子控制单元(ECU)为主,主 要分布与发动机等核心部件上。随着汽车智能化的发展,汽车传感器越来 越多,传统的分布式架构逐渐落后,由中心化架构 DCU、MDC 逐步替代。
随着人工智能发展,汽车智能化形成趋势,目前辅助驾驶功能渗透率越来 越高,这些功能的实现需借助于摄像头、雷达等新增的传感器数据,其中 视频(多帧图像)的处理需要大量并行计算,传统 CPU算力不足,这方面 性能强大的 GPU 替代了 CPU。再加上辅助驾驶算法需要的训练过程, GPU+FPGA成为目前主流的解决方案。
着眼未来,自动驾驶也将逐步完善,届时又会加入激光雷达的点云(三维 位置数据)数据以及更多的摄像头和雷达传感器,GPU 也难以胜任, ASIC 性能、能耗和大规模量产成本均显著优于 GPU 和 FPGA,定制化的 ASIC 芯片可在相对低水平的能耗下,将车载信息的数据处理速度提升更快, 随着自动驾驶的定制化需求提升,ASIC 专用芯片将成为主流。本文以如上 顺序梳理车载芯片发展历程,探讨未来发展方向。
二、车载芯片的过去—以 CPU 为核心的 ECU
2.1 ECU的核心 CPU
ECU(Electronic Control Unit)是电子控制单元,也称“行车电脑”,是 汽车专用微机控制器。一般 ECU 由 CPU、存储器(ROM、RAM)、输入/ 输出接口(I/O)、模数转换器(A/D)以及整形、驱动等大规模集成电路组 成。
ECU 的工作过程就是 CPU 接收到各个传感器的信号后转化为数据,并由 Program区域的程序对 Data 区域的数据图表调用来进行数据处理,从而得 出具体驱动数据,并通过 CPU针脚传送到相关驱动芯片,驱动芯片再通过 相应的周边电路产生驱动信号,用来驱动驱动器。即传感器信号——传感 器数据——驱动数据——驱动信号这样一个完整工作流程。
2.2 分布式架构向多域控制器发展
汽车电子发展的初期阶段,ECU 主要是用于控制发动机工作,只有汽车发 动机的排气管(氧传感器)、气缸(爆震传感器)、水温传感器等核心部件 才会放置传感器,由于传感器数量较少,为保证传感器-ECU-控制器回路 的稳定性, ECU 与传感器一一对应的分布式架构是汽车电子的典型模式。
后来随着车辆的电子化程度逐渐提高,ECU 占领了整个汽车,从防抱死制 动系统、4 轮驱动系统、电控自动变速器、主动悬架系统、安全气囊系统, 到现在逐渐延伸到了车身各类安全、网络、娱乐、传感控制系统等。
随着汽车电子化的发展,车载传感器数量越来越多,传感器与 ECU一一对 应使得车辆整体性下降,线路复杂性也急剧增加,此时 DCU(域控制器) 和 MDC(多域控制器)等更强大的中心化架构逐步替代了分布式架构。
域控制器(Domain Control Unit)的概念最早是由以博世,大陆,德 尔福为首的 Tier1 提出,是为了解决信息安全,以及 ECU 瓶颈的问题。 根据汽车电子部件功能将整车划分为动力总成,车辆安全,车身电子, 智能座舱和智能驾驶等几个域,利用处理能力更强的多核 CPU/GPU 芯片相对集中的去控制每个域,以取代目前分布式汽车电子电气架构。
而进入自动驾驶时代,控制器需要接受、分析、处理的信号大量且复 杂,原有的一个功能对应一个 ECU的分布式计算架构或者单一分模块 的域控制器已经无法适应需求,比如摄像头、毫米波雷达、激光雷达 乃至 GPS 和轮速传感器的数据都要在一个计算中心内进行处理以保证 输出结果的对整车自动驾驶最优。
因此,自动驾驶车辆的各种数据聚集、融合处理,从而为自动驾驶的 路径规划和驾驶决策提供支持的多域控制器将会是发展的趋势,奥迪 与德尔福共同开发的 zFAS,即是通过一块 ECU,能够接入不同传感 器的信号并进行对信号进行分析和处理,最终发出控制命令。
三、车载芯片的现在—以 GPU 为核心的智能辅助驾驶芯片
人工智能的发展也带动了汽车智能化发展,过去的以 CPU 为核心的处理器越 来越难以满足处理视频、图片等非结构化数据的需求,同时处理器也需要 整合雷达、视频等多路数据,这些都对车载处理器的并行计算效率提出更 高要求,而 GPU 同时处理大量简单计算任务的特性在自动驾驶领域取代 CPU成为了主流方案。
3.1 GPU Vs. CPU
CPU 的核心数量只有几个(不超过两位数),每个核都有足够大的缓存和足够 多的数字和逻辑运算单元,并辅助很多复杂的计算分支。而 GPU 的运算 核心数量则可以多达上百个(流处理器),每个核拥有的缓存大小相对小, 数字逻辑运算单元也少而简单。
CPU和 GPU最大的区别是设计结构及不同结构形成的不同功能。CPU的逻辑 控制功能强,可以进行复杂的逻辑运算,并且延时低,可以高效处理复杂 的运算任务。而 GPU逻辑控制和缓存较少,使得每单个运算单元执行的逻 辑运算复杂程度有限,但并列大量的计算单元,可以同时进行大量较简单 的运算任务。
3.2 GPU占据现阶段自动驾驶芯片主导地位
相比于消费电子产品的芯片,车载的智能驾驶芯片对性能和寿命要求都比较高, 主要体现在以下几方面:
1、耗电每瓦提供的性能;
2、生态系统的构建,如用户群、易用性等;
3、满足车规级寿命要求,至少 1 万小时稳定使用。
目前无论是尚未商业化生产的自动驾驶 AI 芯片还是已经可以量产使用的辅 助驾驶芯片,由于自动驾驶算法还在快速更新迭代,对云端“训练”部分 提出很高要求,既需要大规模的并行计算,又需要大数据的多线程计算, 因此以 GPU+FPGA 解决方案为核心;在终端的“推理”部分,核心需求 是大量并行计算,从而以 GPU为核心。
3.3 相关公司
3.3.1 NVIDIA
NVIDIA 在自动驾驶领域的成就正是得益于他们在 GPU 领域内的深耕, NVIDIA GPU 专为并行计算而设计,适合深度学习任务,并且能够处理在 深度学习中普遍存在的向量和矩阵操作。相对于 Mobileye 专注于视觉处理, NVIDIA 的方案重点在于融合不同传感器。
目前,L4 及以上的市场基本上被 NVIDIA 垄断,CEO 黄仁勋称全球有 300 余家自动驾驶研发机构使用 Drive PX2。Drive PX 2 单价为 1.6 万美金,功 耗达 425 瓦,但目前没有达到车规,按功耗和成本看,只能小规模测试阶 段使用。
3.3.2 四维图新
国内地图行业龙头,向 ADAS 和自动驾驶进军。公司成立于 2002 年,是 国内首家获导航地图制作资质的企业(目前仅 13 家),为领先的数字地图 内容、车联网与动态交通信息服务、基于位置的大数据垂直应用服务的提 供商之一。其拳头业务——地图业务,以国内 60%的份额稳居垄断地位。 2017 年以来,公司收购杰发科技、入股中寰卫星与禾多科技,“高精度地 图+芯片+算法+软件”的自动驾驶产业链全方位布局雏形已现。
高精度地图:代表国内最高水平。公司以地图起家,目前国内高精度地图 仅两家玩家(另一家为高德),公司深度绑定获得宝马、大众、奔驰、通用、 沃尔沃、福特、上汽、丰田、日产、现代、标致等主流车企发展,占绝对 优势。2017 年公司实现支持 L3 级别(至少 20 个城市)的高精度地图,计 划于 2019 年覆盖所有城市,并为 L4 的推出做准备。公司地图编译能力亮 眼,全球首位提供 NDS 地图从生产到编译环节。此外,公司在荷兰、美国硅谷、新加坡等地设立研发中心和分支机构,合作伙伴涵盖国际主流车厂、 新一代整车企业以及腾讯、滴滴、搜狗、华为等国内知名企业。
芯片:收购杰发科技布局汽车芯片。杰发科技(2017 年 3 月完成收购)脱 胎于联发科,主攻车载信息娱乐系统芯片。现阶段在国内后装市场市占率 超 70%,前装超 30%(主要为吉利、丰田等车企),其车规级 IVI 芯片被 多家国际主流零部件厂商采用,并计划推出 AMP、MCU 及 TPMS(胎压 监测)芯片等新一代产品。公司通过收购杰发科技,具备了为车厂提供高 性能汽车电子芯片的能力,打通从软件到硬件的关键性关卡,并与蔚来、 威马、爱驰亿维等造车新势力公司达成了合作。
该芯片采用 64 位 Quad A53 架构,内置硬件图像加速引擎,支持双路高清 视频输出,和四路高清视频输入,能同时支持高级车载影音娱乐系统全部 功能和丰富的 ADAS 功能。功能包括:360°全景泊车系统、车道偏移警 示系统 LDW、前方碰撞警示系统 FCW、行人碰撞警示系统 PCW、交通标 志识别系统 TSR、车辆盲区侦测系统 BSD、驾驶员疲劳探测系统 DFM 和 后方碰撞预警系统 RCW等。
3.3.3 全志科技
在今年 5 月的 CES Asia,全志科技发布首款车规级处理器 T7,同时发布 基于 T7 的多种智能座舱产品形态。T7 是数字座舱车规(AEC-Q100)平 台型处理器,支持 Android、Linux、QNX系统,集成多路高清影像输入和 输出,完美支持高清多媒体处理,内置的 EVE 视觉处理单元可提升辅助驾 驶运算效率。
该款芯片虽然是首款通过车规的国产中控主机芯片,但还处于起步阶段, 根据正常汽车电子芯片的生命周期,要规模应用至少需要两年时间,而等 到形成较多的用户和良好的生态还需很多资源投入以及时间的积累。因此 国产车载芯片不论在自动驾驶领域还是中控或辅助驾驶领域,想要真正形 成量产与国外老牌巨头竞争,都还需要大量人力、资本和时间。
四、车载芯片的未来—以 ASIC 为核心的自动驾驶芯片
4.1 ASIC vs GPU+FPGA
GPU适用于单一指令的并行计算,而 FPGA与之相反,适用于多指令,单 数据流,常用于云端的“训练”阶段。此外与 GPU对比,FPGA没有存取 功能,因此速度更快,功耗低,但同时运算量不大。结合两者优势,形成 GPU+FPGA的解决方案。
FPGA 和 ASIC 的区别主要在是否可以编程。FPGA 客户可根据需求编程, 改变用途,但量产成本较高,适用于应用场景较多的企业、军事等用户; 而 ASIC 已经制作完成并且只搭载一种算法和形成一种用途,首次“开模” 成本高,但量产成本低,适用于场景单一的消费电子、“挖矿”等客户。目 前自动驾驶算法仍在快速更迭和进化,因此大多自动驾驶芯片使用 GPU+FPGA的解决方案。未来算法稳定后,ASIC将成为主流。
计算能耗比,ASIC > FPGA > GPU > CPU,究其原因,ASIC 和 FPGA更 接近底层 IO,同时 FPGA有冗余晶体管和连线用于编程,而 ASIC是固定 算法最优化设计,因此 ASIC 能耗比最高。相比前两者,GPU 和 CPU 屏 蔽底层 IO,降低了数据的迁移和运算效率,能耗比较高。同时 GPU 的逻 辑和缓存功能简单,以并行计算为主,因此 GPU能耗比又高于 CPU。
4.2 ASIC 是未来自动驾驶芯片的核心和趋势
结合 ASIC 的优势,我们认为长远看自动驾驶的 AI芯片会以 ASIC 为解决 方案,主要有以下几个原因:
综上 ASIC 专用芯片几乎是自动驾驶量产芯片唯一的解决方案。由于这种 芯片仅支持单一算法,对芯片设计者在算法、IC 设计上都提出很高要求。
以上并非下定论目前 ASIC 为核心的芯片一定比 GPU+FPGA 的芯片强, 由于目前自动驾驶算法还在快速迭代和升级过程中,过早以固有算法生产 ASIC 芯片长期来看不一定是最优选择。
4.3 相关公司
4.3.1 Mobileye
Intel 在 ADAS 处理器上的布局已经完善,包括 Mobileye 的 ADAS 视觉处 理,利用 Altera 的 FPGA 处理,以及英特尔自身的至强等型号的处理器, 可以形成自动驾驶整个硬件超级中央控制的解决方案。
Mobileye 具有自主研发设计的芯片 EyeQ 系列,由意法半导体公司生产供 应。现在已经量产的芯片型号有 EyeQ1 至 EyeQ4,EyeQ5 正在开发进行 中,计划 2020 年面世,对标英伟达 Drive PX Xavier,并透露 EyeQ5 的计 算性能达到了 24 TOPS,功耗为 10 瓦,芯片节能效率是 Drive Xavier 的 2.4 倍。英特尔自动驾驶系统将采用摄像头为先的方法设计,搭载两块 EyeQ5 系统芯片、一个英特尔凌动 C3xx4 处理器以及 Mobileye 软件,大 规模应用于可扩展的 L4/L5 自动驾驶汽车。该系列已被奥迪、宝马、菲亚 特、福特、通用等多家汽车制造商使用。
从硬件架构来看,该芯片包括了一组工业级四核 MIPS 处理器,以支持多 线程技术能更好的进行数据的控制和管理(下图左上)。多个专用的向量微码处理器(VMP),用来应对 ADAS 相关的图像处理任务(如:缩放和预 处理、翘曲、跟踪、车道标记检测、道路几何检测、滤波和直方图等,下 图右上)。一颗军工级 MIPS Warrior CPU 位于次级传输管理中心,用于处 理片内片外的通用数据(下图左中)。
此外通过行业访谈调研等途径了解到,Mobileye 在 L1-L3 智能驾驶领域具 有极大的话语权,对 Tire1 和 OEM 非常强势,其算法和芯片绑定,不允许 更改。
4.3.2 寒武纪
寒武纪科技在 2018 产品发布会上发布了多个 IP 产品——采用 7nm 工艺的终端芯片 Cambricon 1M、云端智能芯片 MLU100 等。
其中寒武纪 1M芯片是公司第三代 IP产品,在 TSMC7nm工艺下 8 位运算 的效能比达 5Tops/w(每瓦 5 万亿次运算),同时提供 2Tops、4Tops、 8Tops 三种尺寸的处理器内核,以满足不同需求。1M 还将支持 CNN、 RNN、SVM、k-NN 等多种深度学习模型与机器学习算法的加速,能够完 成视觉、语音、自然语言处理等任务。通过灵活配置 1M 处理器,可以实 现多线和复杂自动驾驶任务的资源最大化利用。它还支持终端的训练,以 此避免敏感数据的传输和实现更快的响应。
寒武纪首款云端智能芯片 Cambricon MLU100 同期发布,同时公布了在 R-CNN算法下 MLU100 与英伟达 Tesla V100(2017)和英伟达 Tesla P4 (2016)的对比,从参数上看,主要对标 Tesla P4。
4.3.3 地平线
地平线星云,基于征程 1.0 芯片,能够以车规级标准满足 L1 和 L2 级 别的自动驾驶的需求, 能同时对行人、机动车、非机动车、车道线、 交通标志牌、红绿灯等多类目标进行精准的实时监测与识别;并可满 足车载设备严苛的环境要求,以及复杂环境下的视觉感知需求,支持 L2 级别 ADAS功能。
地平线 Matrix 1.0,内置地平线征程 2.0 处理器架构,最大化嵌入式 AI 计算性能,是面向 L3/L4 的自动驾驶解决方案,可满足自动驾驶场景 下高性能和低功耗的需求。依托地平线公司自主研发的工具链,开发 者和研究人员可以基于 Matrix 平台部署神经网络模型,实现开发、验 证、优化和部署。
4.3.4 百度“昆仑”
“昆仑”采用 14nm 三星工艺,是业内设计算力最高的 AI 芯片(100+瓦功耗 下提供 260Tops 性能);512GB/s 内存带宽,由几万个小核心构成。
“昆仑”可高效地同时满足训练和推断的需求,除了常用深度学习算法等云端 需求,还能适配诸如自然语言处理,大规模语音识别,自动驾驶,大规模 推荐等具体终端场景的计算需求。此外可以支持 paddle 等多个深度学习框 架,编程灵活度高。
4.3.5 Google TPU
Google TPU 是专用的,并不面向市场,谷歌仅表示“将允许其他公司通过其 云计算服务购买这些芯片。”今年 2 月,谷歌在其云平台博客上宣布的 TPU 服务开放价格大约为每 cloud TPU (180TFLOPS和 64 GB内存)每 小时 6.50 美元。Google 使用 TPU开发围棋系统 AlphaGo 和 Alpha Zero 以及进行 Google 街景视频文字处理等,能够在不到五天的时间内找到街 景数据库中的所有文字,此外 TPU也用于提供 Google 搜索结果的排序。
TPU与同期的 CPU和 GPU相比,可以提供 15-30 倍的性能提升,以及 30-80 倍的效率(性能/瓦特)提升。
4.3.6 Xilinx & 深鉴科技
Xilinx 赛灵思是 FPGA 的先行者和领导者,1984 年,赛灵思发明了现场可 编程门阵列 FPGA,作为半定制化的 ASIC,顺应了计算机需求更专业的趋 势。FPGA 的好处是可编程以及带来的灵活配置,同时还可以提高整体系 统性能,比单独开发芯片整个开发周期大为缩短,但缺点是价格、尺寸等 因素。
Zynq 采用单一芯片即可完成 ADAS 解决方案的开发,SOC平台大幅提升 了性能,便于各种捆绑式应用,能实现不同产品系列间的可扩展性,可帮 助系统厂商加快在环绕视觉、3D 环绕视觉、后视摄像头、动态校准、行人 检测、后视车道偏离警告和盲区检测等 ADAS 应用的开发时间。并且可以 让 OEM和 Tier1 在平台上添加自己的 IP 以及赛灵思自己的扩展。
(报告来源:国金证券)
获取报告请登陆未来智库www.vzkoo.com。
立即登录请点击:「链接」
评论