芯东西(公众号:aichip001)
作者 | 心缘
编辑 | 漠影
芯东西6月16日报道,2021世界半导体大会暨南京国际半导体博览会于上周落幕,IC设计开发者大会作为半导体大会的平行论坛之一同期举行。
围绕后摩尔时代下芯片设计的技术演进、创新方向与时代机遇,多家国内外芯片专家在剖析产业痛点的同时,分享了最新技术进展及行业观察。
在政策支持、资本助力以及国际形势复杂多变的大背景下,芯片设计业作为国内半导体产业最具活力的领域之一,正保持高速增长。
从CPU、GPU、DPU到AI芯片,哪些芯片设计领域成为创业风口?创业大潮中,有哪些创新的芯片架构正在积极探索落地商用?上游的IP、EDA工具和封装技术又有哪些优化芯片设计流程、提高芯片设计效率的新技术风向?
经过密集的听会与逛展,芯东西发现异质集成、chiplet等已成为本届大会上众多演讲嘉宾谈及的高频词汇。此外,多家国产EDA厂商出现在此次展会上,比邻新思科技(Synopsys)、楷登电子(Cadence)两大国际EDA巨头,分享各种优化芯片设计流程的最新工具。
一、两大创业新风口:GPU与DPU
“SoC的创业,确实最近一段时间走到非常未有的、非常高程度的关注。”在大会期间的SoC设计技术论坛上,半导体行业知名投资人、华登国际合伙人王林分享了两个比较火的创业领域。
一是GPU。当前GPU领域,全球头部玩家仅英伟达和AMD,号称要做“中国英伟达”的公司快20家了,上海有8家,南京有1家。
“在中国创业这么大的芯片,这么需要巨额资本的创业,居然能够一夜之间出来将近20家企业,我觉得在中国创业浪潮真的是非常非常迅猛。”王林谈道,“全球就两家在活着,中国未来有几家活着,大家拭目以待。”
从中国的创业火热到过热,变化飞快,谁是第一波杀出来的,速度非常重要。
二是DPU。王林说,这是今年SoC创业里面最火的概念了,从去年开始苗头渐起。
DPU将一些CPU上要处理的加密解密或者存储的转化。英伟达看到了这样一个趋势,早在2019年就宣布以69亿美元收购以色列Mellanox。
传统架构中,当CPU资源不够,往往人们要买更多服务器,也就会同时将网络、加速资源都扩容,从而带来这些资源的冗余,从成本、功耗等角度,不是一个很好的选择。
现在的数据中心,都倡导以资源池的形式来做,即将所有数据处理相关的做一个资源池,各个资源都做成资源池,对每个资源池分别管理、扩容,用最中心的DPU做调度和管理。
华登国际合伙人王林在演讲
大家认为,可能在未来的数据中心云端架构上,DPU取代了CPU,成为一个最关键的、最核心的芯片地位。如果把整个数据中心看成一整个大的服务器,DPU就是一整个大服务器里的CPU,这也是为什么以色列这家公司要花69亿美金收购。
讲一个实践,在数据中心最迅猛、最坚定走自研的芯片和硬件的新型架构的公司,就是全球公有云龙头亚马逊AWS。亚马逊2015年以3.5亿美金收购了一家以色列芯片商Annapurana Labs,里面有非常多做数据处理的高手。
基于这家以色列公司的团队,AWS发展出来一系列的自研芯片,有加密芯片、加速卡、调度的系统等等。基于自有芯片架构及自有的一整套云端管理系统,AWS的数据中心算力得以进一步释放,能更灵活去支持客户定制化的东西,并在一定程度上摆脱对硬件厂商的依赖。
所以,网络的新型云端架构更新,带来了非常多的机会。
中国创业公司得天独厚的优势,为确保供应链安全,中国大芯片的供应商,有很多创业机会。同时挑战也很大,王林挑了几条来讲:大芯片SoC、云端SoC创业不仅拼芯片能力,也拼系统能力,对于系统的理解、对于整个云端架构未来趋势的理解和把握,非常难。
二、自主CPU的核心要素与技术要求
怎样的处理器,才是真正自主的处理器?
在SoC设计技术论坛上,龙芯中科副总经理明旭从理论层面,对这一话题加以探讨。
信息产业发展这么多年,形成了两套技术体系,WinTel体系统一了PC和服务器,AA体系统一了移动端,但这两个体系都在美国的掌握之中。
跟着别人的体系走,是没有出路的。只有靠自己,下决心搞体系替代,才是唯一的出路。在这个过程中,有两个坎必须迈过——自主CPU和自主操作系统。
如果处理器要实现自主,就要在指令集自主的基础上,能够自主设计微结构。
现在几类主要国产处理器,分别采用引进合作、Arm授权、自主架构的模式。
引进合作,现在只剩x86架构,由于x86指令集没有授权的说法,只能靠合资建厂的方式去打知识产权的擦边球,因此没有自主性可言。
Arm授权方式很多,包括软核、硬核、指令集。但其指令集的扩展是严格受限的,这恰恰是Arm生态建设成功的根本抓手,是不会放手的。
用这样国外的指令集,只能做产品,无法构建自主的产业体系。如果要发展自主的产业体系,必须从自主的指令集做起。
龙芯中科副总经理明旭
明旭打了个比方,通用处理器的要求就像培养一个孩子,要他成为学习好、品德高、运动能力强、还会做菜,这才是通用处理器。
因此对于通用处理器的设计要求是很高的,在所有芯片类产品里,通用处理器的技术要求基本上是一个珠穆朗玛峰的存在。
通用处理器的核心价值,并不在我们看到的芯片上,而是在CPU核心上和支撑软件生态的基础软件上,就像一个哑铃,份量都在两头。上层应用的性能和稳定性是三部分综合优化的结果。现在较受关注的“后门”问题,恰恰也在软件两头。
对于CPU核心自主处理器来说,从上层应用到底层处理器微结构的技术链贯通,可以针对热点代码,结合软硬件进行深度优化。另外,可以持续通过微结构升级的方式,来提升芯片性能。
其实,对于有条件的黑客和攻击者来说,在芯片内部,也就是在CPU核心内部放置后门,是最有效也最隐秘的技术手段。
当年斯诺登曝光“棱镜门”的时候,其实没有任何证据证明美国在芯片内部放了后门。但因为美国没有底线的行为,使得大家对美国处理器的安全性和是不是放后门开始有各种质疑和猜测,并在此过程中发现了一些蛛丝马迹。
“对于自主CPU来说,不用说,后门肯定没有!因为整个微结构都是我写的。”明旭说,前一段很受关注的处理器漏洞,解决起来也都得心应手。那是一个体系结构上的漏洞,在摸清机理之后,龙芯解决CPU漏洞只用了一行代码。另外,还有针对性在CPU核内的内存安全机制。
对于你拿别人的核来攒的CPU来说,后门难防。因为核心不是你做的。微结构持续升级的能力没有,而且供应链上的风险也很大。
在明旭看来,一定历史时期内,因为技术发展阶段不同,用别人的核来攒CPU无可厚非。有问题是,明明拿别人的核来攒,非要说自己做的,这个问题就大了。到时候出了问题,谁负责?实际上没有人能负得起这个责任。
总的来讲,真正核心技术包括无法引进的、即使引进了也难以消化吸收的芯片技术。
对于CPU高复杂系统,用别人的CPU核攒芯片,不复杂,复杂的是CPU核的内部,上百万甚至上千万行的代码,没有设计文档。
你把每一行代码都看懂,拼起来还是不懂。就像打开一个猪的大脑,可以看到每一颗神经元,甚至可以看到在跳,但它在想什么,你不知道。
明旭认为,高复杂系统的能力建设,是一整套体系能力的建设,至少需要30年的时间,在长期的自主研发过程中逐步演进,一步步堆出来的。在演进过程中,除人才、机制和经费,时间是最重要的创新因素。
“龙芯在这上面已经努力了20年,我们还是有信心,再用10年时间,把我们处理器设计能力达到国际水平!”明旭说,龙芯处理器当前即是在走这样一条路,从指令集、IP核到芯片模块,都完全自主设计,没有使用任何第三方IP,“这在国内处理器厂商中是绝无仅有的。”
龙芯三大产品系列
今年4月份,龙芯推出自主指令集LoongArch,具有完全自主、运行效率高、生态兼容三大特点,并实现了CPU核心自主优势,既能通过微结构的持续升级来提升性能,又能进行全方位处理器的安全性设计。
除了龙芯中科外,我们也在展会看到了澜起科技、飞腾等国产CPU供应商的身影。基于飞腾CPU的产品已覆盖台式机、一体机、便携机、瘦客户机等多类终端以及服务器和工业控制嵌入式产品等,澜起科技刚于今年4月发布其第三代津逮CPU服务器处理器。
三、高能效是主攻方向,智能汽车离不开大芯片
在世界半导体大会期间,多家专注于AI芯片的公司分享了他们的架构设计理念。
比如在大会首日,南京大学特聘教授、IEEE Fellow、南京风兴科技董事长王中风分享了他们所研发的随机稀疏高能效神经网络加速器。
他谈到主要做的一些优化工作:一是降低算法复杂度,其快速卷积算法可将主要计算量降到30%甚至更多;二是满足存储空间及带宽需求,他们采用动态的计算流方案,可有效降低存储带宽压力;三是在内存、带宽限制情况下优化硬件设计单元,王中风团队设计的总架构,基于前期的算法和存储空间优化,在多数情况下能取得2.5倍以上的能效比。
清微智能发展历程
脱胎于清华大学微电子所的清微智能则聚焦可重构计算芯片。据清微智能首席架构师于义分享,其核心技术可重构计算(CGRA)兼具通用性和高能效,能够达到和ASIC相当的计算能效,同时又有接近软件可编程的灵活性,使得芯片能快速处理最新算法。
目前清微智能已量产TX210、TX510、TX231芯片,并正在开发马上要量产投片的TX511,峰值算力将达到2TOPS。于义透露说,未来清微智能的可重构计算芯片规划是从端侧AIoT一直发展到云端,最后实现通用计算,每瓦算力达到500-1000TOPS。
主攻AIoT应用的大鱼半导体,在大会期间推出了其应用于蓝牙无线耳机的首款音频智能SoC——U2。U2采用台积电40ULP的低功耗工艺,并在此基础上优化了芯片设计、系统软件和协议栈。另外,U2采取了分离设计的方法,将电源、射频、音频隔离开,从结构上杜绝底噪问题。
据其分享的测试结果,在播放状态下,内嵌U2的TWS耳机将市面上常见的20+mW的音乐播放功耗,压缩到12mW,仅为AirPods的2/3;通话状态下功耗19mW为AirPods的2/3;待机状态下功耗0.5mW,为AirPods的1/4。
大鱼半导体U2芯片
面向自动驾驶计算芯片赛道,黑芝麻智能CMO杨宇欣分享道,过去车企都讲“里程焦虑”,但随着汽车智能化的提升,现在厂商更多是“算法焦虑”,要求汽车足够智能,一定要有足够强大的算力支撑。他认为,核心芯片应该是在整个产业链发展过程中最核心的一个环节。
但真正在做车规级大芯片,或车规级高性能芯片的智能公司少之又少,不超过1%。这是因为安全可靠性是最大的门槛,对设计能力和耐力的要求极高,会把不少厂商难住。杨宇欣透露说,黑芝麻智能将不断演进大算力芯片,明年会发布200TOPS以上算力的芯片。
谈到AI芯片的应用,宙心科技CEO陈更新特别强调应用场景智能化的成功决定了AI芯片的成功。
AI的生存需要去深耕,碎片化技术离不开长期的精力打磨和资源投入,需要认真调研应用环节,真正做到分析、提炼出来如何提供这种端到端的解决方案,才能与优秀的产品解决问题。
“我不太认同通用计算,至少目前对于AI芯片来说。”陈更新认为,面向特定行业、特定目的的专用芯片,可能会很长一段时间有很强的生命力,会与GPU、CPU并存很久。最终,AI技术一定是从定制化走向通用化,但在达到通用化之前,它必须在定制化AI上走过很漫长的道路。
四、IP授权带来“轻设计”之风
为了降低整体SoC设计的负担,IP授权正成为芯片设计厂商流行的商业模式之一。
随着半导体产业迁移、芯片设计规模不断扩大、物联网呈现碎片化需求之后,一家企业想实现整个设计过程中全部环节的难度加大。有些厂商会将一些关键的核心技术,一些通用化、公用化的IT技术外包,或将整个设计服务外包,这类从事IP授权的厂商,又可以称作“轻设计厂商”。
芯原股份即专注于IP授权,2020年在全球IP厂商中排名第7,拥有包括显示屏、AI芯片等在内的各种芯片设计所需IP。
其商业运营高级副总裁汪洋先生将芯原股份的模式总结成一个新的名词:芯片设计平台即服务(Silicon Platform as a Service, SiPaaS):未来,不单芯片制造环节可以代工,设计环节也可以交给像芯原股份这样的IP授权公司,从而进一步降低成本。
同样从事IP授权的芯动科技,专注于高端工艺、高端IP的突破,其产品覆盖了从55nm到5nm的全工艺,特别是FDX工艺,从22nm一直到5nm。
芯动科技CPO姜燚称,随着高端芯片采用的先进制程越来越小,用户在芯片IP上主要是工艺方面的焦虑。如果能实现全面又专注的服务,既能帮助客户可以减少工艺的焦虑,又能让客户关注到自身的产品。
五、国产EDA元年已至,验证是提速芯片设计的关键
设计芯片,离不开上游的EDA(电子设计自动化)工具。借助EDA,芯片的电路设计、性能分析、IC版图设计等整个过程,都能由计算机自动处理完成。
EDA工具处于芯片业的最顶端,市场大概百亿美元,却催生撬动4千亿的电子信息市场,进而带动40万亿数字经济市场。一旦下端EDA受到冲击,会让EDA电路、电子信息以及数字经济的产业结构发生很大变化,对整个社会的影响不可估量。
如今各家EDA厂商都在研究让芯片设计效率更高、门槛更低、效果的工具。
比如,据Cadence中国区验证产品工程总监张立伟分享,其高阶综合技术(HLS)能从底层出发来优化芯片设计过程,将高层次语言描述的逻辑结构,自动转换成低抽象级语言描述的电路模型,在多方面完胜人工优化RTL的效率和结果。
Cadence展台
赛迪顾问高级分析师吕芃浩在大会上提到了一系列数据,芯片设计成本越来越高,设计一颗5nm芯片大约4亿美元,如果不用EDA工具,成本大约将达到1000亿美元,不是任何一家公司能承担得起的投入。
半导体市场带来了EDA市场的繁荣,2020年半导体市场的增幅约为6.8%,带动了EDA的增长是11.9%,说明对EDA的需求在快速释放。具体从结构上来看,物理设计与验证今年增幅达到12%,这是除了IP之外增长最快的。
2020年我国EDA市场规模约6.2亿美元,仅占全球市场的5.4%;国内EDA厂商总营收约6亿元,只占到全球市场份额的0.8%;同比增长44%;国产化率约14%,因此还有很大成长空间。
有一种说法,2021年开启了国内EDA的元年。据不完全统计,在2020年,国民EDA企业数量达到28家,基本上每年都会增加3~5家,成长速度很快,虽然很小,但在快速繁衍。
资本热度也非常高。在2019年之前,EDA领域没有什么关注点。但是从去年开始,尤其到今年,这种公司数量非常多,单就上半年,融资总额超过十几亿。除了华大九天侧重模拟工具外,多家面向数字EDA的国产厂商也在快速发展,华大九天、国微思尔芯、杭州广立微等均已准备IPO。
目前因AI芯片复杂程度高,研发成本上升,研发时间也不可逆转,任何一个环节都不出错。因此验证环节必须贯穿于整个设计过程中,及时发现问题并解决问题,提高芯片设计的效率,推进AI芯片快速推向市场。从这个角度看来,数字EDA发展大有可为。
总体来看,验证工具已是中国EDA的重要赛道。
紫光芯云CTO邓世友分享了一个数据:约7成左右的芯片研发时间都用了在做验证和仿真。吕芃浩亦提到从2010年开始到2020年,验证工程师的数量已经超过设计工程师了,验证在设计中起到的作用愈发明显,验证成本也超过了设计。
降低芯片设计成本还有一个趋势——上云。
邓世友说,当下,云计算在提升小芯片设计效率、降低成本方面帮助极大,例如EDA上云,可以满足对芯片算力弹性需求。考虑到成本问题和配置的复杂性,芯片设计上云正成为一个新趋势。
芯片设计上云的价值
EDA上云,可以最大优势利用云天然的弹性,能够满足资源100%的供给,通过云能够获得灵活的算力和足够的存储的性能,并且可以按需购买算力,设计环境也得以快速构建。此外,用户还能在云上获得三是生态全链路服务。
同时,逻辑设计错误是导致流片失败的第一因素,这也可以通过前期的设计仿真过程加以规避。另外,仿真验证需要弹性算力,用算力换时间,是提升效率的最有效手段。
因此紫光云推出一站式芯片云服务平台,希望基于该平台,构建一个满足芯片设计五大核心要素的基础支撑,提供算力、设计环境和芯片设计服务,从而提速客户芯片设计。对于节约运维、机房成本,抑或是异地协同办公场景、人力不足、算力不足等痛点,芯片设计上云都能带来好处。
速石科技资深架构师万山青同样分享了一些云端EDA的经验。上云思路大体有两类。一是将云当成本地机房的延伸,即另一个地方的IT基础环境用;二是云原生的思路,比较适合新的设计公司,如果能很好地以更适合云上平台的方式去取用资源,将获取更高收益,同时降低成本。
速石科技做的事,即是在云上构建IC设计环境,利用AI算法优化对接芯片设计公司以及各类EDA工具软件等,直接为芯片设计公司提供工具最优解,使其能更好地专注于设计本身。
同时,自动化工具也有助于提升芯片设计效率。
Codasip中国区总经理相海英说,用工具来做自动化设计和定制,不仅能节省开发时间、节约开发成本,而且能保持新加了指令以后,软件工程师还可以基于C和C++做普通应用软件开发,无需用嵌入汇编的形式,就能保留大的生态。
在世界半导体大会期间,EDA创企芯华章发布《EDA 2.0白皮书》,并提出后摩尔时代中EDA面临的一些挑战,包括EDA设计流程与系统级软硬件需求缺少关联,能同时理解两者的专家非常稀缺;设计周期长,无法满足应用快速创新需求;设计投资大,成本高,项目风险大;需要新建大规模团队,整个EDA流程高度依赖经验,芯片设计人才难求。
芯华章科技董事长兼CEO王礼宾相信,智能化的EDA 2.0时代,会使设计芯片像开发程序那样简单,制造芯片像搭积木那样灵活。
中国科学院院士、上海交通大学党委常委、副校长毛军发同样在主题演讲中提到EDA落后的原因:一方面是研究算法较多,但很零散,没有规划、集成,没有形成能力;另一方面,大型软件工程能力较弱,经验较少,用户不愿用国产软件,形成恶性循环。
毛军发院士也分享了其项目组的研究成果,比如研发国内第一款具有自主知识产权的电磁-热-应力耦合多物理层仿真软件,合作研制出首套系列国产射频EDA商用软件,包括48款国产射频EDA商用软件工具、500种高精度PDK模型,与中芯国际工艺兼容的集成无源器件IP库已量产3.5亿颗,基本实现无源集成电路EDA工具自主可控。
六、异质集成趋热,未来属于chiplet
毛军发院士认为:“摩尔定律面临极限挑战,转折点临近,半导体异质集成将为集成电路变道超车发展提供历史机遇。”
单一半导体工艺集成电路存在局限性,而异质集成电路采用系统设计理念,融合不同半导体材料、工艺、元器件或芯片优点,应用chiplet、集成无源器件等新技术,通过采用2.5D或3D高密度结构,实现复杂功能和优质的综合性能。
同时,异质集成电路具有灵活性大、可靠性高、研发周期短、成本低、小型化轻质化等特点,且对半导体设备要求低,不受EUV光刻机限制。
美国非常重视异质集成这一方向,此外日本、韩国、新加坡及我国台湾地区均有异质集成相关研究计划。面向chiplet方向,英特尔、三星都发布了3D封装集成研究进展。
英特尔、三星的3D封装集成研发进展
台积电也将封装技术的重心逐渐从后端封装厂移到前端半导体代工厂。台积电在主推SoIC,采用最先进封装互联技术为3D Fabric,芯片之间的IO间距可以小到1μm左右。SoC是把IP平面集成在一个芯片里,而SoIC可以把多个chiplet以3D堆叠集成。
目前台积电已实现用3D Fabric技术完成12层堆叠的SoIC,如果SoIC成为下一代芯片系统的主流技术,那么台积电将会在半导体行业更加强势。
异质集成电路发展蓝图
AMD也在积极布局异构集成,并判断异构计算将成为未来高性能计算发展趋势的关键之一。在持续引入新制程节点的过程中,AMD意识到性能的提升,不能仅依赖于制程的进步,还需要更多其他方面创新,来驱动性能和算力提升。
高级副总裁、大中华区总裁潘晓明说,AMD的尝试结果是,制程技术的演进大约占性能提升的40%,平台和设计优化变得更为重要,它涵盖了从处理器、微架构、模块之间如何连接以及硬件和软件系统优化等所有内容,占据了系统提升的60%的比重。上述组合,实现了平均每2.5年提升2倍性能。
例如在刚刚落幕的2021年台北电脑展中,AMD展示了与台积电合作开发的第一款采用3D堆叠封装技术的芯片。以往,3D堆叠技术被用在闪存上,而AMD将这一技术引入CPU,突破性将AMD芯片架构以3D堆叠技术相结合,实现了超过2D芯片200倍的互联密度,与现有的3D封装解决方案相比,密度也可达到15倍以上。
同时,潘晓明也提到AMD十分关注chiplet(芯粒)技术。2017年,AMD已在其处理器上采用chiplet技术将4个SoC互连,在第一代EPYC处理器中又通过Infinity技术将8个7nm chiplet CPU和1个12nm chiplet I/O相互连接,现已推出第三代EPYC处理器。
日月光集团副总经理郭桂冠同样在演讲中谈及chiplet,如果一味追求3nm、5nm,在良率上付出的成本极大,而如果采用chiplet技术,则无需集合成非常大的芯片,可以离散式分成几个小芯片做整合,这样良率将大大提高。
他提到封测厂和客户都喜欢chiplet,因为良率损失问题,在目前产能稀缺的情况下,这是很值得讨论的话题。
日月光集团展台
当前道的晶圆制造成本愈发高昂,异质集成趋势下,封装技术的性价比优势将进一步显现。后道制造技术正加速芯片进化,即不再只是把芯片封起来,而是研究如何提高芯片的集成度、如何提高封装体内部的高速互连。
长电科技亦在围绕异质集成的先进封装技术方面积极布局。在主题演讲中,长电科技首席执行长郑力生动形象地描述了技术变化:如果将以前传统意义上的“封装”比作工人制造砖头,那么如今的“封装”就是用砖头砌墙甚至搭建一栋房屋。
如今从先进封装到芯片成品制造的产业升级趋势日趋明显,封装行业也更加注重和加强与芯片设计企业以及IP、EDA企业的互动协同。协同设计可优化芯片成品集成与测试一体化,并大幅提高效率。
“因为我们的密度、集成度越来越复杂,所以必须在芯片前期规划和设计时就把设计中间的晶圆制造和后道的成品制造联系在一起,这样才能保证良率,才能保证性能提高。”郑力说。
长电科技展台展示系统级封装(SiP)技术
结语:赛道、发展方式、市场格局都在变化
在世界半导体大会开幕当日的下午场,赛迪顾问副总裁李珂分享了未来可能出现的三方面变化:
第一,赛道可能会变。半导体犹如跑马拉松,要比拼耐力,赛道越长,继续跑得选手越少。而像5G、AI等新赛道,无论是新选手还是从其他赛道跳过来的老选手,都站在同一个起跑线上。
第二,发展方式要变。现在摩尔定律放缓,所谓超越摩尔,比拼的是应变能力,能不能在同样线宽、同样工艺上实现价值最大化?这恰恰是中国厂商的机遇,并且中国是全球最大的单一市场,城市化进程也好、消费能力也好,最适合做超越摩尔的应用。
最后是市场格局在变。在超越摩尔时代或者新的赛道不断涌现的情况下,更多话语权向整机企业或电子企业甚至下游互联网企业迁移,原来做一块芯片卖几百万部手机、躺赚的时代已经结束,未来所谓的万物互联大量碎片化的市场中,更多要与整机企业、政府、终端客户等协同,虽然基础性、战略性地位没变,但是主导权或者话语权在下降。
而在这一系列变化的驱动下,芯片从架构设计本身到上游的EDA工具、IP、平台等都在持续演化,从各个层面来满足终端用户的需求。