• 12月24日 星期二

芯片良率危机凸显

芯片良率危机凸显

图片来源@视觉中国

文 | 半导体产业纵横

近期,半导体业倍受关注的一大热点事件是三星官宣量产3nm制程芯片。实际上,在官方消息发出之前,业界就一直在议论此事,焦点就是良率问题。由于在追赶台积电的道路上不遗余力,三星几乎用尽浑身解数,这一次,在台积电即将于下半年量产3nm制程之前,抢先宣布量产,比拼的意味浓厚。但从近些年的情况来看,在先进制程工艺方面,屡屡被台积电碾压,一个很重要的原因就是三星难以保证良率,这在获取客户信心方面是个很大的减分项。

前些年,在10nm和7nm制程刚量产的时候,高通骁龙845 SoC由三星代工生产,骁龙855、865则由台积电7nm制程工艺生产,英伟达原计划由三星生产的7nm制程GPU芯片,也转移到了台积电。那时,三星在良率方面就落后于台积电,订单量明显少于对手。

2021年,4nm制程兴起,高通将骁龙 8 Gen1 Plus的生产订单转给了台积电,很重要的原因就是三星4nm制程工艺的良率仅为35%左右,与台积电超过70%的良率相比差太多。

今年2月,据韩媒Infostock Daily报道,三星电子怀疑旗下晶圆代工厂的产量及良率报告存在造假行为,因此,三星DS部门受到了管理咨询部门对其晶圆代工厂5nm制程良率的调查,紧随其后的将是4nm和3nm调查。该事件的起因是,三星晶圆代工业务饱受低良率之苦,特别是4/5nm制程量产后,出现了良率极其低下的情况,交货时间不断延后,招致了三星高层的怀疑。一位熟悉三星电子内部情况的高管表示:“由于晶圆代工业务交付的数量难以满足最近的订单需求,我们对非内存工艺的良率表示怀疑,众所周知,基于该良率(指此前良率报告的数据)是可以满足订单交付的。”管理咨询部门的怀疑对象是DS部门现任及前任高管,调查内容包括:之前递交的良率报告是否真实,用于提升良率的资金究竟流向何方。

今年6月,三星任命了内存制造技术中心副总裁Kim Hong-shik领导晶圆代工技术创新团队。通过改组,三星调动存储芯片专家来领导代工业务的核心部门。此次,晶圆代工部门的重组,也是为了改善3nm芯片良率,努力反超台积电。

台积电之所以能在先进制程方面领先全球,高良率是杀手锏。据悉,该公司7nm制程在量产开始3个季度后,其不良率降至每平方厘米0.09,5nm制程量产初期,不良率低于同期的7nm,缺陷密度大约为每平方厘米0.10~0.11,随着5nm芯片量产进程的推进,不良率降至0.10以下。

另一大芯片巨头英特尔也饱受良率困扰,2020年7月,该公司发布消息称,原计划于2021年底上市的7nm芯片,因工艺存在缺陷,导致良率下降,发布时间推迟6个月。在此之前,英特尔在10nm制程的研发过程中就遇到了很多困难,多次延期,2019年初才实现量产。

综上,芯片良率的重要性可见一斑。

芯片良率简析

简单的说,芯片良率就是晶圆上合格芯片数量与芯片总数的比值,这个数值越大,说明有用芯片数量越多,浪费越少,成本也就越低,利润越高。

良率还可以细分为wafer(硅晶圆)良率、die良率和封测良率,这三种良率的乘积则是总良率。总良率是所有晶圆厂的核心机密,外界很难知晓。它可以反应出这家晶圆厂制造芯片的总体水平和营收能力。

芯片制造的每一个阶段,从晶圆制造、中测、封装到成测,每一步都会对总良率产生影响,其中,晶圆制造是影响良率的主要因素。

良率还受设备、原材料等因素影响,要想达到较高水平,需要稳定工艺设备,定期做工艺能力恢复。另外,环境因素对以上提到的三种良率都会产生影响,如尘埃、湿度、温度和光照亮度等,芯片制造和封测过程需要在超洁净的工作环境中进行。

另外,wafer的尺寸会直接影响良率,一般情况下,中心区域的良率较高,边缘区域的良率较低(这是由制造工艺决定的)。wafer尺寸越大,中心区面积占总面积比例也大,良率越高。

良率不是一成不变的,它会随着工艺技术的不断成熟而提升。一般情况下,新制程工艺刚量产的时候,良率比较低,随着生产的推进,以及导致低良率的因素被发现和改进,良率会不断提升,较为成熟的产线良率可以达到95%以上。

很多半导体公司都有专门从事良率提升工作的工程师,在晶圆厂,有专门的良率提高(YE)部门,良率工程师负责提高晶圆良率;在IC设计企业,运营部门有专业的产品工程师(PE)负责提高良率。

拿什么拯救你,我的良率

芯片良率如此重要,全行业都非常关注,晶圆厂、IC设计企业、半导体设备和材料厂商,以及行业科研机构都在进行各种研究探索,为提升芯片良率添砖加瓦。

当然,提升良率的主战场依然是晶圆厂(IDM厂或晶圆代工厂)。要提升良率,首先需要深入研究芯片良率与可靠性之间的关系,而可靠性与芯片缺陷有直接关系,因此,减少芯片生产过程中的缺陷数量可以提升基准良率,同时可以提高器件的可靠性。

为了提高可靠性,需要投入时间、资金和相关资源,以提高良率,这就需要进行权衡,因为不同类型芯片对可靠性的要求不同,与之对应的资源投入也不同,这也会直接影响利润。例如,消费类电子产品用芯片对可靠性要求没有那么高(与工业和汽车芯片相比),因此,对于这类芯片,达到一定良率之后,晶圆厂不会做再高的追求,而是将资源分配到开发下一个节点的制程和设备,这样可以提高成熟节点的盈利能力。而对于高可靠性要求的芯片(如车用芯片,其可靠性要求比消费类芯片高两至三个数量级),晶圆厂必须追求更高的基准良率水平,也就需要在制程工艺和设备方面投入更多资源。不过,高性能与高良率之间是存在矛盾关系的,很难兼顾。

对于晶圆厂而言,大多数影响良率的系统性问题都已解决,实际良率损失主要是由制程设备或环境的随机缺陷造成的。为了检测出可靠性缺陷,晶圆厂的产线必须具备相应的制程控制设备和检测取样机制,采用的缺陷检测系统必须具备所需的缺陷灵敏度,并维护良好且达到规格。检测取样必须针对制程步骤达到足够的频次,以快速检测到制程或设备的偏移。此外,必须有足够的检测产能用以支持加速异常侦测。

在实际操作过程中,常见的难点是精确找出基准缺陷的出处,有时,缺陷产生之后经过多个制程步骤才被检测到,这对设备监控系统和机制的要求很高,做不好的话,常常找不出问题的根源在哪。为了解决这个问题,系统会先检测一片晶圆,使其在指定的制程设备中运行,然后再次检测,第二次检测发现的任何新缺陷必定是由该指定的制程设备产生的,这样,就可以找出缺陷的根源所在。因此,设置好一套灵敏的检测机制,可以揭示源自每个制程设备的随机良率损失并将其解决。

此外,晶圆厂可以对每个设备上出现的缺陷进行分类,并生成资料库,可作为现场故障的失效分析参考。这种方法需要非常频繁的设备认证(至少每天一次)。

通过以上这些措施和方法,晶圆厂可以有效控制缺陷,从而提升芯片良率水平。当然,除了这些,晶圆厂还有其它提升良率的方式方法,这里就不再赘述了。

除了晶圆厂产线的流程控制,产业链上游的半导体材料厂商,特别是硅晶圆厂商,也可以通过创新技术,在晶圆层面为提升良率提供保障。

例如,来自韩国科学与信息通信技术部下属的韩国机械与材料研究所(KIMM)和新加坡南洋理工大学(NTU)的科学家开发了一种技术——新型纳米转移印刷技术(Nanotransfer-basedprinting),它可以制造出高度均匀的硅晶圆。他们将无化学粘合剂打印技术与金属辅助化学蚀刻相结合,可以用于增强表面对比度以使纳米结构可见。

这种纳米转移印刷技术是通过在相对低温(160°C)下将金(Au)纳米结构层转移到硅衬底上,形成具有纳米线(nanowires)的高度均匀的晶圆,以实现在制造过程中控制所需的厚度。这种技术允许快速、均匀、大规模制造晶圆,同时,制造的晶圆几乎没有缺陷,生产出的芯片良率非常高。在实验室测试中,能够将99%的20nm厚Au薄膜转移到6英寸晶圆上。当采用该方法加工6英寸晶圆时,结果显示印刷层保持完整,在蚀刻过程中弯曲最小,证明该Nanotransfer-basedprinting技术具有出色的均匀性和稳定性。

KIMM-NTU团队认为该技术可以很容易地扩展到12英寸晶圆上,而这是三星,英特尔、台积电和GlobalFoundries等晶圆厂产线中的主流晶圆尺寸。

性能与良率之争

谈到芯片良率,就不能不谈性能,因为这两者之间是存在矛盾关系的。在消费类电子产品芯片大行其道的时代,良率占绝对上风,因为消费电子产品对性能的要求没那么高。但随着近些年消费电子市场的疲软,相应地,高性能计算(HPC)、汽车电子市场快速发展,且潜力巨大,而这些类型的芯片对性能要求极高,此时,良率就不得不做些让步了,因为在绝对高性能的量产要求下,良率不可能做得像消费类芯片那么高。

这样,各种新型芯片架构就涌现了出来。最具代表性的,也是最极端的就是Cerebras的晶圆级大芯片。

2019年8月,人工智能初创公司Cerebras Systems发布了Cerebras Wafer Scale Engine(WSE)处理器,这是一个超大芯片,由一个12英寸晶圆制成。而传统芯片则很小,一个12英寸晶圆可以制造出三、四百个芯片。

WSE拥有1.2万亿个晶体管,专门面向AI任务开发,这颗巨型芯片,面积达到42225平方毫米。

通常情况下,晶圆厂不会制造这么大的芯片,因为在单个晶圆的加工过程中通常会出现一些杂质,杂质会直接影响芯片良率,而单个芯片越大,整体良率越低。像Cerebras这么大的芯片,其良率保障是个凸出的问题。不过,Cerebras Systems公司表示,其设计的芯片留有冗余,一种杂质不会导致整个芯片都不能用。

2021年4月,Cerebras Systems公司又推出了WSE的升级版WSE-2,集成了2.6万亿个晶体管。该公司称设计出了一个可以绕过任何制造缺陷的系统来实现100%的良率,最初,Cerebras有1.5%的额外内核允许缺陷的存在。

之所以会出现WSE这样的超大芯片,原因在于,高性能计算市场对性能的敏感度高于价格,高性能计算市场的主要客户并非C端,而是B端的行业客户,他们对成本不敏感,最关心的是性能。特别是近些年,AI在云计算市场的应用风起云涌,云端AI芯片的客户主要是谷歌这样的互联网巨头,在这些巨头眼里,算力就是王道,它们对算力的追求几乎是无止境的,这一点和信奉“够用就好”的消费电子市场完全不同。

当然,像Cerebras Systems公司这样的芯片属于极端案例,大多数情况下,高性能计算市场的芯片尺寸还是在传统范围以内。但良率与性能之间的矛盾问题还是有增无减。需要有新的解决方案。

此时,Chiplet应运而生,它在兼顾性能和良率方面有独到之处。如果要提升性能就必须减少片外通信,而想提升良率则必须保证单一芯片面积不能太大。Chiplet方案恰恰能同时兼顾这两点。Chiplet可将单一芯粒(die)面积做小(确保良率),并用高级封装技术把不同的芯粒集成在一起。这样,芯粒之间的通信并不需要走PCB板,可以在封装内进行,这就大大降低了片外通信的开销。AMD最先在数据中心商用了Chiplet方案,且取得了良好的效果,看到商机后,英特尔也在跟进,开发了一整套先进制程工艺和封装技术。

总之,在先进制程不断迭代的今天,芯片良率问题变得越来越突出,与此同时,高性能需求也在给良率找麻烦。一切都好难,能够玩转这些的厂商恐怕会越来越少。

上一篇新闻

芯片人才短缺五大成因

下一篇新闻

比特大陆“分叉”硅原大陆,将会带来哪些影响?

评论

订阅每日新闻

订阅每日新闻以免错过最新最热门的新加坡新闻。