剖开芯片，了解英特尔Chiplet设计和下一代工艺

来源：icbank）编译自semianalysis，谢谢。

在这篇文章中，Locuza和SemiAnalysis 将分享和分析英特尔 Meteor Lake 计算模块在Intel 4 节点上的试片。通过这个die shot，我们可以分析内核、缓存和结构中的各种结构，我们可以使用这些结构来确定与 Intel 7 节点相比，面积仅减少了大约 40%。这种实现的密度提升与英特尔之前声明的Intel 4 工艺节点将拥有的 2 倍理论密度提升非常不同。
Intel 4 是 Intel 首个采用 EUV 的制程技术，应该标志着 Intel 重返与台积电在制程技术上的竞争。我们还将讨论 Meteor Lake 和 Arrow Lake 的系统架构，以及重新设计的 Redwood Cove 和 Crestmont 核心中的核心架构变化。
最后，我们将讨论产能爬坡时间表，竞争定位，以及对制造成本的一些担忧。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
在几周前，英特尔举办了他们自己的名为 Vision 的会议，会议涵盖了广泛的主题，包括当前和即将推出的产品。SemiAnalysis 能够参加并与英特尔的人们进行了许多精彩的讨论。最有趣的事情之一是Pat Gelsinger在回答我们的问题时直截了当地表示，他将收购更多的 SAAS 公司。其他亮点包括能够查看英特尔的一些产品并亲自向工程师询问技术问题。
我们的亮点之一是有机会为各种英特尔产品拍照！在这里，我显然很高兴地拿着一些英特尔的网络产品，Tofino 2、Tofino 3 和 Mount Evans IPU（DPU）。虽然我们还不能深入谈论 Tofino 3 的功能，但它是世界上最大的 BGA 封装。换句话说，那是很多硅。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
展会上最有趣的实物是硅晶片。其中包括 Alder Lake 桌面 CPU、下一代 Sapphire Rapids 数据中心 CPU 和下一代 Meteor Lake 计算tiles。他们还展示了他们的intel 20A 和英特尔 18A 工艺技术的一些测试晶圆。虽然我们自己拍了几张Meteor Lake的照片，但我们在Comptoir-Harware的朋友们却能拍到更好的照片！他们能够使用 Meteor Lake 晶圆并放大到晶圆上的单个芯片。这张图片是我们将要进行的大部分分析的基础。
使用 Meteor Lake 晶圆、封装和封装过程视频的第一方和媒体图像，我们可以确定英特尔在 Meteor Lake 上使用的小芯片的各种裸片尺寸。由各种 CPU 核心块以及一些相关结构组成的计算块只有约 40mm 2。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
其他die的尺寸为~174mm 2、~10mm 2、~95mm 2和~23mm 2。这些芯片中的每一个的确切用途都没有得到证实，但我们相信我们相信它们是用于 IO、SOC 和 GPU 的。我们将在本文后面的部分中深入探讨其中的每一个。
首先，让我们谈谈计算tile。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
Locuza能够识别和注释芯片上的大多数结构，包括 2 P Redwood Cove 内核、8 E Crestmont 内核以及连接到环形总线（ring bus）的最后一级缓存。
这是我们要注意分析并不完美的地方，并且有一些警告。Meteor Lake 图像是使用标准 DLSR 相机拍摄的。Locuza 能够纠正一些因素，比如离轴倾斜（off axis tilt），但它仍然不是最理想的并且限制了准确性。这些图像不是最高分辨率的，因为它们是在展厅而不是在实验室中完成的。划线余量（scribe line margin）和其他一些因素也存在不确定性。这使我们相信die中结构的潜在误差范围在中高个位数范围内。并非所有结构和结构尺寸都保证 100% 正确，但我们相信我们准确地表示了物理布局设计。我们将完全按照测量的方式呈现数据。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
左边是当代Alder Lake的Golden Cove，右边是Meteor Lake的Redwood Cove。从高层次来看，Redwood Cove 似乎并没有显著改变，大多数子单元看起来与以前非常相似，没有改变位置或相对大小比例。在许多结构中，Redwood Cove 主要是一种工艺技术缩小，但仍有不少立即可见的架构变化应该有助于 IPC 和性能。
例如，L1 缓存似乎相对较大（图像分析表明 40KB 到 45KB），因此我们认为它可能会从当前的 32KB 增加到 48KB。L2 缓存似乎已从 1.25MB 增长到 2MB。L2 缓存的这种变化似乎也将出现在今年晚些时候推出的英特尔 Raptor Lake 中。
英特尔可能确实改进了分支预测逻辑，尽管缓冲区大小似乎（大部分）相同。这种结构基本上是每一代核心的频繁调整点。加载和存储缓冲区似乎也更大，因此可以期待更好的内存子系统。乱序区域和分支预测单元之间的区域有几个块看起来比以前大。FPU 设计看起来几乎相同，而AVX512基于指令的各种软件指标似乎相对没有变化。FP 和 INT reg 文件似乎也没有太大，因此我们预计条目大小不会大幅增加。
最后，有一些块的布局经过重新设计，包括 SRAM 放置以在垂直方向而不是水平方向占用更多空间。我们将需要第一方架构讨论以及来自网站的深入微基准测试，例如薯条和奶酪真正知道发生了什么变化。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
区域比较是事情开始变得有争议的地方。
如图所示，整个核心的总面积减少了约 25.17%（密度提高了 1.34 倍）。由于几个原因，各个区块的相对微缩率不同。一是两个内核之间存在明显的架构变化，因此总面积的比较不是直接比较。另一个原因是 SRAM 和逻辑的收缩量不相等，所以即使结构相同，我们也会根据块的组成得到不同的微缩倍数。所以我们能够根据来自 Nvidia 大泄漏的规格和模拟来估计 Nvidia 的下一代 Lovelace 架构的芯片尺寸时，将对此进行更详细的讨论。
纯工艺最与架构无关的比较是Intel 4 和Intel 7 上 256 KB 的二级缓存之间的大小差异。我们的数据显示面积减少了 26.5%（密度提高了 1.36 倍）。实现的缩小与英特尔声称的高密度 SRAM 单元非常相似，尽管需要注意的是 L2 缓存可能使用更高性能的 SRAM 单元并包含一些逻辑，例如辅助电路。单个子单元面积减少最多的是 INT Reg 文件，接近 40%（密度提高了 1.65 倍），因此我们将其设置为实现工艺密度提高的上限。这远低于声称的 2 倍收缩。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
我们可以用于密度比较的计算tile上的另一个主要结构是 E 核。左边是来自 Alder Lake 的 Gracemont，右边是来自 Meteor Lake 的 Crestmont。从架构上看，除了 L2 缓存现在看起来是 3MB 而不是 2MB 之外，从这个比较中无法得出什么结论。奇怪的是，一些泄漏表明 Raptor Lake 在 E 核心上移动到了 4MB L2，这将使 Meteor Lake 的 3MB 处于一个奇怪的中间地带。Raptor Lake的细节尚未得到证实。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
Crestmont 在视觉上似乎没有对核心进行重大架构更改。面积减少约 34%（密度提高 1.52 倍）支持了这一说法。共享 L2 缓存主要由 SRAM 组成，因此该块的收缩较小。整个 E 核心簇的面积减少了约 29%（密度提高了 1.4 倍）。具有 L2 缓存的 Golden Cove 比没有共享 L2 的 Gracemont 大约 4.48 倍。随着 Meteor Lake，这两个核心之间的尺寸差异越来越大。Redwood Cove 比 Crestmont 大约 5.1 倍。英特尔的 E 核心战略非常适合最大限度地提高每单位硅面积的性能。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
CPU 计算块只是 Meteor Lake 中总硅片的一小部分。只有 CPU tile位于 Intel 4 制程节点上。基础图块被认为是使用intel 7 节点的低成本和 Foveros 。鉴于英特尔在 Foveros 上对其进行了品牌推广，该基础 tile 应该是活动的，但似乎英特尔正在让大部分基础 tile 处于被动状态，因为有源元素似乎位于其他小芯片上。我们可以分配给此图块的唯一功能似乎是供电和连接各种小芯片。该芯片上最大的芯片是“SOC”块。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
我们相信 SOC tile是现有 CPU 芯片和 PCH 上的 IP 的组合。使用 Meteor Lake，没有 PCH/芯片组。目前，PCH 建立在 14nm 工艺节点上，作为降低额外 IP 成本的一种方式。Alder Lake 手机上的 PCH 为 54mm 2并包含 IP，例如更多 PCIe 通道所需的 IO、USB 端口、SATA、英特尔管理引擎和 Wi-Fi 所需的数字逻辑。我们相信所有这些也将包含在 SOC tile中。此外，目前 CPU 上还有许多其他逻辑可以移到那里。Alder Lake P 左侧的整个非核心区域（TB4、显示 PHY、PCIe PHY、数字控制逻辑、图像处理单元、GNA AI 加速器、系统代理和内存控制器）占用 55.9 平方毫米。该 IP 的大部分将移至 SOC 块，部分 IP 将移至 10mm² IO 块。
总的来说，我们相信这是14nm的 54mm 2和约 40mm 2的非核心intel 7 硅片将被整合到 SOC 芯片中。芯片组上会有一些冗余区域，但考虑到英特尔可能会增强其中一些 IP 块。所有这些 IP 都非常适合 SOC 块的测量值 ~94.9 mm 2 ，即使它位于稍旧的节点上。我们相信英特尔将在这里再次使用 14nm 或 16nm 级节点，但有传言称他们可能会在此块上使用台积电 N6 节点。
对于 10mm² IO tile，我们听到了关于 Uncore IP 位于此处的相互矛盾的传闻。一些业内人士建议将 Thunderbolt 4 和显示引擎移至此处，而其他人则建议将内存控制器设在此处。这两种选择都是可能的。4x Thunderbolt 端口，显示引擎在 Alder Lake P 上约为 20mm 2。Alder Lake P 支持 DDR4、DDR5、LPDD4x 和 LPDDR5，并使用 16.7mm²，其中 I/O PHY + 互连分为约 6.8mm² 和9.9mm²对于内存控制器。
这些 IP 块中的任何一个都可以紧密地安装在 10mm² I/O 块中，但先进的封装显着提高了 IO 密度，并且更 IP 优化的工艺节点可以解决这个问题。此外，英特尔可能会放弃对 DDR4 和 LPDDR4x 的支持，这可能会节省一些空间。Alder Lake M 有 2 个 Thunderbolt 端口，而 Alder Lake P（实测）有 4 个。英特尔可以在 Meteor Lake M 上保留 2 个 Thunderbolt 端口，并在 Meteor Lake P 上减少到 2 个 Thunderbolt 端口。有传言说 IO tile 使用了台积电工艺节点，但我们还不太确定那个谣言。台积电使用量出现如此大幅增长令人难以置信，但这是可能的。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
至于 GPU，英特尔表示 Meteor Lake 将拥有从 96EU 到 192EU 的图形。我们认为已经展示的Meteor Lake包括 64EU 或 96EU。GPU 驱动程序代码似乎表明有效配置是 64EU、128EU 和 192EU，而英特尔幻灯片显示 96EU 和 192EU。更多关于英特尔如何实现 192EU 的信息。在 Alder Lake 上，96EU 和 2 个媒体引擎在 Intel 7 节点上总共是 42.5mm 2 。随着英特尔 DG2 Alchemist GPU 中出现的各种架构更改（例如 AV1 编码支持、指令缓存从 48KB 增加到 96KB、向量寄存器文件从 28KB 增加到 32KB、浮点专用问题端口），该区域可能会增长更多和整数 ALU、RT 硬件和 1024 位矩阵引擎。
起初，这似乎是一项艰巨的任务，但 SemiAnalysis 可以确认英特尔正在将台积电的 N3B 节点用于 Meteor Lake GPU 块。通过这种收缩，64/96EU 可以安装在 ~23mm 2上。与台积电的 N5 相比，N3B 的体积缩小了很多，台积电的 N5 已经比intel 7 密集得多。有些人可能会质疑为什么台积电会将其最先进节点的晶圆分配给英特尔，但这是有道理的。我们还深入研究了该决定以及英特尔去年将在台积电制造的基础 IP。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
这是一个说明图，说明了英特尔可以做些什么来使 GPU 显著超出 Foveros 中介层允许的大小。正如我们在高级封装的深入研究中所解释的那样，Foveros Omni 将允许对封装进行悬垂和其他增强，特别是在功率传输和设计灵活性方面。这将是与标准 Foveros 不同的封装流程，标准 Foveros 是晶圆上的芯片流程。对于 Foveros Omni，这种流程似乎是不可能的。英特尔之前曾表示，Foveros Omni 将于 2023 年投入生产。此外，他们还表示这是一款客户端移动产品。
就 Meteor Lake 的推出而言，这是有道理的。Meteor Lake 整体将于 2022 年开始生产，但这并不意味着所有变体。OEM 的朋友告诉我们，他们首先会获得 GPU 性能较低的移动 CPU，但今年晚些时候将会有更高 GPU 性能的移动 CPU。我们将在仅限订阅者的部分更多地讨论 Meteor Lake 的推出和斜坡。
借助 Foveros Omni，英特尔可以设计具有更多执行单元的更大 GPU，并将其封装在同一个 Meteor Lake P 封装中。该 GPU 将具有铜柱，可直接从基板和成型提供电力，以帮助结构完整性。这种先进的封装方法使英特尔能够在有意义的地方销售更小、更便宜的 GPU，但当他们想要扩展到更高的性能水平时，不必重新设计那么多的芯片。这将需要重新设计封装工艺流程、GPU 块和基板，但这比重新设计一切的替代方案便宜得多。Foveros Omni 也可能是一种扩展 CPU 核心数量的方法，但我们还没有听说过英特尔计划如何扩展到 2P 核心和 8E 核心之外的任何消息。我们确实知道英特尔计划在移动设备和台式机上增加内核数量。
我们从英特尔的 VisiON 事件中捕获的最后一条信息与 Meteor Lake 的最终封装有关。我们拍了Meteor Lake底部的照片。我们会为您保存图片，如果它们很无聊，但我们可以从中收集到的细节很有趣。
剖开芯片，了解英特尔Chiplet设计和下一代工艺
首先，M Type 4 封装对于 Meteor Lake 来说要小得多。这可能是因为英特尔正在通过这种设计追求更小的外形尺寸。过去，英特尔曾表示 Meteor Lake 将从 5W 一路缩减至 125W。目前，Alder Lake 声称在 Type 4 封装中可以缩小到 9W，但我们还没有看到任何采用这种配置的设备。
除了缩小 X 和 Y 尺寸之外，我们认为英特尔还非常注重压缩 Z 尺寸。由于这种高密度封装设计，最终可以在 x86 架构上实现 5W 到 10W 级的轻薄和高性能设备。与 Alder Lake M 相比，Meteor Lake M 封装的焊盘数量要多得多。虽然这可能是由于更多的 IO 和保留/未使用，但这并不是唯一的解释。
我们在Angstronomics的朋友向我们解释说，更薄和更密集的封装需要更多的焊盘，因为它们整合电源和接地的空间更小，这意味着更多的专用焊盘可以为芯片的每个特定区域供电。更紧密的凸块间距也意味着更小的焊盘，其表面积更小，每个焊盘的功率传输能力更低，因此需要更多的焊盘。
总的来说，Meteor Lake 是一个有趣的建筑和设计。它标志着英特尔的许多首创，包括大批量 Foveros（对不起，Lakefield 和 Ponte Veccio 不算在内）、使用intel 4 工艺节点的 EUV 以及台积电 N3B 工艺节点的实现。它标志着英特尔系统架构的完全重新设计，这将在未来的架构（如 Arrow Lake）中得到反映。正如我们与 GPU 讨论的那样，chiplet tile 架构帮助英特尔完全独立地验证和开发单独的 IP，甚至根据产品定位和时间表切换 IP。
Meteor Lake 分析中最具开创性或可能令人失望的方面是，与 Intel 7 相比，Intel 4 似乎只减少了不到 40% 的面积（密度提高了 1.67 倍）。而 SRAM、逻辑和模拟往往以非常不同的速度缩小跨进程节点，即使是我们可以识别为相同的最小子单元似乎也远远低于传统的全节点理论缩放。正如我们之前所展示的，像 256KB L2 SRAM Block 这样的 SRAM 重 IP 似乎只减少了 26.5% 的面积（1.36 倍的密度提升）。
根据 Intel提交给 VLSI 的论文，Intel 4 具有 50nm 栅极间距、30nm 鳍片间距、40nm 最小金属间距、16 个金属层、较低层的增强铜以降低线路电阻，以及 8 个 VT 选项 (4N+4P)。高密度 SRAM 单元尺寸现在在 Intel 4 上为 0.024um 2，在 TSMC N5 上为 0.021um 2 ，在 Intel 7 上为 0.0312um 2。即使根据 SRAM 密度，Intel 仍落后于 TSMC 已有 2.5 年历史的 N5 工艺技术到官方说法。英特尔仅在其高密度 SRAM 单元上实现了 23.08% 的面积减少（密度提高了 1.3 倍）。
SRAM 缩放的问题也不独立于英特尔。SRAM 扩展性差的一个具体例子是台积电的 N5 工艺技术。TSMC 引用 SRAM 缩放比例为 1.35 倍，而纯逻辑为 1.8 倍。SRAM 缩放的崩溃对行业产生了可怕的影响。尽管英特尔 4 似乎并没有完全缩小现实世界的密度，但它仍然领先于台积电和苹果从 N7 到 N5的 1.49倍，以及台积电和英伟达从 N7 到 N5 的 1.5 倍。因此，英特尔缩小似乎确实是 SRAM 扩展问题范式中的全节点扩展。英特尔 4 工艺节点名称的名称有点奇怪，尽管台积电 N5 的高密度 SRAM 实际上比英特尔 4 的密度提高了 1.14 倍。