遗憾的是,没有。如果现在开始,美国需要瞄准至少2次expaflop,因为从设计到实际运行硬件大约需要两三年的时间。
坐在新加坡,我处于不寻常的位置,参观了中国的1号和2号超级计算机网站,会见了他们的设计师,还熟悉了美国通常的TOP500网站以及他们的一些计划。
作为美国公民,我觉得差距令人沮丧。中国人已经在准备一个1 exaflops系统,他们的设计非常出色,而且越来越好。当美国推出200 petaflops系统时,中国人几乎肯定会有一个围绕它运行的系统。
虽然从2001年到2016年,美国经济增长缓慢,但中国经济增长非常快,在某些特定领域,它们实际上超过了美国,超级计算就是其中之一。他们的超级计算机工程师做了很多正确的事情:
- 他们愿意花掉在这个竞技场上竞争所需的大量资金。
- 他们没有与x86处理器的生态息息相关,而是创建了一个硬件软件堆栈(主要基于Alpha处理器及其许可的相关软件),该堆栈每瓦特功率的速度要快得多。Alpha处理器每个时钟的指令数量大约是x86处理器的两倍。
- 他们对物理设计采取了整体方法,从建筑结构到冷却系统再到定制橱柜设计,而不是仅限于这些挑战的易于获得和低成本的解决方案。
- 他们购买或授权了美国技术,并挑选了最好的想法,然后将它们与自己精明的想法相结合。
我可能应该注意到,我的同事Jack Dongarra写道,太湖之光不是基于Alpha处理器。恕我直言,他应该请一位说普通话的研究生阅读尚未翻译成英语的太湖之光论文。Alpha的使用出现在原文中,但没有出现在英文翻译中......我周围都是双语的新加坡人,他们可以证实这一点!设计师可能会被指控窃取美国技术,因此他们不再强调设计的这一方面。他们不应该。太湖之光很容易创新,不仅为设计师赢得了一个,而是赢得了两个戈登·贝尔奖。
太湖之光的每个处理器看起来都像芯片上的Cray T3D。Cray T3D是一个基于Alpha处理器的灵活系统,许多HPC的人认为这是有史以来最好的超级计算机之一。
大多数超级计算机都受到严重的通信约束;T3D要小得多,系统平衡异常良好,延迟互连,因此更容易保持峰值额定速度的高比例。想象一下,一个芯片上的256处理器T3D(以及四个为该阵列服务的处理器),以及一个巧妙冷却的柜子,将数百个柜子紧密地聚集在一起,还有满屋子的这些柜子,你有一个系统,可以让美国能源部和美国宇航局实验室装进去。
如果美国真的想回到游戏中,而不仅仅是追赶,他们需要打破用带有GPU加速器的x86处理器填充标准机架的范式。通过重新思考一切,我们可以对每个焦耳的操作进行一个数量级的改进。如果我这样做,我会使用一个没有缓存、没有指令展望或推测执行或分支预测的超长指令Word(VLIW)处理器,探索使用具有16级逻辑的氮化镓而不是硅CMOS,从IEEE浮点更改数字表示以假设算术,将柜子每通道每秒TB和全横杆的自由空间光学连接起来,仅使用堆叠内存并广泛使用处理器RAM和ROM,并宣布其为“月球拍摄”,以使该系统在2022年之前正常工作。这就是历史上超级计算所有重大突破的方式......通过愿意改变范式。目前,事实证明,中国人比美国人更善于打破传统思维。