在田纳西州东部的山区,一台名为 Frontier 的破纪录机器为科学家们提供了前所未有的机会,让他们可以研究从原子到星系的一切事物。
田纳西州橡树岭
世界上最快的超级计算机是一台名为 Frontier 的机器,但即使是这台拥有近 50,000 个处理器的 speedster 也有其局限性。在 4 月一个阳光明媚的星期一,它的功耗正在飙升,因为它试图跟上世界各地科学小组要求的工作量。
Frontier 位于田纳西州橡树岭国家实验室 (Oak Ridge National Laboratory) 的领导计算设施 (Leadership Computing Facility) 的科学主任布朗森·梅塞尔 (Bronson Messer) 说,电力需求峰值约为 27 兆瓦,足以为大约 10,000 户家庭供电。Messer 的声音中带着自豪,他用了一个当地术语来描述超级计算机的工作效率:“他们像一只被烫伤的狗一样运行着机器。
Frontier 以创纪录的速度处理数据,超过了 100,000 台笔记本电脑同时工作的速度。当它于 2022 年首次亮相时,它是第一个突破超级计算的百亿亿次级速度障碍(执行 exaflop 或 10 的能力)的产品18浮点运算数。橡树岭(Oak Ridge)庞然大物是数十年来全球推动大型超级计算机发展趋势的最新榜首(尽管军事实验室或其他秘密设施中可能存在更快的计算机)。
但速度和规模对于 Frontier 的主要目标——突破人类知识的界限——来说是次要的。Frontier 擅长创建模拟,以捕获具有小尺度细节的大尺度模式,例如微小的云滴如何影响地球气候变暖的速度。研究人员正在使用超级计算机创建从亚原子粒子到星系的所有事物的尖端模型。一些项目正在模拟蛋白质以帮助开发新药,对湍流进行建模以改进飞机发动机设计,并创建开源大型语言模型 (LLM) 以与 Google 和 OpenAI 的人工智能 (AI) 工具竞争。
来自世界各地的研究人员登录 Frontier。2023 年,这台超级计算机在 18 个国家/地区拥有 1,744 名用户。而且,到 2024 年,Oak Ridge 预计 Frontier 用户将根据机器上执行的计算发表至少 500 篇论文。
“Frontier 与詹姆斯韦伯太空望远镜没有什么不同,”橡树岭国家实验室的生物物理学家 Dilip Asthagiri 说。“我们应该把它看作是一种科学仪器。”
机器内部
Frontier 的大脑位于一个仓库大小的房间里,到处都是稳定的电子嗡嗡声,轻柔到可以交谈。房间里有 74 个相同的亮黑色机架,总共容纳 9408 个节点。这些是超级计算机的主力。每个节点由四个图形处理单元 (GPU) 和一个计算机处理单元 (CPU) 组成。
制造超级计算机的惠普公司 (Hewlett Packard Enterprise) 的技术人员科里·埃德蒙兹 (Corey Edmonds) 说,工程师团队会持续监控机器是否有故障迹象。Edmonds 住在橡树岭,这一天正在 Frontier 进行维护手术。在修复其中一个节点上损坏的连接器后,他将注射器中的灰色导热硅脂挤到一个银色矩形上,这是该节点的四个 GPU 之一。这有助于 GPU 快速散热并保持凉爽。
Frontier 的速度主要归功于它对 GPU 的广泛使用。这些芯片最初是为计算机游戏玩家渲染逼真的图形而开发的,现在正在通过机器学习应用程序推动 AI 的进步。
“他们可以跑得非常快,”Messer 说。“他们也非常愚蠢。”GPU 擅长一次处理多个数字,而其他数字则不多。“它们可以一遍又一遍地做一件事,”他说,这使得它们对于快速进行超级计算机计算非常有用。
研究人员必须自定义他们的代码才能利用 Frontier 的 GPU。Messer 将第一次使用 Frontier 的科学家比作郊区司机征用赛车。“它有一个方向盘、油门踏板和一个刹车,”他说。“但试着让普通车手坐上一级方程式赛车,然后让他们从这里到那里。”
大科学
研究人员要有机会使用 Frontier 并不容易。Messer 和三位同事将在 4 月的这个星期一聚在一起,评估该机器的研究提案。平均而言,他们批准了大约四分之一的提案,去年为 131 个项目分配了时间。特别是,申请人需要证明他们的项目可以利用超级计算机的整个系统。
他们提供的最常见分配是大约 500000 个节点小时,相当于连续运行整个机器三天。他们最大的分配量是 4 倍。Messer 说,获得 Frontier 时间的研究人员获得的计算资源大约是他们在其他任何地方获得的十倍。
今天,他的团队每周发放一次大约 20,000 个节点小时的较小奖励。许多项目利用 Frontier 的功能同时对各种空间和时间尺度进行建模。Frontier 每年总共有大约 6500 万个节点小时可用。

例如,科学家们希望使用 Frontier 来模拟原子精确的生物过程,例如溶液中的蛋白质或核酸与细胞其他部分相互作用。
今年 5 月,Asthagiri 和 Oak Ridge 的高性能计算工程师 Nick Hagerty 使用 Frontier 模拟了包含超过 1550 亿个水分子的立方体形液态水滴。“这是为了推动机器,”Asthagiri 说。模拟的立方体大约是人类头发宽度的十分之一,该模型是有史以来最大的原子级模拟之一,Asthagiri 说,他尚未在同行评审期刊上发表这项工作。
这些初始模拟正在朝着更雄心勃勃的目标发展,以模拟从原子开始的整个单元。在短期内,研究人员希望模拟细胞器并将其用于实验室实验。他们还致力于将 Frontier 的生物材料高分辨率模拟与使用 X 射线自由电子激光器的超快速成像相结合,以加速发现。
有了 Frontier,气候模型也变得更加精确。2023 年,橡树岭气候科学家马特·诺曼 (Matt Norman) 和其他研究人员使用超级计算机运行了分辨率为 3.25 公里的全球气候模型。Frontier 的计算能力对于他们在此分辨率下创建长达数十年的预测是必要的1.该模型还结合了云的复杂运动的影响,这种运动发生在更精细的分辨率上。“Frontier 花了整个团队来做这件事,”Norman 说。
他说,模型在其他计算机上运行得要慢得多,才能达到相同的分辨率,同时包括云的影响。这种限制是气候科学家寻求预测条件的主要障碍,因为云的行为会影响全球能量的移动。
要使模型可用于天气和气候预报,它需要每天至少运行一个模拟年。对于此模型,Frontier 每天可以运行 1.26 个模拟年,这一速度将使研究人员能够创建比以前更准确的 50 年预测。
Frontier 还为宇宙学尺度带来了更高的分辨率。宾夕法尼亚州匹兹堡大学(University of Pittsburgh)的天体物理学家埃文·施耐德(Evan Schneider)正在使用这台超级计算机来研究银河系大小的星系如何随着年龄的增长而演变。Frontier 的星系模型跨越四个数量级,一直到大小约为 100,000 光年(30,660 秒差距)的大规模星系结构。在 Frontier 之前,她能以可比分辨率模拟的最大结构是矮星系,其质量约为其质量的五十分之一。
Schneider 模拟了超新星如何导致气体从这些星系中泄漏.随着时间的推移,数千到数百万次超新星爆炸共同释放出大量气体,最终离开银河系.因为这种气体是新恒星诞生的原材料,所以恒星的形成会随着星系的年龄增长而减慢。Frontier 允许 Schneider 包含比其他计算机实际效果更热的气体的影响。她的模拟表明,目前的宇宙学模型低估了这种热气体在星系演化中的作用。
AI 研究人员也在争先恐后地使用 Frontier 的 GPU,这些 GPU 以其在训练基于神经网络的架构(例如支撑 ChatGPT 的转换器模型)中的作用而闻名。Frontier 拥有近 38000 个 GPU,在 AI 研究领域占据了独特的公共部门角色,否则该领域将由工业界主导。
目前在费耶特维尔的阿肯色大学(University of Arkansas)的经济学研究员努尔·艾哈迈德(Nur Ahmed)和他的同事在去年的一篇评论中强调了学术界和工业界的人工智能之间的差距.2021 年,96% 的大型 AI 模型来自工业界。平均而言,行业模型的大小几乎是学术模型的 30 倍。这种差异在货币投资方面也很明显。2021 年,美国非国防机构提供了 15 亿美元来支持人工智能研究。同年,工业界在全球的支出超过 3400 亿美元。
注意差距
Ahmed 说,自从商业大型语言模型发布以来,这种差距只增不减。例如,训练 OpenAI 的 GPT-4 的计算资源估计花费了 7800 万美元,而谷歌花费了 1.91 亿美元来训练 Gemini Ultra(见 go.nature.com/44ihnhx)。这种投资差距导致工业界和学术界研究人员可用的计算资源明显不对称。
工业界正在突破基础人工智能研究的界限,这可能会给该领域带来问题,艾哈迈德和他的合著者写道。研究人员表示,行业主导地位可能导致缺乏基础研究,而这些研究不会立即产生利润,并导致人工智能技术的发展忽视了低收入社区的需求。在一项未发表的研究中,Ahmed 分析了 600 万篇同行评议文章和 3200 万次专利引用,发现“平均而言,工业界往往会忽视南半球边缘化人群的一些担忧”。
更重要的是,许多模型存在性别和种族偏见问题,这在几个基于 AI 的商业人脸识别系统中发现的那样。Ahmed 说,学者可以充当审计员来评估 AI 模型的风险,但要做到这一点,他们需要获得与工业相同规模的计算资源。
这就是 Frontier 的用武之地。一旦 Oak Ridge 批准了项目申请,研究人员就可以免费使用超级计算机,只要他们发布结果即可。这将有助于大学研究人员与公司竞争,马里兰大学帕克分校的计算机科学家 Abhinav Bhatele 说。“学术界人士训练类似大小的模型的唯一方法是他们能够获得像 Frontier 这样的资源,”他说。
Bhatele 正在使用 Frontier 开发开源 LLM,以对抗行业模型.“通常,当公司训练他们的模型时,他们会保持它们的专有性,并且不会发布模型权重,”Bhatele 说。“通过这项开放研究,我们可以免费提供这些模型供任何人使用。”在接下来的一年里,他和他的团队的目标是训练一系列不同大小的 LLM,他们将使这些模型及其权重开源。他们还免费提供了用于训练模型的软件。Bhatele 说,通过这种方式,Frontier 在该领域的人工智能“民主化”运动中发挥着至关重要的作用,让更多人参与到技术开发中。
比赛仍在继续
距离 Frontier 的房间仅几步之遥,其前身仍在努力为世界各地的科学家工作。这台名为 Summit 的机器在 2018 年至 2019 年期间保持着速度世界纪录,目前是世界上公共机器中速度第九快的超级计算机。Summit 拥有长长的黑色镀铬机架,类似于 Frontier,但具有更响亮的冷却系统,工作速度仅为八分之一。
Summit 的历史暗示了 Frontier 的未来。Frontier 在 2022 年首次位居榜首,并且很可能很快就会放弃这个位置。排名第二的超级计算机 Aurora 位于伊利诺伊州的阿贡国家实验室,通过进一步优化,预计在某个时候将超过Frontier的性能。劳伦斯利弗莫尔国家实验室的 El Capitan 计划于今年晚些时候在位于加利福尼亚州的实验室上线,预计最终也将击败 Frontier。Jupiter 也是其中之一,这是德国的一台百万兆次级超级计算机,将于今年晚些时候首次亮相。
日益加剧的地缘政治紧张局势使排名进一步复杂化。Frontier 的称号来自它在一家名为 TOP500 的组织的半年一次排名中的位置。它根据世界上的超级计算机在涉及求解一组密集线性方程的基准任务中报告的性能对它们进行评级。
但计算专家表示,美国和中国很可能不会公开分享有关其计算资产的信息,特别是因为两国之间的紧张关系越来越大。“超级计算有一种竞赛的想法,”华盛顿特区智库大西洋理事会(Atlantic Council)的政策研究员凯文·克莱曼(Kevin Klyman)说。事实上,在 2022 年,美国总统乔·拜登 (Joe Biden) 的政府实施了针对向中国出口半导体的控制措施,特别是出于对中国超级计算能力的担忧。
在超级计算领域,紧张局势始于几年前。值得注意的是,2016 年,中国在 TOP500 榜单上的超级计算机数量超过了美国。“这在美国引起了很多焦虑,”克莱曼说。“很多美国政策制定者说,'我们如何赶上这个名单?'
目前,在今年 6 月发布的 TOP500 排名中,这两个国家拥有最多的超级计算机。美国拥有 168 台机器,而中国有 80 台。然而,研究人员想知道,这些国家是否拥有他们尚未公开披露的强大超级计算机。事实上,自去年 11 月包括 104 台机器以来,当前榜单上的中国机器数量已经下降。中国没有报告任何新超级计算机的结果。
Oak Ridge 已经在规划 Frontier 的继任者 Discovery,其计算速度应该可以提高 3 到 5 倍。这将是数十年来对速度的追求中的最新一次(参见“速度记录”)。Frontier 比 2014 年最快的计算机“天河 2A 号”快 35 倍,比 2004 年最快的超级计算机“地球模拟器”快 33000 倍。

研究人员渴望更快的速度。她说,例如,更大的计算机将使 Schneider 能够以更高的分辨率对星系进行建模。它还可以为科学家提供更大的计算预算。
但工程师们面临着一个持续的挑战:超级计算机消耗大量能源,而未来的机器可能需要更多能源。因此,研究人员正在继续推动能源效率的改进。Frontier 的效率是 Summit 的四倍多,这在很大程度上是因为它在环境温度下由水冷却,这与 Summit 使用冷冻水不同。Frontier 总能耗的 3-4% 左右用于冷却,而 Summit 的这一比例为 10%。
多年来,能源效率一直是构建更快超级计算机的关键瓶颈。“我们本可以在 2012 年建造一台百万兆次级超级计算机,但为它提供动力的成本太高了,”Messer 说。“我们需要多一两个数量级的电力才能为它供电。”
当橡树岭设施的夜幕降临时,Frontier 地板上的走廊上空无一人,只剩下一名骨干工作人员。在超级计算机的控制室里,Conner Cunningham 负责照顾 Frontier 过夜。从晚上 7 点到早上 7 点,他的工作是确保在超级计算机处理来自世界各地研究人员的任务时不会出现任何麻烦。他使用十几台监视器密切关注 Frontier,这些监视器显示全球网络安全威胁和大楼的安全摄像头录像。角落里的电视机静音播放当地的天气,以提醒他任何即将到来的可能中断电力供应的暴风雨。
但大多数夜晚都足够安静,让 Cunningham 可以在他的书桌上学习在线计算机科学学位。他会进行一些演练,以检查场所是否有任何意外情况,但这项工作在很大程度上是被动的。
“这有点像消防员,”他说。“如果发生任何事情,你需要有人看着。”他采购了四个墨西哥卷饼和一些百事可乐来维持他的轮班生活。他今晚不会睡觉——Frontier 也不会。
自然 633, 22-25 (2024)
doi: https://doi.org/10.1038/d41586-024-02832-5