21世纪经济报道记者 张赛男 南京报道
(相关资料图)
ChatGPT带火算力产业链,当市场还在热议算力的商业化应用将在哪个行业率先落地时,鲜为人知的是,高校早已开启了一场“算力革命”,赋能前沿学科的研究。
据记者不完全统计,上海交通大学、清华大学、中南大学、南京大学,北京大学、江苏大学、南方科技大学、厦门大学、青海大学等都已建设自己的算力中心。
近日,21世纪经济报道记者走进南京大学高性能计算中心看到:一个个指示灯闪烁不停,机房内嗡嗡作响,数十个机柜紧密排列,上千台服务器正在高效运转。这座“超级大脑”正在为南大师生提供高效可靠的高性能计算资源和服务。
(图为南京大学高性能计算中心内部)
早在2000年,南大就建设了第一台高性能计算机,随后进行了多次增建。2010年,高性能计算中心正式成立。但随着科技飞速发展,学校师生对高性能计算的需求日益增长,南京大学的计算资源缺口依然很大,2019年-2022年中心扩容速度明显加快。
高校作为基础研究的主阵地,正扛起推进AI研发和应用的大旗,如何构建AI所需的超高算力并加速科研成果转化早已提上日程。高性能计算中心,俨然成为高校科研的标配,悄然引领着潮水的方向。
科研创新基座
在政策支持下,近年来从国家到地方、再到企业都在布局数据中心集群,高校为什么还要建自己的计算中心?
这就不得不谈科研所面临的现实问题。“在使用其他超算中心的过程中,面临着数据存取的困难。我们的老师都在学校里搞科研,最方便的自然是把数据计算完后拿到自己那里分析、处理。如果在远端计算,要处理的数据量特别大,正常的网络传输都要七、八天,如果是这样的传输效率,可能我们的数据还没传到,其他科研组的计算结果就算出来了,你的科研工作就永远比人家慢了一拍。”南京大学高性能计算中心高级工程师盛乐标博士对21世纪经济报道记者表示。
2010年,南京大学高性能中心应运而生,是国内高校中较早成立的超算中心,旨在为全校各理工科院系的教师和学生提供高性能计算服务。发展至今,南京大学高性能计算中心已成为国内顶尖高校高性能计算中心之一,全系统共有33280个CPU核,理论浮点运算峰值1500万亿次/秒。
目前,高性能计算在南大科研中应用于多个领域,包括数据驱动磁流体力学模拟、量子力学与分子力学的混合计算、生物大分子全原子动力学模拟、系统仿真、新材料设计、中大尺度气象模式模拟、新冠病毒相关研究等。
“高性能计算平台在助力学校学科发展中,发挥了不可替代的重要作用。”南京大学高性能计算中心副主任周庆林表示,“仅2019至2021三年,高性能计算中心超算平台就支持了超百篇卓越学科论文的发表,并支撑学校教师承担三十多项国家重大科研项目。”
以高性能计算典型应用场景——行星物理环境模拟为例,受限于客观条件,对行星内部环境和物质的实验观测、研究挑战巨大,有必要采用理论模拟计算。依托南京大学高性能计算中心的高性能算力,物理学院师生研究了行星内部高压下的新材料,且大幅提高了研究效率,目前相关成果已在Nature、Physics、PRX、NSR等国际一流学术刊物发表。
地质探测也是高性能计算的典型应用场景,中国石油集团东方地球物理公司数据中心原总工程师赖能和表示:“高性能计算与AI技术结合大幅提升了油气勘探效率,同时企业与高校的合作,进一步促进了产学研用融合发展。”
“各个学科其实是类似的,计算资源越大,所能研究的科学问题就更多、可以做得更好。比如以前测试的精度是一公里,通过高性能计算能把精度做到10米;以前研究的维度是分子层次,现在能研究细胞层次,这些都是算力带来的。”盛乐标对21世纪经济报道记者说。
出于上述种种原因,算力中心建设在高校如火如荼。2021年,上海交通大学也启用了高性能计算机群——“思源一号”,一度在该领域抢尽风头。其总计算力达到6000万亿次/秒(双精度),在中国高校高性能计算排名第一,算力超过哈佛、剑桥等国际名校。自2013年以来,“思源一号”累计服务一级学科30多个,支撑用户发表高水平论文600多篇(其中CNS及其子刊47篇),为10多个学科提供了学科融合的计算服务。
软硬件储备和机遇
高性能计算中心(HPC,高性能计算)在高校如雨后春笋般兴起,背后是软硬件基础设施建设的完善。从产业链角度看,HPC涉及的资源有算力芯片(GPU/CPU)、ICT整机设备领域(交换机、路由器、服务器、安全设备、WLAN等)、基础电信运营、存储、液冷、云计算及系统集成等。
市场人士认为,长期来看,以ChatGPT为代表的AI应用正快速发展,而软端的迭代离不开硬件基础设备的保障,AI数据中心内部的各类的硬件基础设施环节有望充分受益。
近年来,无论是高校还是企业,都对高性能计算的需求不断增加,其产业链的自主可控也越发受到关注。
“目前我国高性能计算发展取得了非常好的成绩,中国TOP100高性能计算机平均能力比全球TOP500高出30%,其中自主研发的集群占95%,100台集群中有42台由联想制造,中国高性能计算已经进入全球第一梯队。” 赖能和介绍称。前述提到的包括南京大学在内多个高校的高性能计算中心就由联想帮助完成建设。
“在建造高性能计算系统的时候,联想一直秉承开放融合的态度,不仅支持传统的X86架构,还完成了对飞腾、海光等国产生态的支持。” 联想高性能计算和人工智能主任技术顾问郝常杰介绍说,联想目前已经具备了支持两条高性能计算产品线和解决方案的能力。
回顾起搭建校级平台的过程,郝常杰有诸多感慨:“会有些众口难调,高校有不同的需求,比如希望能够增加不同的配置,是用内存更大的、内存中等的还是够用的?还有加速的节点、用几路CPU去支撑各个学科的研究?我们一直在思考,怎样在高校建一个综合平台去满足各个学科不同的需求。”
在这个过程中,联想摸出了一些经验。“我们会关注整个系统架构的情况,比如要使用高带宽、低延迟、高速的网络,在计算的部分我们要有普通的CPU计算节点、GPU的加速节点,或者增加人工智能的研究、登录管理以及存储系统等。”郝常杰说。
而随着新兴技术的不断涌现,高性能计算也面临着新的机遇和挑战。中科院计算技术研究所、高通量计算机研究中心、处理器芯片重点实验室高级工程师李明宇指出:“AI与算力网络的发展给高性能计算带来新的挑战,比如各种模型、算法、开源项目快速发展,第三方库更新频繁,相互依赖关系复杂;算力需求和供给快速增长,跨站点算力调度需求大幅增长,环境配置和管理的复杂度与工作量也大大提升。”
“现在AI for science有了一些新的突破,无论是科研还是其他行业都会有很多机会。”李明宇对记者表示,“从科研角度来说,一个最直接的变化就是,以前科研遇到的问题不太能解决了,但换AI以后可能就解决了,这对于搞科研的人来说非常值得尝试。一旦尝试就需要算力,这个需求就产生了,而这个量可能比以前更大。”
标签: